Alguns estudos de inteligência artificial com os dados do Enem/2021 - Algorítmo Knn

Neste algorítmo, programado em PHP, foi usado para o cálculo das distâncias euclidianas, a moda simples para a classificação e a média simples para o caso de regressão.

Não é um bom algoritmo quando k (número de vizinhos) aumenta e um pouco demorado quando a quantidade para testar (amostra) aumenta muito. Com essas ressalvas, vamos às opções do algoritmo:

a)Tamanho da amostra e vizinhança

Pode-se optar por um k(vizinhança) variando de ímpares de 1 a 9 (impares para evitar empates na classificação). Pode-se optar por um tamanho da amostra de 100 a 900 registros (para não ficar demorado o processamento). Escolhido o tamanho da amostra, deve-se escolher a faixa de registros dessa amostra que servirão de treino.

b)Atributos

Foram considerados a idade, o sexo, o estado civil, a cor/raça, a nacionalidade, a situação no ensino médio e o tipo de escola.

c)Nota de aprovação(classificação)

Para ser verificada a possibilidade de aprovação ou não pelo algoritmo, deve-se dar uma nota mínima desejada de aprovação

Primeiro deve-se executar o programa abaixo para extrair alguns registros do ENEM e fazer um treinamento, variando o valor de 'k' e o tamanho da amostra, de forma a se verificar qual o melhor valor de 'k' e respectiva amostra. Descoberto esses melhores valores, deve-se entrar com eles num segundo programa, na fase de previsão, de forma a obter o resultado desejado.

Entre com os dados abaixo, e treine o algorítmo, que dependendo das opções pode demorar um pouco

Obs: Quanto mais perto da unidade estiver o erro médio, melhores serão o 'k' escolhido e o tamanho da amostra.

Voltar para treinamento neste algoritmo Voltar para treinamento em outro algoritmo