Neste algorítmo, programado em PHP, foi usado para o cálculo das distâncias euclidianas, a moda simples para a classificação e a média simples para o caso de regressão.
Não é um bom algoritmo quando k (número de vizinhos) aumenta e um pouco demorado quando a quantidade para testar (amostra) aumenta muito. Com essas ressalvas, vamos às opções do algoritmo:
a)Tamanho da amostra e vizinhança
Pode-se optar por um k(vizinhança) variando de ímpares de 1 a 9 (impares para evitar empates na classificação). Pode-se optar por um tamanho da amostra de 100 a 900 registros (para não ficar demorado o processamento). Escolhido o tamanho da amostra, deve-se escolher a faixa de registros dessa amostra que servirão de treino.
b)Atributos
Foram considerados a idade, o sexo, o estado civil, a cor/raça, a nacionalidade, a situação no ensino médio e o tipo de escola.
c)Nota de aprovação(classificação)
Para ser verificada a possibilidade de aprovação ou não pelo algoritmo, deve-se dar uma nota mínima desejada de aprovação
Primeiro deve-se executar o programa abaixo para extrair alguns registros do ENEM e fazer um treinamento, variando o valor de 'k' e o tamanho da amostra, de forma a se verificar qual o melhor valor de 'k' e respectiva amostra. Descoberto esses melhores valores, deve-se entrar com eles num segundo programa, na fase de previsão, de forma a obter o resultado desejado.
Entre com os dados abaixo, e treine o algorítmo, que dependendo das opções pode demorar um pouco
Obs: Quanto mais perto da unidade estiver o erro médio, melhores serão o 'k' escolhido e o tamanho da amostra.
Voltar para treinamento neste algoritmo | Voltar para treinamento em outro algoritmo |