Weka - Classificadores

Muitos aplicativos de aprendizado de máquina estão relacionados à classificação. Por exemplo, você pode classificar um tumor como maligno ou benigno. Você pode decidir se quer jogar fora, dependendo das condições climáticas. Geralmente, essa decisão depende de vários recursos / condições do clima. Portanto, você pode preferir usar um classificador em árvore para tomar sua decisão de jogar ou não.

Neste capítulo, aprenderemos como criar um classificador de árvore em dados climáticos para decidir sobre as condições de reprodução.

Configurando dados de teste

Usaremos o arquivo de dados meteorológicos pré-processado da lição anterior. Abra o arquivo salvo usando a opção Abrir arquivo ... na guia Pré - processamento , clique na guia Classificar e você verá a seguinte tela -

Guia Classificar

Antes de aprender sobre os classificadores disponíveis, vamos examinar as opções de teste. Você observará quatro opções de teste, conforme listado abaixo -

  • Conjunto de treinamento
  • Conjunto de teste fornecido
  • Validação cruzada
  • Divisão de porcentagem

A menos que você tenha seu próprio conjunto de treinamento ou um conjunto de testes fornecido pelo cliente, você usaria validação cruzada ou opções de divisão percentual. Na validação cruzada, você pode definir o número de dobras nas quais os dados inteiros seriam divididos e usados durante cada iteração do treinamento. Na divisão de porcentagem, você dividirá os dados entre treinamento e teste usando a porcentagem de divisão definida.

Agora, mantenha a opção de reprodução padrão para a classe de saída -

Opção de reprodução

Em seguida, você selecionará o classificador.

Selecionando Classificador

Clique no botão Escolher e selecione o seguinte classificador -

weka → classificadores> árvores> J48

Isso é mostrado na captura de tela abaixo -

Árvores Weka

Clique no botão Iniciar para iniciar o processo de classificação. Depois de um tempo, os resultados da classificação serão apresentados na tela, como mostrado aqui -

Botão de início

Vamos examinar a saída mostrada no lado direito da tela.

Diz que o tamanho da árvore é 6. Você verá muito em breve a representação visual da árvore. No Resumo, diz que as instâncias classificadas corretamente como 2 e as instâncias classificadas incorretamente como 3, também afirma que o erro absoluto relativo é de 110%. Também mostra a Matriz de Confusão. A análise desses resultados está além do escopo deste tutorial. No entanto, é possível concluir facilmente com esses resultados que a classificação não é aceitável e serão necessários mais dados para análise, para refinar a seleção de recursos, reconstruir o modelo e assim por diante até que você esteja satisfeito com a precisão do modelo. Enfim, é disso que trata a WEKA. Ele permite que você teste suas idéias rapidamente.

Visualizar resultados

Para ver a representação visual dos resultados, clique com o botão direito do mouse no resultado na caixa de listagem Resultado . Várias opções apareceriam na tela, como mostrado aqui -

Lista de resultados

Selecione Visualizar árvore para obter uma representação visual da árvore transversal, como visto na captura de tela abaixo -

Visualizar árvore

A seleção de erros do classificador Visualize visualizaria os resultados da classificação, como mostrado aqui -

Erros do classificador

Uma cruz representa uma instância classificada corretamente, enquanto os quadrados representam instâncias classificadas incorretamente. No canto inferior esquerdo da trama, você vê uma cruz que indica se o outlook está ensolarado e depois joga o jogo. Portanto, esta é uma instância classificada corretamente. Para localizar instâncias, você pode introduzir alguma instabilidade deslizando a barra deslizante da instabilidade .

O enredo atual é de perspectiva versus jogo . Eles são indicados pelas duas caixas de listagem suspensa na parte superior da tela.

Outlook Versus Play

Agora, tente uma seleção diferente em cada uma dessas caixas e observe como os eixos X e Y mudam. O mesmo pode ser alcançado usando as faixas horizontais no lado direito da plotagem. Cada faixa representa um atributo. O clique esquerdo na faixa define o atributo selecionado no eixo X enquanto um clique com o botão direito o define no eixo Y.

Existem vários outros gráficos fornecidos para uma análise mais profunda. Use-os criteriosamente para ajustar seu modelo. Um desses gráficos de análise de custo / benefício é mostrado abaixo para sua referência rápida.

Análise de custo-benefício

Explicar a análise nesses gráficos está além do escopo deste tutorial. O leitor é incentivado a aprimorar seus conhecimentos de análise de algoritmos de aprendizado de máquina.

No próximo capítulo, aprenderemos o próximo conjunto de algoritmos de aprendizado de máquina, que é o agrupamento.