Relatório Sobre Desafios de Inteligência Artificial
Por: Beatriz Rodrigues • 23/4/2016 • Relatório de pesquisa • 701 Palavras (3 Páginas) • 453 Visualizações
Descrição do processo de geração de novas Features
Disciplina de Inteligência Artificial do Curso de Bacharelado em Ciência da Computação – Unifal-MG
Beatriz Rodrigues
Fillipe Cesarini
Hugo Camargo
Rodrigo Figueiredo
Willian Soares
Feature, em Inteligência Artificial é qualquer arranjo de dados em que seja possível extrair informações, relevantes ou não, de um conjunto de dados. Neste caso de uso, utilizamos de alguns métodos para a criação de uma nova Feature:
- Primeiramente, analisamos a forma em que os dados se encontram no conjunto fornecido. Nesta competição, os dados foram fornecidos em arquivos ‘.csv’.
- Tentamos procurar alguma relação nova olhando os dados fornecidos ou procurando ideias com outros times.
- Após a hipótese de uma nova feature, tentamos procurar algum traço de relevância, observando pessoalmente os dados fornecidos.
- Implementamos a função em Java e executamos todo o algoritmo do processo.
- Após a saída dos dados, geramos novos gráficos utilizando o RStudio.
- Então, com a nova feature feita e com a promessa de sucesso, os algoritmos ‘XGBoost’ e ‘M5P Tree’ são executados no conjunto de dados.
- Após a normalização dos valores das relevâncias, o código é executado novamente, com as novas alterações geradas pelo ‘Weka’.
- A nova saída é incluída com os arquivos relacionados aquela versão e submetida ao Kaggle. Se o novo erro for menor que o erro anterior, a feature é considerada positiva e é mantida.
Desde 09/03/2016, o grupo fez uma nova feature, utilizando a extração de radicais das palavras, para a comparação de palavras na sua forma normal com as palavras da pesquisa.
Utilizando a biblioteca ‘WordNet’, conseguimos extrair do conjunto de palavras se a palavra na memória é um verbo, adjetivo, substantivo ou advérbio. Com essas informações, conseguimos comparar com mais precisão a relação de palavras da pesquisa com a descrição dos produtos.
Com essa nova ferramenta, tivemos uma diminuição considerável no erro gerado. Os dois gráficos abaixo, mostram a diferença entre relações das palavras da pesquisa e título ou descrição do produto.
[pic 1]
Matchs da Query-Title, palavras sem o tratamento
[pic 2]
Matchs da Query-Title, palavras com o tratamento
[pic 3]
Matchs da Query-Descrição, palavras sem o tratamento
[pic 4]
Matchs da Query-Descrição, palavras com o tratamento
Podemos perceber uma relação de relevância-quantidade de matchs nestes casos. Após fazer a normalização das notas com o RStudio, tivemos uma diminuição considerável no erro gerado pelo nosso algoritmo.
A figura abaixo, mostra o erro gerado por uma versão antiga que não utilizava o método dos radicais.
[pic 5]
Já esta figura abaixo, mostra o erro gerado pelo algoritmo que utiliza o método de comparação com radicais.
...