Estudo da relação da complexidade dos dados de treino perante a diversidade dos classificadores
Por: Patrick Estrela • 3/12/2018 • Monografia • 16.674 Palavras (67 Páginas) • 199 Visualizações
Unioeste - Universidade Estadual do Oeste do Paraná[pic 1]
CENTRO DE CIÊNCIAS EXATAS E TECNOLÓGICAS
Colegiado de Ciência da Computação
Curso de Bacharelado em Ciência da Computação
Estudo da relação da complexidade dos dados de treino perante a diversidade dos classificadores
Patrick Eric Estrela
CASCAVEL 2018
PATRICK ERIC ESTRELA
Estudo da relação da complexidade dos dados de treino perante a diversidade dos classificadores
Monografia apresentada como requisito parcial para obtenção do grau de Bacharel em Ciência da Computação, do Centro de Ciências Exatas e Tec- nológicas da Universidade Estadual do Oeste do Paraná - Campus de Cascavel
Orientador: Prof. André Luiz Brun
CASCAVEL 2018
Patrick Eric Estrela
Estudo da relação da complexidade dos dados de treino perante a diversidade dos classificadores
Monografia apresentada como requisito parcial para obtenção do Título de Bacharel em Ciência da Computação, pela Universidade Estadual do Oeste do Paraná, Campus de Cascavel, aprovada pela Comissão formada pelos professores:
[pic 2]
Prof. André Luiz Brun (Orientador) Colegiado de Ciência da Computação, UNIOESTE
[pic 3]
Prof. Adair Santa Catarina Colegiado de Ciência da Computação,
UNIOESTE
[pic 4]
Prof. Josué Pereira de Castro Colegiado de Ciência da Computação, UNIOESTE
Cascavel, 15 de novembro de 2018
Alguns homens não procuram algo lógico, como dinheiro. Eles não podem ser comprados, intimi- dados, racionalizados ou negociados. Alguns ho- mens só querem ver o mundo queimar. - Alfred, Batiman
AGRADECIMENTOS
Gostaria de dedicar esse trabalho minha querida e amada Mãe Sra. Amelia Rosa Estrela, a pessoa que eu mais importante pra mim, por sempre me apoiar em meus sonhos, e me prover um estudo de qualidade.
Gostaria de agradecer meu irmão Jonathan A. Estrela por servir de inspiração a entrar em um universidade e sempre buscar por novos conhecimento e por trazer ao mundo umas das coisas mais lindas que eu já segurei em meus braços, que é a nossa princesa Sofia.
E agradecer meus grandes amigos que pra mim são como irmão o Gustavo Bernart e Ota- vio Vendrusculo por sempre me proporcionar grandes momentos de felicidade e compartilhar comigo diversos momentos que fizeram me sentir especial.
Agradecer ao meu Orientador André Brun por aceitar o meu pedido para ser meu orientador, e compartilhar seu conhecimento para realização deste trabalho, e por todas as intorções que me fizeram crescer tanto profissionalmente quanto no meio acadêmico.
E por fim agradecer uma das pessoas que mais me ajudou a seguir em frente em um dos momentos mais difíceis da minha vida a minha ex-psicologa Gabriela Fediuk.
Lista de Figuras
1.1 Exemplos de problemas de classificação entre diferentes espécies de peixes. . .3
- Etapas de um sistema de reconhecimento genérico. 6
- Conjuntos Representados em um Plano 2D. 8
- Representação gráfica do método KNN com um K = 3. 10
- Representação gráfica do método SVM. 11
- Representação gráfica da Função de limiar 13
- Representação gráfica da Função de limiar por partes. 13
- Representação gráfica da Função sigmoide. 14
- Representação de uma arvore de decisão. 15
- Classes com mesmo índice de discriminação (d1) mas com relações distintas. Adaptado de (LANDEROS, 2008). 22
- Mesmo índice de Fischer (d2) porém com diferente relação entre as classes. Adaptado de (LANDEROS, 2008). 22
- Ilustração da Equação 2.14 em que o numerador é representado por Min-Max enquanto o denominador por Max-Min. 23
- Representação grafia de um conjunto de gatos, representado apenas pelos atri- butos Peso X Tamanho 25
- Representação grafia de um conjunto de gatos, representado apenas pelos atri- butos Peso X Tamanho X Pelagem 25
- Cálculo de L1 com base em um classificador linear ótimo. 27
- Árvore de cobertura mínima construída com base em duas classes 28
- Representação da distância entre os vizinhos mais próximos intra e interclasses29
- Representação da aderência por esferas para duas classes 30
- Processo de geração do conjunto de teste adotado em L3. 32
- Estratégia de geração de subconjuntos por Bagging. 35
- Etapa de geração dos subconjuntos através do Bagging. 37
- Estimação da complexidade de cada subconjunto. 39
- Ilustração do cálculo da diversidade em complexidade do classificador C1 40
- Estimação das métricas de diversidade entre os classificadores. 41
- Exemplo de uma correlação positivamente fraca. 47
- Ilustração de um dos cenários onde observou uma correlação nula. 47
- Cenário em que se observou fraca correlação negativa. 48
Lista de Tabelas
2.1 Reapresentação de dois classificadores ao rotular um conjunto C e interpretação das métricas Falha dupla e Desacordo. 19
- Métricas de complexidade disponíveis na DCol utilizadas no trabalho. 38
- Mapeando dos acertos e erros de dez classificadores fictícios e cálculo da Falha Dupla de C1 perante todos os demais. 42
- Principais características das bases usadas nos experimentos. 44
- Valores médios entre as Métricas de diversidade e as Métricas de Complexidade.49
- Valores médios da correlação entre as acurácias e as dispersões no espaço de complexidade. 50
Lista de Abreviaturas e Siglas
D Desacordo
DCoL Data Complexity Library DF Falha Dupla
IA Inteligência Artificial KNN K-Nearest Neighbors NB Naive Bayes
...