Mineração de dados utilizando álgebra linear
Por: Jéssica Rodrigues • 17/5/2019 • Trabalho acadêmico • 333 Palavras (2 Páginas) • 326 Visualizações
Mineração de dados utilizando álgebra linear
1.Introdução
Este trabalho visa colocar em prática a mineiração de dados utilizando álgebra linear com a utilização MatLab como ambiente de prototipagem que foi trabalhado e explorado em sala.
A resolução de sistemas de equações lineares simultâneas é um dos problemas
numéricos mais comuns em aplicações científicas para simular situações do
mundo real.
O objetivo desse trabalho é utilizar um problema extraído do repositório archive.ics.uci.edu/ml cujo problema selecionado aborda as caracteristicas da planta Iris. A partir disso iremos visualizar e analisar como a matriz se comporta a partir da decomposição por valores singulares e elaborar um modelo de regressão logistica para classificar uma das categorias de cada uma de suas bases de dados.
2. Métodos
Foi utilizado o Matlab para a disponibilização dos dados do problema em um ambiente de prototipagem. A partir disso,conseguimos visualizar as matrizes e as informações que transmitem,isto é, as caracteríticas e os individuos.
Posteriormente fez-se a decomposição por valores singulares para cotejar o número de grupos e permitir visualização.
A matriz 'b' foi feita a partir da classificaçao da iris-setosa, onde os valores de posição 1 a 50 eram classificados como a desejada, entao foi riada uma matriz de 150:1 onde as 50 primeiras posiçoes foram preenchidar com 1 sendo a classificação desejada. Assim foi resolvido o problema linear usando SVD.
3. Discussão dos Resultados
A patir dos procedimentos citados e dos auto-valores apresentados na matriz S, podemos então determinar que um SVD truncado usando apenas duas colunas da matriz U e duas linhas da matriz Vt gera uma reproduçao aceitavel da matriz original A sem muita perda de conteudo.
Como cada coluna da matriz U representa uma caracteristica da flor podemos então observar que a primeira e segunda coluna representam aquelas que contem caracteristicas mais importantes. Já, com as linhas da matriz V(transposta) podemos comparar o grau que cada caracteristica se encaixa em cada caracterização, ou seja, o quanto cada caracteristica esta pertence daquela caracterização, sendo cada coluna uma caracteristica da planta e as linhas as caracterizaçoes (tamanho da petala, largura...)
...