Análise De Componentes Principais
Dissertações: Análise De Componentes Principais. Pesquise 862.000+ trabalhos acadêmicosPor: Paulaklefens • 5/8/2014 • 1.153 Palavras (5 Páginas) • 657 Visualizações
Análise de Componentes Principais
Origem: Wikipédia, a enciclopédia livre.
PCA de uma distribuição Gaussiana multivariada centrada em (1,3) com um desvio padrão de 3 aproximadamente na direção (0.878, 0.478) e desvio padrão 1 na direção ortogonal. Os vetores na figura são os autovetores da matriz de covariânciamultiplicados pela raiz quadrada do autovalor correspondente, e transladados de forma a iniciarem na média.
A Análise de Componentes Principaisou principal component analysis (PCA) é um procedimento matemático que utiliza uma transformação ortogonal para converter um conjunto de observações de variáveis possivelmente correlacionadas a um conjunto de valores de variáveislinearmente descorrelacionadaschamadas componentes principais. O número de componentes principais é menor ou igual ao número de variáveis originais. Esta transformação é definida de forma que o primeiro componente principal tem a maior variância possível (ou seja, é responsável pelo máximo de variabilidade nos dados), e cada componente seguinte, por sua vez, tem a máxima variância sob a restrição de ser ortogonal a (i.e., não-correlacionado com) os componentes anteriores. Os componentes principais são garantidamente independentes apenas se os dados forem normalmente distribuídos (conjuntamente). O PCA é sensível à escala relativa das variáveis originais. Dependendo da área de aplicação, o PCA é também conhecido pela transformada Karhunen–Loève (KLT) discreta,transformada deHotelling ou decomposição ortogonal própria (POD).
O PCA foi inventado em 1901 por Karl Pearson.1 Agora, é mais comumente usado como uma ferramenta de análise exploratória de dados e para fazer modelos preditivos. PCA pode ser feito por decomposição em autovalores de uma matriz decovariância (ou de correlação) ou por decomposição em valores singulares de umamatriz de dados, geralmente depois de centralizar (e normalizar ou usar pontuações-Z) a matriz de dados para cada atributo.2 Os resultados de PCA são geralmente discutidos em termos pontuações de componentes, também chamados de pontuações de fatores (os valores de variável transformados correspondem a um ponto de dado particular), e carregamentos (loadings), i.e., o peso pelo qual cada variável normalizada original deve ser multiplicada para se obter a pontuação de componente.3
O PCA é a mais simples das verdadeiras análises multivariadas por autovetores. Com frequência, sua operação pode ser tomada como sendo reveladora da estrutura interna dos dados, de uma forma que melhor explica a variância nos dados. Se visualizarmos um conjunto de dados multivariados em um espaço de alta dimensão, com 1 eixo por variável, o PCA pode ser usado para fornecer uma visualização em dimensões mais baixas dos mesmos dados, uma verdadeira "sombra" do objeto original quando visto de seu ponto mais informativo. Isto é feito usando-se apenas os primeiros componentes principais, de forma que a dimensionalidade dos dados transformados é reduzida.
O PCA é fortemente ligado à análise de fatores; de fato, alguns pacotes estatísticos propositadamente confluem as técnicas. A verdadeira análise de fatores faz assunções diferentes sobre a estrutura subjacente dos dados e encontra os autovetores de uma matriz levemente diferente.
Erro padrão
Origem: Wikipédia, a enciclopédia livre.
Erro padrão pode ser uma referência a:
• erro padrão (estatística), o desvio padrão estimado ou erro em uma série de medidas;
Desvio padrão
Origem: Wikipédia, a enciclopédia livre.
Em Probabilidade e Estatística, o desvio padrão é a medida mais comum da dispersão estatística (representado pelo símbolo sigma, σ). Ele mostra o quanto de variação ou "dispersão" existe em relação à média (ou valor esperado). Um baixo desvio padrão indica que os dados tendem a estar próximos da média; um desvio padrão alto indica que os dados estão espalhados por uma gama de valores.
O desvio padrão define-se como a raiz quadrada da variância. É definido desta forma de maneira a dar-nos uma medida da dispersão que:
1. seja um número não-negativo;
2. use a mesma unidade de medida dos dados fornecidos inicialmente.
Faz-se uma distinção entre o desvio padrão σ (sigma) do total de uma população ou de uma variável aleatória, e o desvio padrão de um subconjunto em amostra.
O termo desvio padrão foi introduzido na estatística por Karl Pearson no seu livro de1894: "Sobre a dissecção de curvas de frequência assimétricas".
Variância
Origem: Wikipédia, a enciclopédia livre.
Na teoria da probabilidade e na estatística, a variância de uma variável aleatória é uma medida da sua dispersão estatística, indicando quão longe em geral os seus valores se encontram do valor esperado.
A variância de uma variável aleatória real é o seu segundo momento central e também o seu segundo cumulante (os cumulantes só diferem dos momentos centrais a partir do 4º grau, inclusive). Sendo o seu valor o quadrado do Desvio Padrão.
Análise de variância
Origem: Wikipédia, a enciclopédia livre.
Análise de variância é a técnica estatística que permite avaliar afirmações
...