Análise de Uma Técnica de Interdependência
Por: Vinicius Stephanto • 26/9/2022 • Resenha • 899 Palavras (4 Páginas) • 127 Visualizações
Análise de Cluster
[pic 1] Created | @August 28, 2022 11:09 AM |
[pic 2] Data |
Roteiro
O que é
Uma técnica de interdependência[pic 3]
Nenhuma variável é considerada dependente ou independente, mas todas as variáveis são analisadas simultaneamente com a finalidade de encontrar uma estrutura para todo conjunto de variáveis.[pic 4]
Permite agrupar casos ou variáveis em grupos homogêneos, em função do grau de similaridade entre os indivíduos a partir de variáveis predeterminadas.[pic 5]
Considerada uma técnica exploratória[pic 6]
Explorar o banco de dados com base nesse método[pic 7]
Faz um estudo exploratório que verifica de que forma os dados podem se agrupar em conjuntos[pic 8]
O conjunto de variáveis é selecionado pelo pesquisador[pic 9]
Objetivo
Agrupar objetos com base em suas próprias características, buscando a sua estrutura “natural”[pic 10]
Deve-se segmentar as observações em grupos homogêneos[pic 11]
internamente e heterogêneos entre si
Aplicabilidade
Utilizado em diversas situações de pesquisa[pic 12]
Identificação de grupos de investimentos de acordo com perfis de risco[pic 13]
Identificação de segmentos homogêneos de consumidores[pic 14]
Identificação de grupos de alunos mais propensos à evasão escolar[pic 15]
Segmentar empresas com base em indicadores financeiros Uso em Big Data[pic 16][pic 17]
Usado por empresas de vendas para identificar grupos- alvo para recomendação de um produto[pic 18]
Ao estudar uma estrutura natural de grupos, permite: Avaliar a dimensionalidade dos dados[pic 19][pic 20]
Identificar outliers (Pontos de discrepância) Analisar associações na estrutura dos objetos[pic 21][pic 22]
K-means clustering
Uma técnica para obter os clusters[pic 23]
K-means clustering especificamente tenta colocar os dados dentro do número de clusters que você determina previamente[pic 24]
A ideia desse é ao colocar as observações em uma tabela, iniciarmos com pontos aleatórios. Em seguida, irmos calculando a média de distâncias entre o ponto e as observações para verificar de qual ponto aquela observação está mais próxima. Dessa forma, divide-se as observações em grupos baseado no ponto mais próximo. Coloca-se o ponto no centro desse grupo e verifica novamente em qual ponto as observações estão mais perto. Por fim, ir repetindo até chegar num resultado bom e obter os clusters[pic 25]
Exemplo 1
[pic 26]
Usando K=3[pic 27]
Coloque 3 pontos em lugares aleatórios[pic 28]
[pic 29]
Associa os dados em grupos baseado na distância do ponto[pic 30]
[pic 31]
[pic 32]
Centraliza os pontos no centro do grupo[pic 33]
[pic 34]
Repete o processo novamente[pic 35]
[pic 36][pic 37]
Por fim, repetindo o processo um número de vezes suficientes até não haver mais variância entre as distâncias dos dados até os pontos, terá esse resultado[pic 38]
[pic 39]
Exemplo 2
[pic 40]
Usando K=3[pic 41]
Será escolhido 3 pontos aleatórios e calcula a distância entre o ponto e o cluster[pic 42]
Cálculo será feito com a fórmula da distância[pic 43]
[pic 44]
Associe cada ponto à um grupo (cluster)[pic 45]
[pic 46]
Centralize o ponto de cluster no meio do grupo[pic 47]
[pic 48]
Repita o processo até não haver mais variações[pic 49]
[pic 50]
Como determinar o número de clusters para pegar (determinar o valor de K)
Método do cotovelo (elbow)
[pic 51]
Como determinar, usando matemática, que 3 clusters é a solução ideal?[pic 52]
Inicialmente devemos escolher um parâmetro para definir o quão bom é um clustering[pic 53]
Uma solução possível é utilizar o diâmetro de um clustering para determinar o tamanho de um clustering[pic 54]
...