José Francisco Moreira Pessanha
[email protected]
Análise de Componentes Principais
Análise de componentes principais - ACP Introduzida por Karl Pearson em 1901. On lines and planes of closest fit to systems of point in space, Philosophical Magazine, Series 6, vol. 2, no. 11, pp. 559-572. Karl Pearson 1857 - 1936
“Conçue pour la première fois par Karl Pearson en 1901, intégrée à la statistique mathématique par Harold Hotelling en 1933, l’analyse en composantes principales n’est vraiment utilisée que depuis l’avènement et la diffusion des moyens de calculs actuels.” Lebart, Morineau et Piron Statistique Exploratoire Multidimensionnelle, 3e édition, Dunod, Paris, 2000.
Componentes principais Descrevem a estrutura de variância e covariância de variáveis correlacionadas x1,x2,...,xp em termos de um conjunto de novas variáveis y1, y2, ..., yp não correlacionadas. Cada yi é uma combinação linear das variáveis x1,x2,...,xp
yi ai1 x1 ai 2 x2 aip x p Novas variáveis yi ordenadas em ordem decrescente de importância: y1 (1ª componente principal) concentra a maior parte da variação dos dados originais entre todas as combinações lineares de x1,x2,...,xp. y2 (2ª componente principal) é não correlacionada com y1 e concentra a maior parte da variação restante y3 (3ª componente principal) é não correlacionada com y1 e y2 e concentra uma parcela ainda menor da variação e assim sucessivamente.
Finalidades da ACP Redução da dimensionalidade dos dados Descrição e visualização de dados Transformar as descorrelacionadas.
variáveis
em
novas
variáveis
Extração de sinal contido nos dados (Eliminar ou reduzir o ruído presente nos dados)
Ordenação dos objetos Construção de números índices
Alguns exemplos de aplicação da ACP As componentes principais proporcionam a redução de dimensionaldade As primeiras k (k Var Y2 > .... > Var Yp • Algebricamente, as componentes principais são combinações lineares das “p” variáveis aleatórias X1, X2, ..., Xp; • Geometricamente, as combinações lineares representam um novo sistema de coordenadas obtido pela translação e rotação do sistema original com X1, X2, ..., Xp como eixos; •
Os novos eixos representam as direções com as maiores variabilidades e fornecem uma descrição mais simples e mais parcimoniosa da estrutura de covariância, pois as componentes principais são não correlacionadas;
•
As componentes principais podem ser obtidas a partir da matriz de correlação (r) ou da matriz de covariâncias () de X1, X2, ..., Xp. O seu desenvolvimento não necessita da suposição de normalidade.
Resumindo
Roteiro para obtenção das componentes principais
X1 X2 X3 ... Xp Variáveis originais
Matriz ou r
Y1 Calcular Calcular Selecionar Y2 os os as Y3 autovalores autovetores componentes ... e principais Yp Componentes principais
Teorema da decomposição espectral Seja a matriz de covariância do vetor aleatório X. O vetor aleatório X tem p variáveis aleatórias A matriz tem p autovetores e1, e2,...,ep e p autovalores 1>2>...> p Pelo teorema da decomposição espectral tem-se que:
1e1e1T 2e2e2T p e p eTp e11 e p1 e 12 ep2 1 e11 e12 e1 p p e p1 e p 2 e pp e e 1p pp
Organizando a soma na forma matricial e11 e 12 e1 p
e21 e p1 1 e11 e12 e e22 e p 2 2 21 e22 e2 p e pp p e p1 e p 2
e1 p e2 p e pp
Matriz P, cada colunaMatriz diagonal formada Matriz PT. cada pelos autovalores em linha é um é um autovetor ordem decrescente autovetor
X PPT
Matriz de covariância das componentes principais Componentes principais y1 e11 e12 e1 p x1 x y e e e 2 21 22 2 p 2 y e p p1 e p 2 e pp x p
Y PT X
Matriz de covariância das componentes principais
Y PT X P Pela decomposição espectral tem-se que
Logo
X PPT
Y PT PPT P
Y
Como os autovetores são ortonormais PTP=I ou PPT=I
1 Matriz diagonal formada pelos autovalores em 2 Y ordem decrescente As componentes principais p são não correlacionadas
Conservação da variância total Relação entre as matriz de covariância das variáveis originais e das componentes principais
Y PT X P Variância total é o traço da matriz de covariância
TraçoY Traço PT X P
A permutação dos elementos de um produto não muda o traço T Traço Y Traço X PP
Como os autovetores são ortonormais PTP=I ou PPT=I
TraçoY Traço X
1 11 12 1 p 21 2 22 2p Traço Traço p p2 pp p1
Variância total das p componentes principais é igual a variância total das p variáveis
1 2 p 11 22 pp
1>2>...> p
Conservação da variância total Variância total das p componentes principais é igual a variância total das p variáveis X2 Y2 Y1
1 2 11 22
Nuvem de observações
X1
Como 1>2>...> p
As componentes principais oferecem uma nova base vetorial para expressar as variáveis. Ou seja, mudam apenas o sistema de referência e não a nuvem de pontos.
As primeiras componentes principais concentram a maior parte da variância total
Critérios de seleção do número de componentes 1) Kaiser ou Método da Raiz Latente: selecionar apenas as componentes com autovalores maiores que 1 2) Escolha as m (m < p variáveis) primeiras componentes principais que concentrem pelo menos 80% da variabilidade total das variáveis originais. Se m=2, isto significa que o fenômeno sob estudo pode ser muito simplificado; m
i 1 p
i
i 1
100% 80%
i
3) Scree test – gráfico dos autovalores.
Scree-plot 1 ou 2 componentes principais concentram a maior parte da variação total
Análise de componentes principais no R Comando princomp (EVERITT, 2007) acp