5 Estatística Multivariada Análise de componentes principais

Share Embed


Descrição do Produto

José Francisco Moreira Pessanha [email protected]

Análise de Componentes Principais

Análise de componentes principais - ACP Introduzida por Karl Pearson em 1901. On lines and planes of closest fit to systems of point in space, Philosophical Magazine, Series 6, vol. 2, no. 11, pp. 559-572. Karl Pearson 1857 - 1936

“Conçue pour la première fois par Karl Pearson en 1901, intégrée à la statistique mathématique par Harold Hotelling en 1933, l’analyse en composantes principales n’est vraiment utilisée que depuis l’avènement et la diffusion des moyens de calculs actuels.” Lebart, Morineau et Piron Statistique Exploratoire Multidimensionnelle, 3e édition, Dunod, Paris, 2000.

Componentes principais Descrevem a estrutura de variância e covariância de variáveis correlacionadas x1,x2,...,xp em termos de um conjunto de novas variáveis y1, y2, ..., yp não correlacionadas. Cada yi é uma combinação linear das variáveis x1,x2,...,xp

yi  ai1 x1  ai 2 x2    aip x p Novas variáveis yi ordenadas em ordem decrescente de importância: y1 (1ª componente principal) concentra a maior parte da variação dos dados originais entre todas as combinações lineares de x1,x2,...,xp. y2 (2ª componente principal) é não correlacionada com y1 e concentra a maior parte da variação restante y3 (3ª componente principal) é não correlacionada com y1 e y2 e concentra uma parcela ainda menor da variação e assim sucessivamente.

Finalidades da ACP  Redução da dimensionalidade dos dados  Descrição e visualização de dados  Transformar as descorrelacionadas.

variáveis

em

novas

variáveis

 Extração de sinal contido nos dados (Eliminar ou reduzir o ruído presente nos dados)

 Ordenação dos objetos  Construção de números índices

Alguns exemplos de aplicação da ACP As componentes principais proporcionam a redução de dimensionaldade As primeiras k (k Var Y2 > .... > Var Yp • Algebricamente, as componentes principais são combinações lineares das “p” variáveis aleatórias X1, X2, ..., Xp; • Geometricamente, as combinações lineares representam um novo sistema de coordenadas obtido pela translação e rotação do sistema original com X1, X2, ..., Xp como eixos; •

Os novos eixos representam as direções com as maiores variabilidades e fornecem uma descrição mais simples e mais parcimoniosa da estrutura de covariância, pois as componentes principais são não correlacionadas;



As componentes principais podem ser obtidas a partir da matriz de correlação (r) ou da matriz de covariâncias () de X1, X2, ..., Xp. O seu desenvolvimento não necessita da suposição de normalidade.

Resumindo

Roteiro para obtenção das componentes principais

X1  X2  X3  ... Xp  Variáveis originais

Matriz  ou r

 Y1 Calcular Calcular Selecionar  Y2 os os as     Y3 autovalores autovetores componentes ...  e principais  Yp Componentes principais

Teorema da decomposição espectral Seja  a matriz de covariância do vetor aleatório X. O vetor aleatório X tem p variáveis aleatórias A matriz  tem p autovetores e1, e2,...,ep e p autovalores 1>2>...> p Pelo teorema da decomposição espectral tem-se que:

  1e1e1T  2e2e2T     p e p eTp  e11   e p1      e  12   ep2    1  e11 e12  e1 p      p  e p1 e p 2  e pp        e  e   1p   pp 

Organizando a soma na forma matricial  e11 e 12     e1 p

e21  e p1  1   e11 e12  e e22  e p 2   2   21 e22         e2 p  e pp    p  e p1 e p 2

 e1 p   e2 p       e pp 

Matriz P, cada colunaMatriz diagonal  formada Matriz PT. cada pelos autovalores em linha é um é um autovetor ordem decrescente autovetor

 X  PPT

Matriz de covariância das componentes principais Componentes principais  y1   e11 e12  e1 p  x1      x  y e e  e  2   21 22 2 p  2                   y  e  p   p1 e p 2  e pp  x p 

Y  PT X

Matriz de covariância das componentes principais

Y  PT  X P Pela decomposição espectral tem-se que

Logo

 X  PPT

Y  PT PPT P

Y  

Como os autovetores são ortonormais PTP=I ou PPT=I

1  Matriz diagonal  formada   pelos autovalores em  2   Y  ordem decrescente      As componentes principais  p  são não correlacionadas 

Conservação da variância total Relação entre as matriz de covariância das variáveis originais e das componentes principais

Y  PT  X P Variância total é o traço da matriz de covariância



TraçoY   Traço PT  X P



A permutação dos elementos de um produto não muda o traço T    Traço Y  Traço  X PP 

Como os autovetores são ortonormais PTP=I ou PPT=I

TraçoY   Traço X 

 1    11  12   1 p             21 2 22 2p  Traço  Traço                    p p2 pp    p1

Variância total das p componentes principais é igual a variância total das p variáveis

1  2     p   11   22     pp

1>2>...> p

Conservação da variância total Variância total das p componentes principais é igual a variância total das p variáveis X2 Y2 Y1

1  2   11   22

Nuvem de observações

X1

Como 1>2>...> p

As componentes principais oferecem uma nova base vetorial para expressar as variáveis. Ou seja, mudam apenas o sistema de referência e não a nuvem de pontos.

As primeiras componentes principais concentram a maior parte da variância total

Critérios de seleção do número de componentes 1) Kaiser ou Método da Raiz Latente: selecionar apenas as componentes com autovalores maiores que 1 2) Escolha as m (m < p variáveis) primeiras componentes principais que concentrem pelo menos 80% da variabilidade total das variáveis originais. Se m=2, isto significa que o fenômeno sob estudo pode ser muito simplificado; m

 i 1 p

i

 i 1

100%  80%

i

3) Scree test – gráfico dos autovalores.

Scree-plot 1 ou 2 componentes principais concentram a maior parte da variação total

Análise de componentes principais no R Comando princomp (EVERITT, 2007) acp
Lihat lebih banyak...

Comentários

Copyright © 2017 DADOSPDF Inc.