Estatística Multivariada
Prof. José Francisco
[email protected]
Normal multivariada
Normal Multivariada Função densidade conjunta e contorno de probabilidade
Prof. José Francisco Moreira Pessanha
[email protected]
Distribuição normal univariada
Seja x uma variável aleatória normalmente distribuída com média µ e desvio-padrão σ
(
X ~ N µ ,σ 2
)
A função densidade da normal é totalmente caracterizada por dois parâmetros: a média: E(x) = µ a variância: Var(x) = σ2
X tem distribuição Normal com média µ e variância σ2
1 f (x ) = ⋅e 2π σ
f(x)
1 x−µ − ⋅ 2 σ
2
A função densidade f(x) é simétrica em torno da média µ da distribuição e possui a forma de um sino
µ
x
Distribuição normal univariada
x ~ N(µ,σ2) f (x ) =
Função densidade de probabilidade
( )
2πσ = (2π ) ⋅ σ 2
12
1 2πσ
2
e
1 x−µ − 2 σ
2
2 12 2
(
)( ) (
)
x −µ −1 = x −µ σ 2 x −µ σ Quadrado da distância entre x e a média µ em unidades de desvios padrão Número de desvios padrão entre x e a média
Substituindo em f(x) tem-se:
f (x ) =
1
(2π )
12
( )
⋅σ
2 1/ 2
e
−
( )
1 ( x−µ ) σ 2 2
−1
( x−µ )
Distribuição conjunta de p normais independentes
(
xi ~ N µ i , σ Densidades marginais
Densidade conjunta
2 i
)
∀i = 1,p
f (xi ) =
variáveis aleatórias independentes
1 2πσi2
e
1 x −µ − i i 2 σi
f (x1,..., x p ) = ∏ p
1 2πσi2
i =1
f (x1,..., x p ) =
2
∀i = 1, p
e
1 x −µ − i i 2 σi
1
(2π)
p 2
σ12 σ 22 K σ 2p
2
p 1 xi − µ i − 2 i =1 σ i
∑
e
2
Distribuição conjunta de p normais independentes
f (x1,..., x p ) = σ12 0 2 2 2 σ1 σ 2 K σ p = det M 0
p
xi −µ i i =1 σ i
∑
p
xi −µ i i =1 σ i
∑
2
0 σ22 0
(
= x1 −µ1
2
(
= x1 −µ1
∑
1
(2π)
p 2
0 0 =Σ O M K σ 2p
p 1 xi −µ i − 2 i =1 σ i
e
σ σ Kσ 2 1
2 2
2
2 p
K
x2 − µ 2 K x p − µ p
x2 − µ 2 K x p − µ p
)
1 σ12 0
L
1 σ 22
M
O
0
2 σ1 0 M 0
)
0
0
0 σ 22 0
L
L 0 0 O M L σ 2p
0 x1 −µ1 0 x2 − µ 2 M M 1 x p −µ p σ 2p −1
x −µ 1 1 x2 − µ 2 = X −µ M x −µ p p
(
)T Σ −1 ( X −µ )
Distribuição conjunta de p normais independentes
x1 X = M x p
µ1 E (X ) = µ = M µ p
σ12 0 Σ= M 0
0 σ 22 0
0 0 O M L σ 2p L
Matriz de covariâncias diagonal, pois as p variáveis aleatórias são independentes
Densidade conjunta
f (x1 ,K , x p ) = f ( X ) =
1
(2π )
p 2
Σ
1 2
e
−
1 ( X − µ )T Σ −1 ( X − µ ) 2
Distribuição normal multivariada A distribuição normal multivariada é uma generalização da normal univariada Matriz de covariâncias
µ1 σ 11 L σ 1 p x1 X = M ~ N p M , M O M x p µ p σ p1 L σ pp
X ~ N p (µ , Σ ) A função densidade da normal multivariada é caracterizada pelo vetor de médias e pela matriz de covariância
Normal p variada Vetor de médias (p variáveis aleatórias)
Função densidade de probabilidade de X ~ Np(µ ,Σ)
f ( X ) = f (x1 ,..., x p ) =
(2π )
1 p 2
Σ
1/ 2
e
−
1 ( X − µ )T (Σ )−1 ( X − µ ) 2
Distância de Mahalanobis
Distância de Mahalanobis Encontra-se no expoente da função densidade da normal
(x − µ )T (Σ )−1 (x − µ )
Quadrado da distância generalizada entre X e a média µ
pxp 1xp px1
Exemplo: Normal bivariada (p=2)
x1 x1 = peso kg X = x = altura cm x2 2 70 µ = 175
25 9 Σ = 9 16
Prasanta Chandra Mahalanobis 1893 - 1972
(x − µ ) (Σ ) (x − µ ) T
−1
25 9 (x1 − 70 x2 − 175) 9 16 1 92 1− 25 ⋅16
−1
x1 − 70 x2 − 175
x − 70 2 x − 175 2 ( x1 − 70)( x2 − 170) 1 2 + − 2 ρ12 25 16 25 ⋅ 16
Normal bivariada Normal bivariada ( p = 2 )
µ1 σ 11 σ 12 x1 X = ~ N 2 , µ σ σ 2 12 22 x2
Parâmetros da distribuição normal bivariada Vetor de médias
Matriz de covariâncias
σ11 Σ= σ12
µ x1 µ = µ x2
σ12 σ 22
Obtenha a densidade conjunta
f (X ) =
1
(2π )Σ p/2
1/ 2
e
−
1 ( x − µ )T (Σ )−1 ( x − µ ) 2
Normal bivariada Matriz de covariâncias em função das variâncias e do coeficiente de correlação linear
σ11 σ12 σ11 Σ= = σ12 σ 22 ρ12 σ11σ 22 ρ12 =
σ12 ⇒ σ12 = ρ12 σ11σ 22 σ11σ 22
ρ12 σ11σ 22 σ 22
ρ12 = coeficiente de correlação entre x1 e x2
Determinante da matriz de covariâncias = variância generalizada σ 11 ρ12 σ 11σ 22 Σ= = σ 11σ 22 − ρ122 ⋅ σ 11σ 22 = σ 11σ 22 ⋅ (1 − ρ122 ) ρ12 σ 11σ 22 σ 22 1 − ( X − µ )T (Σ )−1 ( X − µ ) 1 2 f (X ) = e 1/ 2 2π p / 2 Σ
(
)
Normal bivariada σ 11 Σ= ρ12 σ 11σ 22
ρ12 σ 11σ 22 σ 22
(
det (Σ ) = σ 11σ 22 ⋅ 1 − ρ122
Inversa da matriz de covariâncias
σ 22 1 Σ = det (Σ ) − ρ12 σ11σ 22 −1
− ρ12 σ11σ 22 σ11
σ 22 − ρ12 σ11σ 22 σ11 − ρ12 σ11σ 22 1 ρ12 − σ σ σ 1 11 11 22 Σ −1 = 1 (1 − ρ122 ) − ρ12 σ σ σ 22 11 22 1 Σ = 2 σ11σ 22 1 − ρ12 −1
(
)
)
Normal bivariada
f (X ) =
1
(2π )Σ p/2
( X − µ ) (Σ ) T
−1
1/ 2
e
−
1 ( X − µ )T (Σ )−1 ( X − µ ) 2
( X − µ ) = (x1 − µ1
x2 − µ 2 ) ⋅
1 2 1− ρ12
1 σ 11 ρ12 σ 11σ 22
ρ12 σ 11σ 22 x1 − µ1 ⋅ x −µ 1 2 2 σ 22
2 2 ( )( ) µ µ µ µ x − x − x x 1 − − 1 2 1 1 2 2 2 1 (x − µ )T (Σ )−1 (x − µ ) = ρ + − 2 12 1 − ρ122 σ 11 σ 22 σ 11σ 22
Forma quadrática
Normal bivariada O expoente da densidade normal multivariada é o quadrado da distância generalizada ou distância de Mahalanobis: Quadrado da distância de Mahalanobis
( X − µ )T Σ −1 ( X − µ ) f (X ) =
1
(2π )Σ p/2
1/ 2
e
−
1 ( x − µ )T (Σ )−1 ( x − µ ) 2
Compare a expressão acima com o quadrado da distância euclidiana
Quadrado da distância euclidiana
x2
X Distância entre X e µ
µ
µ2 x1
µ1
( x1 − µ1 )2 + ( x2 − µ 2 )2 = ( x1 − µ1
x1 − µ1 = x 2 − µ 2 ) x2 − µ 2
( X − µ )T ( X − µ )
Normal bivariada Cálculo da distância de Mahalanobis
(X − µ )
T
( x1 − µ1
Σ −1 ( X − µ ) =
)
x2 − µ 2 ⋅
1 2 1− ρ12
1 σ 11 ρ12 σ 11σ 22
ρ12 σ 11σ 22 x1 − µ1 ⋅ = 1 x2 − µ2 σ 22
2 2 ( 1 x1 − µ1 x2 − µ 2 x1 − µ1 )(x2 − µ 2 ) + − 2ρ12 2 1 − ρ12 σ11 σ 22 σ11σ 22
Distância de Mahalanobis ⇒ Soma de parcelas adimensionais
Normal bivariada Função densidade de probabilidade da normal bivariada (p = 2)
f (x1 , x2 ) =
1
(
2π σ 11σ 22 1 − ρ122
f(x1,x2)
)
e
2 1 1 x1 − µ1 x2 − µ 2 − ⋅ + 2 σ 2 1− ρ12 σ 11 22
Função densidade centrada no vetor média
x2 x1
µ1
µ2
2 − 2 ρ12 ( x1 − µ1 )( x2 − µ 2 ) σ 11σ 22
µ1 µ = µ2
Normal bivariada Função densidade
f ( x1 , x2 ) =
1
(
2π σ 11σ 22 1 − ρ
2 12
)
e
2 1 1 x1 − µ1 x2 − µ 2 − ⋅ + 2 2 1− ρ12 σ 11 σ 22
2 − 2 ρ12 ( x1 − µ1 )( x2 − µ 2 ) σ 11σ 22
Fazendo o expoente da densidade normal multivariada igual a uma constante C2 tem-se a equação de uma elipse centrada na média: 1 2 1− ρ12
f (X ) =
1
(
2π σ 11σ 22 1 − ρ
2 12
)
e
2 x1 − µ1 + x2 − µ 2 σ σ 11 22
2 2 ( x − )( x − ) µ µ − 2 ρ12 1 1 2 2 = C σ 11σ 22
O lugar geométrico dos vetores X que satisfazem a igualdade acima é uma elipse centrada no vetor média e com eixos nas direções dos autovetores de Σ.
1 − C2 2
Valor da função densidade nos pontos que formam a elipse
µ1
µ2
Normal bivariada
Eixos da elipse são parelelos aos eixos das variáveis
Eixos da elipse são inclinados em relação aos eixos das variáveis
Eixos da elipse são inclinados em relação aos eixos das variáveis
Propriedades da distribuição normal multivariada Seja X um vetor aleatório com distribuição Np(µ,Σ) Propriedade 1) Combinações lineares das componentes de X tem distribuição normal combinação linear de p variáveis aleatórias normalmente distribuidas
y = a1 x1 + K + a p x p = (a1
x1 K a p ) M = a T X x p
(
y ~ N a T µ , a T Σa
)
q combinações lineares de p variáveis aleatórias normalmente distribuidas
y1 a11 K a1 p x1 Y = M = M O M M = AX y a x a L qp p q q1
(
Y ~ N q Aµ , AΣAT
)
Propriedades da distribuição normal multivariada Seja X um vetor aleatório com distribuição Np(µ,Σ) Propriedade 2) Subconjuntos das componentes de X têm distribuição normal multivariada x1 M x X q = (1) X = xq +1 X (2 ) M x p
µ1 M µ µ q = (1) µ = µ q +1 µ (2 ) M µ p
σ 11 M σ q1 Σ= σ q +1,1 M σ p1
σ 1,q +1 L σ 1q O M M σ q ,q +1 L σ qq L σ q +1,q σ q +1,q +1 O M M L σ pq σ p ,q +1
X (1) ~ N q (µ (1) , Σ11 )
X (2 ) ~ N p −q (µ (2 ) , Σ 22 )
L σ1 p O M L σ q , p Σ11 Σ12 = L σ q +1, p Σ 21 Σ 22 O M L σ pp
Propriedades da distribuição normal multivariada Seja X um vetor aleatório com distribuição Np(µ,Σ) Propriedade 3) Covariâncias nulas entre variáveis normalmente distribuidas indicam que são variáveis independentes
σ 11 0 Σ = 0 σ 22
x1 e x2 são independentes
Forma quadrática No caso geral, fazendo o expoente da função densidade igual a uma constante C2 tem-se a equação de um elipsóide centrado na média e com eixos nas direções dos autovetores da matriz de covariâncias Σ:
f (X ) =
1
(2π )Σ p/2
µ
1/ 2
e
−
1 ( X − µ )T (Σ )−1 ( X − µ ) 2
( X − µ )T (Σ )−1 ( X − µ ) = C 2
Elipsóide de vetor aleatório com distribuição normal trivariada
Forma quadrática T −1 2 ( ) ( ) As direções dos eixos do elipsóide X − µ Σ X − µ = C
são definidas pelas direções dos autovetores da matriz de covariâncias Σ. Os comprimentos dos semi-eixos do elipsóide são proporcionais aos autovalores da matriz de covariâncias Σ.
Σ⇒
e1
λ1
e e = 1 ∀i = 1, p T i i
e e j = 0 ∀i ≠ j T i
e2 K e p λ2 K λ p
autovetores autovalores
traço(Σ ) = λ1 + λ2 + K + λ p
Intervalo de probabilidade da normal univariada Seja x uma variável aleatória com distribuição normal com média µ e variância σ2, então
P (µ − 2σ ≤ x ≤ µ + 2σ ) = 95%
95%
2,0σ
2,0σ
2 desvios padrão em relação a média
Contorno de probabilidade
Seja X um vetor aleatório com distribuição normal Função densidade multivariada, X ~ Np(µ,Σ). da distribuição qui-quadrado
Neste caso, ( X − µ )T Σ −1 ( X − µ ) ~ χ 2p
p=1 p=2 p=3 p=4 p=5
Caso normal bivariada (p=2)
x1 X = x2 70 µ = 175
x1 = peso kg x2 = altura cm
25 9 Σ = 9 16
(x − µ ) (Σ ) (x − µ ) T
−1
25 9 (x1 − 70 x2 − 175) 9 16
−1
x1 − 70 x2 − 175
x1 − 70 2 x2 − 175 2 ( x1 − 70)( x2 − 170) 1 2 + − 2 ρ12 ~ χ2 2 9 25 16 25 ⋅ 16 1− 25 ⋅ 16
Contorno de probabilidade Sabemos que
(X − µ )
T
Σ −1 ( X − µ ) = C 2 define um elipsóide
No caso bivariado (p=2) a forma quadrática define uma elipse Que elipse contém 95% da probabilidade ? x1 − 70 2 x2 − 175 2 (x1 − 70)(x2 − 170) ≤ χ 2 (5% ) 1 + − 2 ρ 12 2 9 2 25 16 25 ⋅ 16 1− 25 ⋅ 16 2 2 ( )( ) 1 x − 70 x − 175 x 70 x 170 − − 2 1 2 1 2 P + − 2 ρ12 ≤ χ 2 (5% ) = 95% 9 2 25 16 25 ⋅ 16 1− 25 ⋅ 16
Resposta:
x2
x2
175
175
70
x1
χ 22 (5% ) = 5,99 95%
70
x1
95%
Contorno de probabilidade Caso normal bivariada (p=2)
x1 x1 = peso kg X = x = altura cm x2 2 70 (x1 − 70 µ = 175
(x − µ ) (Σ ) (x − µ ) T
−1 −1
25 9 x1 − 70 x2 − 175) 9 16 x2 − 175
25 9 Σ = 9 16
x1 − 70 2 x2 − 175 2 (x1 − 70)(x2 − 170) ~ χ 2 1 + − 2 ρ 12 2 92 25 16 25 ⋅ 16 1− 25 ⋅ 16
χ 22 (5% ) = 5,99
Equação do contorno de probabilidade x1 − 70 2 x2 − 175 2 ( 1 x1 − 70)( x2 − 170) + − 2 ρ12 ≤ 5,99 92 25 16 25 ⋅ 16 1− 25 ⋅ 16
Contorno de probabilidade No caso geral, temos o contorno com probabilidade 1-α de uma distribuição multivariada Equação do contorno de probabilidade 1-α
(X − µ )
T
Σ −1 ( X − µ ) ≤ χ p2 (α % )
Probabilidade do vetor aleatório pertencer ao contorno
[
]
Elipsóide centrado na média e com eixos nas direções dos autovetores da matriz de covariância O comprimento de cada semi-eixo do elipsóide é proporcional ao respectivo autovalor
P ( X − µ ) Σ −1 ( X − µ ) ≤ χ 2p (α ) = 1 − α T
Exemplo 1: Contorno de probabilidade Considere a normal bivariada com médias µ1=0 e µ2=2, variâncias σ11=2 e σ22=1 e covariância σ12= . Desenhe 2 o2 contorno de probabilidade de 50%.
2 Σ= 2 2
2 2 1
0 µ = 2
p=2
α = 50% 2 χ 2 (50% ) = 1,39
1) Calcule os autovalores de Σ
det (Σ − λI ) = 0 2−λ
2 2
2 2
1− λ
= 0 ⇒ (2 − λ )(1 − λ ) − 1 / 2 = 0 ⇒ λ2 − 3λ + 1,5 = 0
λ1 = 2,366 λ2 = 0,634
Exemplo 1: Contorno de probabilidade 2) Calcule os autovetores de Σ Autovetor associado com λ1
2 Σe1 = λ1e1 ⇒ 2 2
e11 2 2 e11 = 2,366 1 e21 e21
0,366e11 = 2 2 e21 e11 = 0,888 ⇒ e21 = 0,460 2 2 e11 = 1,366e21 Autovetor associado com λ2
2 e12 2 2 e12 Σe2 = λ2 e2 ⇒ = 0,634 1 e22 e22 2 2 1,366e12 = − 2 2 e22 e12 = −0,460 ⇒ e22 = 0,888 2 2 e12 = −0,366e22
Exemplo 1: Contorno de probabilidade 3) Desenhe o contorno de probabilidade χ 22 (50% ) = 1,39
λ1 = 2,366 λ2 = 0,634 0 µ = 2
χ 22 (0 ,5 ) ⋅ λ 2 χ 22 (0 ,5 ) ⋅ λ 1
x2
0,888 e1 = 0,460 − 0,460 e2 = 0,888 x1
Exemplo 1: Contorno de probabilidade Calculando os autovalores e autovetores de Σ com o R: 1) Entrando com a matriz de covariância no R por coluna: sigma=matrix(c(2,sqrt(2)/2,sqrt(2)/2,1),nrow=2) 2) Calculando os autovalores e autovetores: m=eigen(sigma);lambda=m$values;e=m$vectors > lambda [1] 2.3660254 0.6339746 λ1 λ2 >e [,1] [,2] Cada coluna é um autovetor [1,] -0.8880738 0.4597008 [2,] -0.4597008 -0.8880738 e1
e2
Exemplo 1: Contorno de probabilidade Desenhando o contorno com o R 1) Entrando com a matriz de covariância no R por coluna: sigma=matrix(c(2,sqrt(2)/2,sqrt(2)/2,1),nrow=2) 2) Desenhando o contorno de 50% plot(ellipse(sigma,centre=c(0,2),level=0.5,npoints=1000),type='l‘,a sp=1) ellipse = pacote obtido em http://pbil.univ-lyon1.fr/library/ellipse/ centre = vetor com as coordenadas do centro da elipse level = nível de probabilidade npoints = número de pontos type = tipo do ponto
Exemplo 1: Contorno de probabilidade Desenhando o contorno com o R
x2
x1
Exemplo 2: Contorno de probabilidade A tabela abaixo mostra a idade (anos) e o preço de venda (US$ 1000) para n = 10 carros usados, carro
1
2
3
4
5
6
7
8
9
10
idade x1
3
5
5
7
7
7
8
9
10
11
preço x2 2,30 1,90 1,00 0,70 0,30 1,00 1,05 0,45 0,70 0,30
a) Desenhe o contorno de probabilidade de 50% e conte quantas observações estão no interior do contorno. b) Os dados são provenientes de uma distribuição normal bivariada?
Exemplo 2: Contorno de probabilidade A tabela abaixo mostra a idade (anos) e o preço de venda (US$ 1000) para n = 10 carros usados, a) Desenhe o contorno de probabilidade de 50% e conte quantas observações estão no interior do contorno.
1.5 1.0 0.5 0.0
x2
2.0
2.5
3.0
#monta matriz de dados x1