Estatística Multivariada
Prof. José Francisco
[email protected]
Inferência sobre o vetor de médias
Distribuições amostrais Seja X1, X2, ..., Xn observações multivariadas de uma amostra aleatória de tamanho n extraída de uma população X~Np(,). x11 X1 x 1p
x21 X2 x 2p
Os estimadores 1 n X X i (vetor px1) n i 1 1 n S Xi X Xi X n 1 i 1
...
xn1 Xn x np
T
(matriz pxp)
São independentes e têm as seguintes distribuições:
1 X ~ NP , n
n 1S ~ Wishartn 1
Grandes amostras Seja X1, X2, ..., Xn observações multivariadas de uma amostra aleatória de tamanho n extraída de uma população p-variada com vetor de médias e matriz de covariâncias . x11 X1 x 1p
x21 X2 x 2p
xn1 Xn x np
...
Então, Para n-p grande
1 X ~ N P , n
T
n X S 1 X ~ P2
Inferência sobre o vetor de médias – Caso univariado Seja x1, x2, ..., xn observações de uma amostra aleatória de tamanho n extraída de uma população N(,2). Teste de hipóteses:
H 0 : 0 H1 : 0
Estatística teste
X 0 S2 n
Sob a hipótese nula
t calculado
X 0 S2 n
~ t n 1
H0 é rejeitada ao nível de significância se t calculado > t() tabelado
Inferência sobre o vetor de médias – Caso univariado t tabelado
se t calculado
X 0 2
S n
X se
2
0
2
S n
t n 1 / 2 rejeito H0
t n 1 / 2 rejeito H0 2
X t
n X 0 S
2 1
0
/ 2
2
n 1
rejeito H0
Inferência sobre o vetor de médias – Caso multivariado
Seja X1, X2, ..., Xn observações multivariadas de uma amostra aleatória de tamanho n extraída de uma população X~Np(,). x11 X1 x 1p
x21 X2 x 2p
...
xn1 Xn x np
1 1, 0 H0 : p p ,0 Teste de hipóteses simultâneas 1 1, 0 H1 : p p ,0
Inferência sobre o vetor de médias – Caso multivariado
T
Estatística teste = n X 0 S 1 X 0
pn 1 X 0 ~ Fp , n p n p
T
Sob H0 n X 0 S
1
T2 de Hotelling
H0 é rejeitada ao nível de significância se
pn 1 X 0 Fp ,n p n p
T
n X 0 S
1
T 1 pn 1 P n X 0 S X 0 F p ,n p n p
Exemplo 1: Considere a amostra de 3 observações de uma população normal bivariada.
6 9 n=3 X 10 6 p=2 8 3
Avalie a estatística T2 para 0T = (9 5). Neste caso, qual a distribuição amostral de T2 ?
T
T n X 0 S 1 X 0 2
x1 1 n 1 6 10 8 1 24 8 X X i 3 9 6 3 3 18 6 x 2 n i 1 s11
2 2 2 6 8 10 8 8 8
s22
2 2 2 9 6 6 6 3 6
2
s12
2
4 9
6 89 6 10 86 6 8 83 6 3 2
4 3 S 3 9
1 S 3 19 1
1 9 4 27
Exemplo 1 (continuação)
T
T n X 0 S 1 X 0 2
8 9 T 3 6 5
T
2
1
4 3 8 9 3 9 6 5
1 T 2 3 1 1 3 1 9
1 1 7 9 4 1 9 27
Distribuição de T2
pn 1 23 1 Fp ,n p F2,32 4 F2,1 n p 3 2
T2 calculado
Exemplo 2: A matriz de dados abaixo apresenta medições sobre os níveis de três componentes da transpiração, coletadas em uma amostra com 20 mulheres: X1 X2
X3
X1 = taxa de suor X2 = teor de sódio X3 = teor de potássio
n=20
Teste a hipótese H0: T = (4 50 10) contra H1: T (4 50 10), considerando um nível de significância de 10%. p=20
Exemplo 2 (continuação): agora com o R Arquivo texto T5-1.dat
X1 X2
X3
Dados no arquivo texto T5-1.dat Carregando o arquivo no R X = read.table("T5-1.dat") Estimativas do vetor de médias e da matriz de covariâncias
n=20
mu_hat=apply(X,2,mean)
X sigma_hat=var(X) p=20
S
Exemplo 2 (continuação) Matriz inversa de S sinv=solve(sigma_hat)
T2 calculado
T
T n X 0 S 1 X 0 9,7388 2
0
X
No R é mais fácil
20*(mu_hat-c(4,50,10))%*%sinv%*%(mu_hat-c(4,50,10))
n
X 0
S
1
X 0
Exemplo 2 (continuação)
pn 1 320 1 F p ,n p 10% * 2,4374 8,1726 n p 20 3 No R é mais fácil
(3*19/17)*qf(0.9,3,17) T2 calculado = 9,7388 > 8,1726 Rejeito H0 ao nível de significância de 10%
Teste da Razão de Verossimilhança Seja X~Np(,) e considere a função de verossimilhança obtida a partir de uma amostra aleatória com n observações:
L,
1
2
np / 2
n/2
e
n
X i 1 X i
1/ 2
i 1
Os valores de e que maximizam a função de verossimilhança são as estimativas obtidas pelos estimadores de máxima verossimilhança: x1 1 n ˆ X X i n i 1 xp
ˆ 11 ˆ 1 p 1 n ˆ X i X X i X ˆ n i 1 ˆ pp p1
T
Teste da Razão de Verossimilhança Sob a hipótese nula H0: =0 a função de verossimilhança torna-se:
L 0 ,
1
2
np / 2
n/2
e
n
1 X i 0 X i 0
1/ 2
i 1
O vetor média 0 é fixo, mas pode variar. O valor mais provável de , com fixado em 0, é o que maximiza a função de verossimilhança L(0 , ): n 1 ˆ 0 X i 0 X i 0 T n i 1
Teste da Razão de Verossimilhança Para determinar se 0 é um valor plausível para o vetor média, a máxima verossimilhança L( 0 , ) é comparada com a máxima verossimilhança irrestrita L( , ). O resultado é a razão de verossimilhança ou LR statistic (likelihood ratio):
LR
max L 0 ,
max L,
,
Lambda de Wilks
2 n
ˆ ˆ 0
np 2
e ˆ 0 np / 2 2
np 2
n 2
n
e ˆ 2 np / 2 2
ˆ ˆ 0
n 2
Um valor muito pequeno para indica que a hipótese H0:=0 é improvável e portanto H0 deve ser rejeitada.
Teste da Razão de Verossimilhança A hipótese H0:=0 deve ser rejeitada em favor de H0:0 quando
max L 0 ,
LR max L, ,
n 2
ˆ c ˆ 0
Onde c é o percentil 1- da distribuição amostral de
Quando o tamanho da amostra n é grande a distribuição amostral de – 2Ln é bem aproximada por uma distribuição qui-quadrado.
max L 0 , 2 2 Ln 2 Ln ~ p max L , ,
Teste da Razão de Verossimilhança O teste baseado na estatística T2 é equivalente ao teste da razão da verossimilhança, pois há uma relação entre a estatística Lambda de Wilks e a estatística T2:
2/ n
ˆ
T 1 ˆ 0 n 1
T2
2
n 1 ˆ 0 ˆ
1
n 1
H0:=0 é rejeita para pequenos valores de 2/n ou, equivalentemente, grandes valores de T2.
Resumo das distribuições UNIVARIADO
MULTIVARIADO
Normal
Normal p variada
Normal Padrão Z
Normal p variada com média nula e mariz de covariâncias igual a identidade
t de Student
T2 de Hotelling
Qui-quadrada
Wishart
F
Lambda de Wilks
Intervalo de confiança Seja x1, x2, ..., xn observações de uma amostra aleatória de tamanho n extraída de uma população N(,2).
X 2
S n
~ t n 1
X P t n1 1 S2 n
X P t n1 t n1 1 2 S n 2 2 S S P X t n1 X t n1 1 n n
Probabilidade de que o intervalo contenha a verdadeira média
Intervalo com 1- de confiança
S2 S2 X t n1 X t n1 n n
Região de confiança Seja X1, X2, ..., Xn observações multivariadas de uma amostra aleatória de tamanho n extraída de uma população X~Np(,). x11 x21 xn1 ... X1 X2 Xn x x x 1p np 2p
T
n X S
1
pn 1 X ~ F p ,n p n p
Distribuição T2 de Hotelling
T pn 1 P n X S 1 X F p,n p 1 n p
Região = elipsóide
Região (Elipsóide em
Probabilidade de que a região contenha a verdadeira média
X ) com 1- de confiança T pn 1 1 nX S X F p ,n p n p
Exemplo 3: O departamento de controle de qualidade de uma fábrica de fornos de microondas realiza medições do nível de radiação emitida por estes aparelhos para verificar se os fornos fabricados atendem as especificações do projeto e as normas de segurança. Desenhe a região com 95% de confiança para o vetor média.
Para atender esta finalidade, uma amostra de 42 fornos de microondas é selecionada e ensaios em laboratório são conduzidos para medir o nível de radiação emitida com a porta fechada e com a porta aberta. A seguir são apresentados as amostras coletadas. Forno com a porta fechada (y1) = arquivo T4-1.dat 0.15 0.09 0.18 0.10 0.05 0.12 0.08 0.05 0.08 0.10 0.07 0.02 0.01 0.10 0.10 0.10 0.02 0.10 0.01 0.40 0.10 0.05 0.03 0.05 0.15 0.10 0.15 0.09 0.08 0.18 0.10 0.20 0.11 0.30 0.02 0.20 0.20 0.30 0.30 0.40 0.30 0.05 Forno com a porta aberta (y2) = arquivo T4-5.dat 0.30 0.09 0.30 0.10 0.10 0.12 0.09 0.10 0.09 0.10 0.07 0.05 0.01 0.45 0.12 0.20 0.04 0.10 0.01 0.60 0.12 0.10 0.05 0.05 0.15 0.30 0.15 0.09 0.09 0.28 0.10 0.10 0.10 0.30 0.12 0.25 0.20 0.40 0.33 0.32 0.12 0.12
Exemplo 3 (continuação):
0
5
Frequency
y1=read.table("T4-1.dat") hist(y1[,1])
10
15
Histogram of y1[, 1]
Distribuições assimétricas. Violação da hipótese de normalidade. Transformar as variáveis
0.0
0.1
0.2
0.3
0.4
y1[, 1]
10 5 0
Frequency
y2=read.table("T4-5.dat") hist(y2[,1])
15
20
Histogram of y2[, 1]
0.0
0.1
0.2
0.3 y2[, 1]
0.4
0.5
0.6
Exemplo 3 (continuação): Histogram of x1
6 4 0
2
x1=y1^(1/4) hist(x1)
Frequency
8
10
Transformação das variáveis
0.3
0.4
0.5
Distribuições simétricas.
0.6
0.7
0.8
x1
10 5 0
Frequency
x2=y2^(1/4) hist(x2)
15
20
Histogram of x2
0.3
0.4
0.5
0.6 x2
0.7
0.8
0.9
Exemplo 3 (continuação):
Matriz de dados X=cbind(x1,x2) Vetor de médias amostrais
xbarra=apply(X,2,mean) xbarra V1 V1 0.5642575 0.6029812
Matriz de covariâncias amostrais
S=var(X) S V1 V1 V1 0.01435023 0.01171547 V1 0.01171547 0.01454530
Matriz de covariâncias inversa
sinv=solve(S) sinv V1 V1 V1 203.4981 -163.9069 V1 -163.9069 200.7691
Exemplo 3 (continuação):
Equação da região com 95% de confiança
pn 1 X Fp,n p n p
T
n X S
1
Inserindo as estatísticas amostrais e simplificando obtém-se: 0,564 1 42 0,603 2
T
203,018 163,391 0,564 1 242 1 F2.42 2 5% 163,391 200,228 0,603 2 42 2
0,564 1 42 0 , 603 2
T
203,018 163,391 0,564 1 241 3,23 163 , 391 200 , 228 0 , 603 40 2
42 203,0180,564 1 42 200,2280,603 2 84 163,3910,564 1 0,603 2 6,62 2
2
Exemplo 3 (continuação):
Para ver se é plausível o vetor média populacional ser =[0,562 0,589], basta verificar se o ponto (0,562; 0,589) está no interior da região de confiança. Isto é equivalente ao tes de hipóteses: 0,562 H 0 : 0,589 0,562 H 1 : 0,589
Se o vetor =[0,562 0,589] satisfaz a equação da região de confiança então ele está no interior da região. Neste caso, H0 não deve ser rejeitada. Fazendo 1 = 0,562 e 2 = 0,589 2 2 42 203,0180,564 1 42 200,2280,603 2 84 163,3910,564 1 0,603 2 1,30 1,30 6,62
Ponto no interior da região de confiança, logo não rejeito H0
Exemplo 3 (continuação):
Desenho da região de confiança
Autovalores e autovetores de S
m=eigen(S)
Autovalores
lambda=m$values lambda [1] 0.026163638 0.002731895
Autovetores
e=m$vectors e [,1] [,2] [1,] 0.7041574 -0.7100439 [2,] 0.7100439 0.7041574
Exemplo 3 (continuação):
Desenho da região de confiança no R 1) Baixar o pacote ellipse no próprio R
2) Carregar o pacote ellipse
Exemplo 3 (continuação):
Desenho da região de confiança no R Desenha a região com 95% de confiança centrada no vetor média xbarra e eixos nas direções dos autovetores da matriz de covariância amostral com matriz de covariância S N=dim(X)[1] # número de observações pn 1 Fp, n p 5% n n p aux=sqrt(2*(N-1)*qf(0.95,2,(N-2))/(N*(N-2))) plot(ellipse(S,centre=xbarra,t=aux,npoints=1000),type='l',asp=1) points(t(xbarra)) # posiciona o vetor média amostral na elipse points(0.562,0.589) # posiciona o ponto (0,562 ; 0,589) na elipse
Exemplo 3 (continuação):
Região de confiança cobre H0, logo não rejeito H0 2
X
X 2 0,603
H0 (0,562 ; 0,589)
1 X 1 0,564
Exemplo 3 (continuação): Desenho da região de confiança: 1) Posicione o vetor média amostral
Exemplo 3 (continuação): Desenho da região de confiança: 2) Posicione os autovetores
e1 = (0,704 ; 0,710) e2 = (-0,710 ; 0,704)
Exemplo 3 (continuação): Desenho da região de confiança: 3) Marque o comprimento dos semi-eixos e desenhe a elipse
1
X 2 0,603 2
pn 1 Fp,n p 5% 0,018 nn p
X 1 0,564
pn 1 Fp,n p 5% 0,64 nn p
Intervalos de confiança simultâneos Seja X~Np(,) e z uma combinação linear das variáveies aleatórias do vetor X:
z a1x1 a2 x2 a p x p a X T
Z aT
aT = Vetor de constantes
2Z aT a
z ~ N a , a a T
T
Seja X1, X2, ..., Xn observações multivariadas de uma amostra aleatória de tamanho n extraída de uma população X~Np(,).
z j a1x1 j a2 x2 j a p x pj aT X j z aT X
média amostral de z
sZ2 aT Sa
variância amostral de z
j 1, n
Intervalos de confiança simultâneos
z z 2 z
s n
n aT X aT T
a Sa
~t
n 1
Intervalo de confiança 1- para Z = aT para um dado vetor a
z tn 1 2 a X tn 1 2
s z2 s z2 Z z tn1 2 n n
T aT Sa a Sa T a a X tn 1 2 n n
Intervalos de confiança simultâneos Há várias possibilidades para o vetor a, por exemplo x1 tn 1 2
s12 s12 1 x1 tn 1 2 n n
a 0 1 0
x2 tn 1 2
s22 s22 2 x2 tn 1 2 n n
a 1 1 0
x
a 1 1 0
x x t
aT 1 0 0 T
T
T
2
1
x1 tn 1 2
2
n 1
2
s22 s22 2 1 x2 x1 tn1 2 n n
s22 s22 1 2 x1 x2 tn 1 2 n n
Cada vetor a está associado com um intervalo t com 1- de confiança, porém o grau de confiança de todos os intervalos considerados simultaneamente não é 1-.
Intervalos de confiança simultâneos Intervalos simultâneos com 1- de confiança a X T
pn 1 a T Sa Fp,n p % aT aT X n p n
pn 1 a T Sa Fp,n p n p n
O grau de confiança simultâneo para todo vetor a é 1-
2
a=(0,1)
a=(1,0)
1
Intervalos de confiança simultâneos 2
Intervalo de confiança simultâneo de 95% para 2
Região de confiança de 95% exemplo 3
1 Intervalo de confiança simultâneo de 95% para 1
Intervalos simultâneos definidos pela projeção da região de confiança nos eixos das variáveis
Intervalos de confiança simultâneos Intervalos simultâneos para 1 e 3 considerando no exemplo 3
x1
pn 1 s Fp,n p 5% 11 1 x1 n p n
pn 1 s Fp,n p 5% 11 n p n
241 0,0144 241 0,0144 0,564 3,23 1 0,564 3,23 40 42 40 42 0,516 1 0,612
x2
pn 1 s22 Fp,n p 5% 2 x2 n p n
pn 1 s22 Fp,n p 5% n p n
241 0,0146 241 0,0146 0,603 3,23 2 0,603 3,23 40 42 40 42 0,555 2 0,651