Econometria
Modelos de Regressão Linear
Prof. José Francisco
[email protected]
Regressão Objetivo: Estabelecer uma função matemática que descreva a relação entre uma variável contínua (variável explicada ou dependente) e uma ou mais variáveis explicativas ou independentes. y = f(x1,x2,...,xK) + ε y denota a variável dependente. x1,x2,...,xK denotam as variáveis independentes. f(x1,x2,...,xK) descreve a variação sistemática ε representa a variação não sistemática (erro aleatório) Modelos de regressão (função f) podem ser lineares ou não lineares. A função f não é conhecida e deve ser inferida a partir das observações das variáveis y, x1,x2,...,xk.
Regressão Linear Técnica estatística que pode ser usada para analisar a relação entre uma única variável dependente (explicada) e um conjunto de variáveis independentes (explicativas). O objetivo da análise de regressão linear consiste em identificar uma equação linear que permita prever o valor da variável dependente em função dos valores conhecidos das variáveis independentes. Regressão linear simples: apenas uma variável independente. Exemplo: variável dependente = vendas variável independente = despesas com propaganda Regressão linear múltipla: duas ou mais variáveis independentes. Exemplo: variável dependente = preço do imóvel variáveis independentes = área, nº de quartos, nº de banheiros, idade
Motivação (HANKE & WICHERN, 2006) Uma empresa transportadora deseja estimar o custo de agregar carga a um caminhão parcialmente cheio. A empresa acredita que o único incremento de custo, decorrente da agregação de carga, é o custo adicional de combustível, pois o rendimento (milhas por galão) seria menor. Admite-se que a frota da transportadora é formada por caminhões idênticos. No período 2009-2012 foram realizadas 5.428 viagens e uma amostra aleatória de 40 viagens foi tomada. Na tabela ao lado são apresentados os pesos e os rendimentos (milhas/galão) das 40 viagens selecionadas na amostra.
Diagrama de dispersão representação gráfica que permite visualizar a relação/associação entre duas variáveis
Um incremento no peso reduz o rendimento A relação entre as variáveis não é exata (estocástica)
Motivação A boa aderência da nuvem de pontos ao redor de um reta imaginária indica que a relação entre as duas variáveis pode ser aproximada por uma relação linear.
A essência da relação entre o peso e o rendimento pode ser expressa por uma reta. Seja Y o rendimento em milhas/galão e X o peso da carga (1000 libras), então temos o seguinte modelo de regressão linear simples: modelo
y = β 0 + β 1x + ε
β0 e β1 são constantes não conhecidas ε é um termo aleatório com distribuição normal (ε ~ N(0,σ2))
A identificação desta reta (estimação dos parâmetros do modelo) pode ser efetuada por meio do estimador de mínimos quadrados ordinários (MQO).
Motivação Neste caso o rendimento (y) é explicado pelo peso da carga (x), então, y=f(x): y = rendimento = variável dependente x = peso da carga = variável independente A relação estocástica entre as duas variáveis pode ser modelada da seguinte forma: y = β 0 + β 1x + ε Onde: β0 e β1 são coeficientes desconhecidos da reta que relaciona as variáveis x e y (estimados a partir dos dados da amostra). ε é um termo aleatório (erro) que representa a imprecisão na relação entre x e y.
Motivação Y Equação da reta estimada por MQO Ê(Y|X) = 8,8484 – 0,0604 X
X Para uma carga de 70 mil libras (X= 70) espera-se um rendimento de 4,62 milhas/galão ( Ê(Y|X) = 4,62 ) E(Y|X) = 8,8484 – 0,0604 x 70 ≅ 4,62
Motivação Estimação por mínimos quadrados ordinários (MQO)
Estimador MQO
∑ (x n
βˆ 1 =
i =1
i
)(
− x yi − y
∑ (x n
i =1
i
−x
)
2
)
Modelo ajustado Ê(Y|X) = 8,8484 – 0,0604 X
βˆ0
βˆ1
βˆ 0 = y − βˆ 1 x X é a variável independente ou explicativa, neste caso o peso ( X é a média amostral de X) Y é a variável dependente ou explicada, neste caso é o rendimento (milhas por galão), Y é a média amostral de Y n é número de observações, neste caso 40
Motivação
Interpretação da equação estimada Ê(Y|X) = 8,8484 – 0,0604 X Cada incremento de 1000 libras (∆ ∆X=1) na carga implica em uma redução, média, do rendimento (milhas/galão) da ordem de 0,0604 milhas/galão. A transportadora paga $ 1,25 por galão de diesel, então qual o incremento no custo para transportar 1000 libras adicionais por um trajeto de 100 milhas, dado que o frete é o médio (68,6 1000 libras)?
Motivação
centróide Y = 4,7
A transportadora paga $ 1,25 por galão de diesel, então qual o custo para transportar 1000 libras de carga em um trajeto de 100 milhas ? O rendimento médio é 4,7 milhas/galão, logo para um trajeto de 100 milhas com trasporte do frete médio (68,6 1000 libras), em média, o custo total é:
X = 68,6
100 milhas x 1,25 $/galão
= $ 26,60
4,7 milhas/galão O custo da mesma viagem com 1000 libras adicionais é: 100 milhas x 1,25 $/galão
= $ 26,94
(4,7 – 0,0604) milhas/galão Ou seja, 1000 libras adicionais na carga aumenta o custo em 34 centavos
Modelos de regressão linear Modelo de regressão linear simples: uma variável dependente explicada independente.
por
uma
variável
y = β 0 + β 1x + ε Modelo de regressão linear múltipla: Uma variável dependente explicada por pelo menos duas variáveis independentes. y = β0 + β1x1 + ... + βKxK + ε
(K≥2)
Objetivo: Identificar uma função linear que permita explicar uma variável dependente (y) em função das variáveis explicativas (x), ou seja, como y varia de acordo com mudanças em x.
Significado do erro ε O erro ε representa: Todos os outros fatores que afetam a variável dependente Y, mas que não estão contempladas nas variáveis explicativas X. Erros de medição. Forma funcional inadequada, por exemplo, y = β 0 + β 1x Inerente variabilidade econômicos.
ou y = β0 + β1x + β1x2 ? no
comportamento
dos
agentes
Modelo de Regressão Linear Simples Equação de regressão populacional: y = β0 + β1x + ε
(apenas uma variável independente)
Os coeficientes β0 e β1 não são conhecidos e devem ser estimados a partir de uma amostra aleatória de tamanho n da população: Amostra aleatória de tamanho n ⇒ (xi , yi), i=1,n Em cada unidade amostrada tem-se que yi = β0 + β1xi + εi i=1,n Componente determínistica
Erro, variável aleatória não-observável
Modelo de Regressão Linear Simples Hipóteses assumidas pelo modelo H1) A relação entre as variáveis é linear yi = β0 + β1xi + εi i=1,n: H2) Média nula: E(εi) = 0 para todo i=1,n H3) Variância constante: V(εi) = σ2 para todo i=1,n H4) Erros não correlacionados: Cov(εi,εk) = 0 para todo i≠k H5) Distribuição Normal: εi ~ N(0,σ2) para todo i=1,n εi são independentes e identicamente distribuídos N(0,σ σ2)
H6) A variável explicativa X é fixa, i.e., não é estocástica
Modelo de Regressão Linear Simples y = β 0 + β 1x + ε E E
(y (y
| x
)= x)=
E (β
|
β
0
0
) (ε )
+ β 1x + ε
+ β 1x + E
Como o valor esperado do erro é zero E(εε)=0, o valor esperado de y condicionado ao valor de x é igual a:
E ( y | x ) = β 0 + β1x Por hipótese a variável independente não é aleatória, assim tem-se:
V (y ) = σ
2
Como o erro tem distribuição Normal com média 0 e variância σ2
(
y ~ N β 0 + β1 x, σ
2
)
Modelo de Regressão Linear Simples
Reta de regressão
E ( y | x ) = β 0 + β1 x
Modelo de Regressão Linear Simples Estimador de mínimos quadrados yi = β0 + β1xi + εi ⇒ εi = yi - β0 - β1xi f = ∑ ε = ∑ [ yi − (β0 + β1xi )] n
Soma dos quadrados dos erros
n
2 i
i =1
i =1
f = ∑ [ yi − (β0 + β1xi )] n
As estimativas de β0 e β1 devem minimizar a soma sos quadrados dos desvios No ponto de mínimo as derivadas parciais são nulas
2
Min β0 ,β1
2
i =1
n ∂f = 0 ⇒ ∑ [ yi − (β0 + β1xi )] = 0 ∂β0 i =1 n ∂f = 0 ⇒ ∑ xi [ yi − (β0 + β1xi )] = 0 ∂β1 i =1 n
n
i =1
i =1
nβ0 + β1 ∑ xi = ∑ yi Sistema de equações normais A solução deste sistema fornece os estimadores de β0 e β1
n
n
n
β0 ∑ xi + β1 ∑ x = ∑ xi yi i =1
i =1
2 i
i =1
Modelo de Regressão Linear Simples Estimador de mínimos quadrados Solução do sistema de equações normais Estimadores de mínimos quadrados Sistema de equações normais n
n
nβ0 + β1 ∑ xi = ∑ yi i =1
i =1
n
n
n
i =1
i =1
i =1
∑ (x n
βˆ 1 =
i =1
i
)(
− x yi − y
∑ (x n
i =1
β0 ∑ xi + β1 ∑ xi2 = ∑ xi yi βˆ 0 = y − βˆ 1 x
i
−x
)
2
)
Modelo de Regressão Linear Simples Estimador de mínimos quadrados
Equação de regressão estimada
yˆ = E ( y | x ) = βˆ 0 + βˆ 1x
Valor estimado da variável dependente y dado que x é igual a xi
yˆ i = βˆ 0 + βˆ 1xi
Resíduo da i-ésima observação é igual a diferença entre o valor observado e o valor estimado da variável yi
εˆ i = yi − yˆ i εˆ i = yi − βˆ 0 + βˆ 1xi
(
)
Modelo de regressão linear simples Se as hipóteses H1 até H6 forem satisfeitas, os estimadores de mínimos quadrados são estimadores lineares não tendenciosos de variância mínima (Teorema de Gauss Markov) O estimador MQO é não tendencioso
( )
E βˆ 0 = β0
n
σ β2ˆ = 0
σ ε2 ∑ xi2 n
( )
σ β2ˆ = 1
(
i =1
n∑ xi − x i =1
E βˆ 1 = β1
Os estimadores são normalmente distribuídos
(
βˆ 0 ~ N β0 , σβ2ˆ0
)
2
(
σ ε2 n
2 x ∑ i −x
βˆ 1 ~ N β1, σβ2ˆ1
2
i =1
n
Estimador da variância do erro
σˆ ε2 =
∑ uˆ i =1
∑( n
2 i
n−2
=
i =1
yi − βˆ0 − βˆ1 xi n−2
)
2
)
)
Modelo de regressão linear simples Decomposição do erro
Y
Yi (valor observado) ^ Yi - Yi Yi - Y
^ Yi
(resíduo)
(valor estimado pela reta)
^ -Y Y i Y Média da variável dependente
^ = b + b X (reta de regressão) Y 0 1
X
Modelo de regressão linear simples Decomposição do erro
Y
n
(
SQT = ∑ Yi − Y i =1
)
2
SQT é a soma dos quadrados dos desvios de Y em relação a sua média, logo SQT é uma medida da variação total da variável dependente.
Y
X
Modelo de regressão linear simples Decomposição do erro
Y
n
(
SQR = ∑ Yˆi − Y i =1
)
^
2
SQR é a soma dos quadrados dos desvios entre a reta de regressão e a média da variável dependente Y.
Y corresponde as estimativas definidas pela reta de regressão
Y
SQR é uma medida da variação total da variável dependente explicada pela regressão.
X
Modelo de regressão linear simples Decomposição do erro
Y
n
SQE = ∑ i =1
(
Yi − Yˆi
)
2
SQE é a soma dos quadrados dos desvios de Y em relação a reta de regressão (resíduos). SQE expressa a parcela da variação de Y não explicada pela reta de regressão.
^
Y corresponde as estimativas definidas pela reta de regressão
X
Modelo de regressão linear simples Decomposição da soma de quadrados total
∑ (Y − Y ) = ∑ ( n
i =1
n
2
i
SQT
i =1
=
)
n
(
Yi − Yˆi + ∑ Yˆi − Yi SQE
2
i =1
+
)
2
SQR
SQT = Soma de Quadrados Total (variação total da variável dependente) SQR = Soma de Quadrados da Regressão (parcela da variação total explicada pelo modelo) SQE = Soma de Quadrados dos Erros (Resíduos) (parcela da variação total não explicada pelo modelo)
n é o total de observações na amostra
Modelo de regressão linear simples Coeficiente de determinação
n
R2 =
SQR = SQT
(
∑ Yˆi − Yi i =1 n
)
2
∑ (Y − Y ) i =1
2
= 1−
SQE SQT
i
0 ≤ R2 ≤ 1 Se R2 estiver próximo de 1, a variável x explica a maior parte da variação total de y. Neste caso, a variável x é uma boa preditora da variável y. Se R2 estiver próximo de 0, a variável x explica muito pouco da variação total de y. Neste caso, a variável x não é uma boa preditora da variável y.
Modelo de regressão linear simples Análise da variância (ANOVA) F=
Fonte de variação
Graus de liberdade
Regressão
1
Soma dos quadrados SQR = βˆ 2 1
∑ (x n
i =1
i
−X
n
Resíduos
n-2
SQE = ∑ ( yi − yˆ i )
2
i =1 n
Total
n-1
SQT = ∑ yi2 − nY
SQR SQE (n − 2)
Quadrados médios
)
2
QMR = SQR / 1
QME = SQE / (n − 2 )
2
i =1
σˆ ε2 R2 =
SQR SQT
Estimador da variância do erro
Modelo de regressão linear simples Análise da variância (ANOVA) No exemplo da transportadora tem-se que Resultados gerados pelo Excel
R2 = 0,76, ou seja, 76% da variação do rendimento é explicada pela equação de regressão Y = 8,8484 – 0,0604X SQR SQE
equação de regressão Y = 8,8484 – 0,0604X
SQT
Modelo de regressão linear simples Inferência Estatística Modelo de regressão linear simples: Y = β0 + β1X + ε Teste t Avalia a significância do coeficiente de regressão linear associado com uma determinada variável explicativa. H0 : β1 = 0 ( ausência do efeito ) H1 : β1 ≠ 0 ( presença do efeito ) Sob H0
βˆ1 t= ~ t N −2 σˆ βˆ 1
Estatística teste
t > tcrítico rejeita H0 t < tcrítico aceita H0 tcrítico é um valor tabelado para um nível de significância α, no Excel use INVT(alfa;N-2)
Modelo de regressão linear simples Inferência Estatística (teste t) No exemplo da transportadora tem-se que Resultados gerados pelo Excel
H0 : β 1 = 0 H1 : β 1 ≠ 0
βˆ1
Estatística teste
βˆ t= ~ t N −2 σˆ βˆ
σˆ βˆ
1
Ao nível de significância α de 5% o valor tabelado (tcrítico) de uma t com (40-2) = 38 graus de liberdade é 2,024 =INVT(0,05;38) Valor absoluto do t calculado maior que tcrítico, logo H0 é rejeitada.
βˆ1 − 0,0604 t= = = −10,9052 σˆ βˆ 0,0055 t calculado 1
Exemplo modelo de regressão linear simples Inferência Estatística (teste t) No exemplo da transportadora tem-se que Região de rejeição Distribuição t
H0 : β 1 = 0 H1 : β 1 ≠ 0 Região de rejeição bilateral
- 2,024
0
2,024
tcalculado = -10,9052 tcrítico = INVT(0,05;38)
βˆ1 t= σˆ βˆ
1
Exemplo modelo de regressão linear simples Inferência Estatística (teste t e valor p) O valor p (p-value) fornece uma forma direta de decidir entre a rejeição e a não rejeição da hipótese nula H0 P-valor é a probabilidade de encontrar um valor para a estatística teste mais extremo que o valor calculado para a estatística teste (tcalculado). Se o valor p é menor que os níveis usuais de significância (1% ou 5%) devemos concluir pela rejeição da hipótese nula Cálculo do valor p no exemplo da transportadora: No Excel =DISTT(10,9052;38;2) tcalculado = -10,9052 valor p = P(t mais extremo que tcalculado) = P (t ≤ -10,9052 ou t ≥ 10,9052) = 2,91E-13 Probabilidade muito pequena e menor que o nível de significância adotado (5%), logo a hipótese nula (H0) deve ser rejeitada
H0 : β 1 = 0 H1 : β 1 ≠ 0
Exemplo modelo de regressão linear simples Inferência Estatística (teste t e p-valor)
Resultados gerados pelo Excel
Valor p menor que o nível de significância adotado (5%), logo a hipótese nula (H0) deve ser rejeitada
Modelo de regressão linear simples Inferência Estatística (intervalo de confiança) Intervalo de confiança 100(1-α α)%
βˆ1 − σˆ β 1 ⋅ t
1−
α
≤ β1 ≤ βˆ1 + σˆ β1 ⋅ t
1−
2
α 2
No exemplo da transportadora tem-se que
Valores tabelados
Resultados gerados pelo Excel
O intervalo -0,0716 ≤ β1 ≤ -0,0492 tem 95% de confiança de conter o valor do coeficiente de regressão da variável peso
Modelo de regressão linear simples Previsão do valor esperado
Previsor
Eˆ (Y h | X
Erro de previsão
εh = E(Yh | Xh ) − Eˆ (Yh | Xh ) = βˆ0 − β0 + βˆ1 − β1 Xh
h
) = βˆ 0
+ βˆ 1 X
(
2 X h − X 2 2 1 S (ε h ) = σˆ ε + n 2 n Xi − X ∑ i =1 Intervalo de previsão
(
[Eˆ(Y | X ) −t h
h
c
(
)
)
h
)(
SQ Re s n−2
σˆ ε =
S2 (εh ), Eˆ(Yh | Xh ) +tc S2 (εh )
)
]
Modelo de regressão linear simples Previsão de uma observação Dado XT+h prever YT+h Previsor
Yˆh = βˆ 0 + βˆ1 X h
Erro de previsão
εh = Yh −Yˆh = β0 − βˆ0 + β1 − βˆ1 Xh + uh
(
)(
)
2 1 X h − X 2 2 S (ε h ) = σˆ ε 1 + + n 2 n Xi − X ∑ i =1
(
Intervalo de previsão
[Yˆ −t h
c
(
)
)
S2 (εh ),Yˆh +tc S2 (εh )
]
σˆ ε =
SQ Re s n−2
Modelo de regressão linear simples Intervalo de previsão de uma observação
Intervalo de previsão do valor esperado
Exemplo A Comissão de Serviços Públicos é responsável pela regulação dos serviços públicos, ou seja, atua no sentido de induzir as empresas a serem eficientes e prestarem serviços de qualidade ao preço justo para a população. Em um determinado Estado atuam diferentes empresas de serviços públicos sob o regime de monopólio nas respectivas áreas de concessão. O trabalho do auditor consiste em visitar estas empresas e auditar seus registros financeiros para detectar se algum tipo de abuso está ocorrendo. A maior dificuldade do auditor é avaliar se os custos apresentados pelas empresas são razoáveis, pois as empresas têm diferentes tamanhos O arquivo empresas.xls contêm registros do número de clientes e custos de manutenção de 12 empresas de serviço público. •
Estime o modelo de regressão.
•
Qual o custo de manutenção esperado para uma empresa com 75.000 clientes ?
•
Suponha que uma empresa com 75.000 clientes reporte uma despesa com manutenção de 1.500.000. Com base nos resultados da regressão linear, o auditor deve ver este número como razoável ou excessivo ?
Exemplo clientes (1000) despesas com manutenção (1000 US$) 25.3 484.6 36.4 672.3 37.9 839.4 45.9 694.9 53.4 836.4 66.8 681.9 78.4 1037 82.6 1095.6 93.8 1563.1 97.5 1377.9 105.7 1711.7 124.3 2138.6
Yˆ = 33,32 + 15,02 X Y = Despesa com manutenção X = Nº de clientes
Exemplo Qual o custo de manutenção esperado para uma empresa com 75.000 clientes ? X = 75 →
Yˆ = 33,32 + 15,02 ⋅ 75 = 1159,82 Y = Despesa com manutenção X = Nº de clientes
1159,82
75
→ US$ 1.159.820,00
Exemplo Suponha que uma empresa com 75.000 clientes reporte uma despesa com manutenção de 1.500.000. Com base nos resultados da regressão linear, o auditor deve ver este número como razoável ou excessivo ? Podemos responder esta pergunta por meio de um intervalo de previsão para uma observação.
[Yˆ −t h
Valor estimado pelo modelo de regressão para variável dependente (Yh = 1159,2) quando Xh = 75.
c
S2 (εh ),Yˆh +tc S2 (εh )
]
t crítico com N-2 graus de liberdade ao nível de significância α. No Excel =INVT(0.05;10) = 2,2281
2 1 X h − X 2 2 onde S (ε h ) = σˆ ε 1 + + n 2 n Xi − X ∑ i =1 Obtido na Anova Quadrado médio do resíduo 35236
(
(
)
)
Nº de observações = 12 Média da variável dependente 70,67
Exemplo O intervalo de confiança cobre o ponto (75, 1500), logo o valor do custo não é excessivo.
X = 75 (1000 clientes) Y = 1500 (1000 US$)
Exemplo modelo de regressão linear simples no Excel 1) Matriz de dados para regressão linear simples 1 variável dependente 2) No menu Ferramentas escolha a 1 variável independente opção Análise de dados
4) Informe os dados para regressão na caixa de diálogo
3) Na caixa de diálogo escolha a opção Regressão e clique em Ok
Exemplo modelo de regressão linear simples no Excel Intervalo com os valores da variável independente
Rótulos: nomes das variáveis
Intervalo com os valores da variável dependente
Caixa de diálogo regressão
Marque s e tem rótu lo
Gráfico dos resíduos contra a variável explicativa
Grava resultados da regressão em uma nova planilha
Apresenta a série de resíduos
Y − Yˆ
Gráfico para avaliar se a hipótese de normalidade do erro é satisfeita
Gráfico com os valores observados e previstos
Exemplo modelo de regressão linear simples no Excel Planilha de Resultados Valor P < 5% rejeito H0 no teste F
R2
R2
Valor P P(F>24,3492) = 0,0011
α
β
Valor P P( |t| >4,9345) = 0,0011
Yˆ Y − Yˆ
Valor P P( |t| >2,1495) = 0,0638 Intervalo de confiança
Valores para a plotagem de probabilidade normal
Valor P < 5% rejeito H0 no teste F
- 4,9345
4,9345
Exemplo modelo de regressão linear simples no Excel Gráficos na planilha de Resultados Útil na verificação da hipótese de normalidade do erro (valores ao redor de uma reta imaginária indicam que a hipótese de normalidade não foi violada)
Resíduos
X Plotagem de resíduos 20 0 -20
0
10
20
30
40
50
Plotagem de probabilidade normal
X
60
Útil na verificação da hipótese de variância constante do erro
50
Y
40
Valores observados contra valores estimados Útil na avaliação da qualidade do ajuste
30 20 10 0
X Plotagem de ajuste de linha
0
40
60
Percentil da amostra
60 50 40 Y
20
Y Previsto(a) Y
30 20 10 0 0
10
20
30 X
40
50
80
100
Regressões que se tornam lineares por anamorfose As especificações a seguir são não-lineares, mas podem se tornar lineares por anamorfose, ou seja, mediante alguma transformação das variáveis. (exponencial) Yi = β 0 β1 ε i
ln Yi = ln β 0 + ln β1 ⋅ X i + ln ε i
Xi
Modelo linear
(potência)
β
Yi = β 0 X i 1 ε i
ln Yi = ln β 0 + β1 ln X i + ln ε i * * * Modelo linear Y = β + β ⋅ X + v i 0 1 i i X i* = 1
(hipérbole)
1 Yi = β 0 + β1 + εi Xi
Xi
A substituição de variáveis é válida, pois a relação entre X1 e X2 é não linear
(polinomial)
Yi* = β 0* + β1* ⋅ X i + vi
Yi = β 0 + β1 X i + β1 X i2 + ε i
Yi = β 0 + β1 X i* + ε i X i1 = X i X i 2 = X i2
Yi * = ln Yi β 0* = ln β 0
β1* = ln β1 vi = ln ε i Yi * = ln Yi β 0* = ln β 0 X i* = ln X i vi = ln ε i
Modelo linear
Modelo regressão linear múltipla
Yi = β 0 + β1 X i1 + β1 X i 2 + ε i
Modelo de regressão linear múltipla
Modelo de regressão linear múltipla A variável dependente é uma função linear de K variáveis independentes (K≥ ≥2)
Y i = β 0 + β 1 X 1i + β 2 X
2i
+K + βk X
Ki
+ εi
i=1,n
β1, β2, β3,..., βk, σ2 são parâmetros do modelo que devem ser estimados
Yi = [1
L
X i ,1
Notação matricial
Y1 Y Y = 2 M Yn
β0 β X i , K ]⋅ 1 + ε i i=1,n M β k
Y = Xβ + ε
1 1 X = M 1
X 11 X 12 X 1n
L
X k1 X k 2 X kn
ε1 ε ε = 2 M ε n
β 0 β β = 1 M β k
Na regressão linear simples (K=1), um caso particular da regressão linear múltipla
Hipóteses assumidas pelo modelo de regressão linear múltipla Basicamente, são as mesmas hipóteses assumidas na regressão linear simples H1) A relação entre as variáveis é linear yi = β0 + β1xi1 + β2x2i +...+ βkxki + εi i=1,n. H2) A variável explicativa X é fixa, ou seja, não é aleatória. H3) As colunas da matriz X são linearmente independentes, ou seja, não há uma relação linear perfeita entre duas ou mais as variáveis explicativas. H4) Erros tem média nula: E(εi) = 0 para todo i=1,n. H5) Variância do erro é constante (homocedasticidade): V(εi) = σ2 para todo i=1,n. H6) Erros não correlacionados: Cov(εi,εk) = 0 para todo i≠k. H7) Erros tem distribuição Normal: εi ~ N(0,σ2) para todo i=1,n. H2,H3,H4 e H5 ⇒ εi são independentes e identicamente distribuídos N(0,σ σ 2)
Modelo de regressão linear múltipla Estimador de Mínimos Quadrados Ordinários (MQO)
(
βˆ = X T X n n X 1i ∑ i =1 T X X = n ∑ X 2i i =1 M n ∑ X Ki i =1
Equação de projeção
n
∑X i =1 n
∑X i =1
n
∑X
1i
i =1
∑X i =1
n
∑X i =1
1i
2i
L
X 2i
n
1i
∑X
X 2i
i =1
2 2i
O n
∑X i =1
n
1i
X Ki
∑X i =1
2i
X TY
X ∑ Ki i =1 n X 1i X ki ∑ i =1 n X 2 i X ki ∑ i =1 n 2 X Ki ∑ i =1
n y ∑ i i =1 n x1i y i ∑ i =1 T X Y = n ∑ x2i yi i =1 M n x y ∑ Ki i i =1
n
n
2 1i
)
−1
X Ki
yˆ = Eˆ ( y | X ) = βˆ 0 + βˆ1 X 1 + K + βˆ k X K = [1
X1
L
βˆ 0 ˆ β X K ]⋅ 1 M βˆ k
Estimador de mínimos quadrados Propriedades do estimador de mínimos quadrados
( ) Σ (βˆ ) = σ (X X ) E βˆ = β
Estimador não tendencioso
2
T
−1
Matriz de covariância dos estimadores
SQE σˆ = n−k 2
(
−1 T 2 ˆ β ~ N K +1 β , σ ( X X )
βˆ j ~ N (β j , σ 2 a jj )
)
O vetor de estimadores tem distribuição normal multivariada Cada βˆ j tem distribuição normal ajj elemento da diagonal principal da inversa de X’X
Se as hipóteses H1 até H6 forem satisfeitas, o estimador de mínimos quadrados é o melhor estimador linear não tendencioso (Teorema de Gauss Markov)
Exemplo modelo de regressão linear múltipla (KUTNER et al, 2004) Uma empresa de artigos infantis opera em 21 cidades de médio porte. A empresa está analisando a possibilidade de expansão em outras cidades de médio porte e para isso deseja investigar se a vendas (Y) em uma localidade podem ser preditas com base no número de pessoas com até 16 anos de idades (X1) e a renda per capita na localidade (X2). Valores expressos em milhares.
X2 16,7 16,8 18,2 16,3 17,3 18,2 15,9 17,2 16,6 16 18,3 17,1 17,4 15,8 17,8 18,4 16,5 16,3 18,1 19,1 16
Y 174,4 164,4 244,2 154,6 181,6 207,5 152,8 163,2 145,4 137,2 241,9 191,1 232 145,3 161,1 209,7 146,4 144 232,6 224,1 166,5
300
300
250
250
200
200
Y
X1 68,5 45,2 91,3 47,8 46,9 66,1 49,5 52 48,9 38,4 87,9 72,8 88,4 42,9 52,5 85,7 41,3 51,7 89,6 82,7 52,3
Y
Atualmente a empresa está presente em 21 localidades (N = 21), cujos dados são apresentados na tabela abaixo:
150
150
100
100
50
50
0 30
40
50
60
70
X1
80
90
100
0 15
16
17
18
X2
Modelo de regressão linear múltipla a ser estimado
Y = β 0 + β1 X1 + β 2 X 2 + ε
19
20
Exemplo modelo de regressão linear múltipla Os dados das 21 localidades podem ser dispostos em um gráfico, onde cada localidade é representada por um ponto. A equação de regressão
E (Yi X 1 , X 2 ) = β 0 + β1 X 1 + β 2 X 2
define um plano
passando pelo meio da nuvem de pontos. Este plano representa o valor esperado das vendas em função da renda e da população abaixo de 16 anos em uma localidade
vendas
renda
população
Exemplo modelo de regressão linear múltipla Modelo de regressão linear
Yi = β 0 + βX 1, i + β 2 X 2, i + ε i
Estimação dos coeficientes de regressão por mínimos quadrados
X X= T
Dados
Y=
174,4 164,4 244,2 154,6 181,6 207,5 152,8 163,2 145,4 137,2 241,9 191,1 232 145,3 161,1 209,7 146,4 144 232,6 224,1 166,5
X=
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
68,5 45,2 91,3 47,8 46,9 66,1 49,5 52 48,9 38,4 87,9 72,8 88,4 42,9 52,5 85,7 41,3 51,7 89,6 82,7 52,3
16,7 16,8 18,2 16,3 17,3 18,2 15,9 17,2 16,6 16 18,3 17,1 17,4 15,8 17,8 18,4 16,5 16,3 18,1 19,1 16
(X X ) T
−1
=
X Y= T
21,00 1.302,40 360,00
1.302,40 87.707,94 22.609,19
360,00 22.609,19 6.190,26
29,7289 0,0722 -1,9926
0,0722 0,0004 -0,0055
3.820,00 249.643,35 66.072,75
βˆ = X T X
-1,9926 -0,0055 0,1363
(
)
−1
X TY
βˆ0 − 68,8571 ˆ β1 = 1,4546 ˆ β 9 , 3655 2 Equação estimada
Y = −68,86 + 1,45 X1 + 9,37 X 2 + ε
Exemplo modelo de regressão linear múltipla Gráficos dos resíduos contra cada variável explicativa e a variável explica exibe um padrão aleatório e a dispersão parece constante e, portanto, estão coerentes com as hipóteses (pressupostos) de covariâncias nulas entre os erros e variância do erro constante.
Exemplo modelo de regressão linear múltipla O gráfico de probabilidade normal índica que a distribuição dos resíduos é normal, portanto, coerente com a hipótese (pressuposto) de distribuição normal para o erro.
Modelo de regressão linear múltipla Inferência Estatística no Modelo de Regressão Linear Análise da variância - ANOVA Fonte de variação
Graus de liberdade
Soma dos quadrados
Quadrados médios
2
Regressão
K
Resíduos
n - (K+1)
Total
n T T ˆ SQR = β X Y − ∑ yi i =1 SQE = Y TY − βˆ T X T Y n SQT = Y Y − ∑ yi i =1 T
n -1
∑ (Yˆ − Y ) n
SQR R = = SQT 2
i
i
∑ (Y
−Y
i =1 n
i
)
n −1 R = 1− 1− R n−k
(
QMR = SQR / K QME = SQE / [n − (K − 1)]
2
n
2
i =1
2
n
2
)
2
QMR SQR k F= = QME SQE [n − (k + 1)]
Exemplo modelo de regressão linear múltipla Construção da ANOVA para o exemplo da cadeia de lojas de roupas juvenis
Yˆi = −68,8571 + 1,4546 X 1i + 9,3655 X 2 i
SQE
SQR
SQT
Exemplo modelo de regressão linear múltipla Construção da ANOVA para o exemplo da cadeia de lojas de roupas juvenis ANOVA Soma dos quadrados (A)
Graus de liberdade (B)
Quadrado médio (C=A/B)
Regressão
SQR 24015,28
2
12007,64
Resíduo
SQE 2180,93
N-3=18
121,1626
Total
SQT 26196,21
N-1=20
Fonte de variação
2 variáveis explicativas Coeficiente de determinação R2
3 coeficientes estimados Por isso N – 3
SQR 24015.28 2 R = = = 0,917 SQT 26196,21
F 12007,64 / 121.1626 = 99,1035
O quadrado médio dos resíduos é uma estimativa da variância do erro
σˆ ε
2
Modelo de regressão linear múltipla Inferência Estatística Teste t
H0 : β j = 0 H1 : β j ≠ 0
bj t= ~ t n −(k +1) σˆ β j
t ≥ t tab elad o ⇒ rejeita H 0
Teste F H0 : β 1 = β 2 = β 3 =...= β k =0 H1 : pelo menos um βj ≠ 0
SQR k F= SQE [n − (k + 1)]
F ≥ Fta belad o ⇒ rejeita H 0
Exemplo modelo de regressão linear múltipla Modelo de regressão linear
Yi = b0 + bX 1, i + b2 X 2, i + ε i
Estimativas dos erros padrão dos coeficientes de regressão
σˆ 2ˆ β0 S β = σˆ βˆ βˆ 0 1 σˆ βˆ0 βˆ2
Sβ =
3.602,0347 8,7459 -241,4230
σˆ βˆ βˆ σˆ β2ˆ σˆ βˆ βˆ
0 1
1
1 2
8,7459 0,0449 -0,6724
Resultado na ANOVA = 121,1626 0 2 −1 2 T ˆ = σε ⋅ X X 1 2 29,7289 0,0722 -1,9926 0,0722 0,0004 -0,0055 2 -1,9926 -0,0055 0,1363
σˆ βˆ βˆ σˆ βˆ βˆ σˆ β2ˆ
-241,4230 -0,6724 16,5158
Erros padrão dos estimadores dos coeficientes de regressão (valores informados pelo ajuste de regressão no Excel)
(
)
Variâncias na diagonal principal Covariâncias fora da diagonal principal
σˆ βˆ = σˆ β2ˆ = 3602,0347 = 60,0170 0
0
σˆ βˆ = σˆ β2ˆ = 0,0449 = 0,2118 1
1
σˆ βˆ = σˆ β2ˆ = 16,5158 = 4,0640 2
2
Exemplo modelo de regressão linear múltipla Inferência do modelo Teste F: Testa o efeito conjunto das variáveis explicativas sobre a variável dependente.
H0 : b1 = b2 = 0 ( não há regressão de Y em X1 e X2) H1 : b1 ≠ 0 ou b2 ≠ 0 ( presença do efeito ) 1) Estatística teste SQR K F= SQE n − (K + 1)
2) Distribuição da estatística testes sob H0
3) Valor da estatística teste na amostra observada (Fcalculado)
4) F crítico ao nível de significância de 5% = 3,5546 =FINV(0,05;2;18) no Excel
12.007,64 2 F= = 99,1035 121,1626 21 − (2 + 1)
SQR K ~ FK ,n −( K +1) SQE n − (K + 1)
5) Conclusão Fcalculado > Fcrítico logo rejeita H0
Distribuição F
Exemplo modelo de regressão linear múltipla Inferência do modelo Teste t: Testa a significância do coeficiente de regressão linear associado com uma determinada variável explicativa.
H0 : b1 = 0 ( ausência do efeito ) H1 : b1 ≠ 0 ( presença do efeito ) 1) Estatística teste
bˆ1 t= σˆ βˆ
1
2) Distribuição da estatística testes sob H0
Distribuição t
bˆ1 ~ t N −3 σˆ βˆ 1
3) Valor da estatística teste na amostra observada (tcalculado)
1,4546 t= = 6,8682 0,2118
4) t crítico ao nível de significância de 5% = 2,1 =TINV(0,05;18) no Excel 5) Conclusão tcalculado > tcrítico logo rejeita H0
Exemplo modelo de regressão linear múltipla Inferência do modelo Teste t: Testa a significância do coeficiente de regressão linear associado com uma determinada variável explicativa.
H0 : b2 = 0 ( ausência do efeito ) H1 : b2 ≠ 0 ( presença do efeito ) 1) Estatística teste
bˆ2 t= σˆ βˆ
2
2) Distribuição da estatística testes sob H0
Distribuição t
bˆ2 ~ t N −3 σˆ βˆ 2
3) Valor da estatística teste na amostra observada (tcalculado)
9,3655 t= = 2,3045 4,0640
4) t crítico ao nível de significância de 5% = 2,1 =TINV(0,05;18) no Excel 5) Conclusão tcalculado > tcrítico logo rejeita H0
Exemplo modelo de regressão linear múltipla Intervalos 95% de confiança para os coeficientes da equação de regressão
bˆi − bi − t n −( K +1) (2,5% ) ≤ ≤ t n −( K +1) (2,5% ) σˆ bi
Distribuição t
K = número de variáveis independentes n = tamanho da amostra
95%
− 68,8571 − b0 − 2,1 ≤ ≤ 2,1 ⇒ −194,948 ≤ b0 ≤ 57,2339 60,0170 − 2,1 ≤
1,4546 − b1 ≤ 2,1 ⇒ 1,0096 ≤ b1 ≤ 1,8995 0,2118
− 2,1 ≤
9,3655 − b2 ≤ 2,1 ⇒ 0,8274 ≤ b2 ≤ 17,9036 4,0640
R2 ajustado Problema com a estatística R2 : sempre aumenta a medida que novas variáveis são incluídas no modelo de regressão linear múltipla, independentemente da variável adicionada. No entanto cada variável adicionada ao modelo tem um custo, pois mais um coeficiente deve ser estimado. Então é interessante ter uma medida que permita avaliar o benefício para melhoria do modelo com a adição de uma nova variável explicativa em relação ao custo de estimar mais um coeficiente. Esta medida é o R2 ajustado
2 ajustado
R
n −1 2 ( = 1− 1− R ) n−k
Onde n é o tamanho da amostra K é o número de parâmetros da equação de regressão. O R2 ajustado é útil quando desejamos comparar dois modelos diferentes ou comparar um mesmo modelo com tamanhos de amostras diferentes
Modelo de regressão linear múltipla Previsão Dado
x hT = [1
X 1h
X 2h
L
X kh ]
Previsão do valor esperado da variável dependente dado Y
Eˆ (Yh | X ) = βˆ0 + βˆ1 X 1h + K + βˆ k X kh s 2previsão =
x hT S βˆ x h
Previsão do valor da variável dependente dado Y
Yˆh = βˆ0 + βˆ1 X 1h + K + βˆ k X kh Erro padrão das previsões
s 2previsão =
x hT S βˆ x h + σˆ 2
Quadrado médio dos resíduos Valor obtido na ANOVA
Exemplo Calcule a previsão das vendas esperadas nas cidades A e B:
Cidade A número de pessoas com até 16 anos de idades (X1) : 65,4 renda per capita na localidade (X2) : 17,6
x hT = [1 65 , 4 17 ,6 ]
Cidade B número de pessoas com até 16 anos de idades (X1) : 53,1 renda per capita na localidade (X2) : 17,7
x hT = [1 53 ,1 17 ,7 ]
Previsão da venda esperada na cidade A E(Y|X)
= −68,86 + 1,45 ⋅ 65,4 + 9,37 ⋅17,6 = 191,10
Previsão da venda esperada na cidade B E(Y|X)
= −68,86 + 1,45 ⋅ 53,1 + 9,37 ⋅17,7 = 174,15
Exemplo Intervalos de confiança para as vendas esperadas nas cidades A e B: Cidade A número de pessoas com até 16 anos de idades (X1) : 65,4 T renda per capita na localidade (X2) : 17,6
x h = [1 65 , 4 17 ,6 ]
Cidade B número de pessoas com até 16 anos de idades (X1) : 53,1 T renda per capita na localidade (X2) : 17,7
x h = [1 53 ,1 17 ,7 ] Matriz de covariâncias dos estimadores slide 54
Resultado da ANOVA slide 52 2 ˆ σ ε = 121,1626
Sβ =
Erro padrão das estimativas slide 60
´s 2previsão =
x hT S βˆ x h
3.602,0347 8,7459 -241,4230
8,7459 0,0449 -0,6724
-241,4230 -0,6724 16,5158
Cidade A = 11,35
Cidade B = 11,93
Exemplo Intervalos de confiança para as vendas esperadas nas cidades A e B: E(Y|X) é a média das vendas dado X
α 2 α 2 previsão − t N −( k +1) s previsão ≤ E (Y | X ) ≤ previsão + t N −( k +1) s previsão 2 2
Valor crítico da t com N-(k+1) graus de liberdade ao nível de confiança 1-alfa, podem ser obtidos no Excel, por exemplo, para 95% de confiança =INVT(0,05;18), cujo valor é aproximadamente 2,101
167,3 ≤ E (Y | X ) ≤ 214,9
Cidade A
149,1 ≤ E (Y | X ) ≤ 199,2
Cidade B
Note que os intervalos de confiança tem grande amplitude apesar do elevado R2 (0,92), portanto, valores elevados de R2 não garantem necessariamente previsões precisas
Exemplo modelo de regressão linear múltipla no Excel 1) Matriz de dados para regressão linear múltipla 1 variável dependente 2) No menu Ferramentas escolha a 2 variável independentes opção Análise de dados
4) Informe os dados para regressão na caixa de diálogo
3) Na caixa de diálogo escolha a opção Regressão e clique em Ok
Exemplo modelo de regressão linear múltipla no Excel Intervalo com os valores da variável independente
Intervalo com os valores da variável dependente
Rótulos: nomes das variáveis
Caixa de diálogo regressão
Marque s e tem rótu lo
Gráfico dos resíduos contra a variável explicativa
Grava resultados da regressão em uma nova planilha
Apresenta a série de resíduos
Y − Yˆ
Gráfico para avaliar se a hipótese de normalidade do erro é satisfeita
Gráfico com os valores observados e previstos
Exemplo modelo de regressão linear múltipla no Excel
βˆ 0 ˆ β βˆ 2 1
Exemplo modelo de regressão linear múltipla no Excel Gráficos na planilha de Resultados
30,00 20,00 10,00 0,00 -10,00 0 -20,00 -30,00
20
40
60
X2 Plotagem de resíduos
80
100
Resíduos
Resíduos
X1 Plotagem de resíduos 40,00 20,00 0,00 -20,00 0 -40,00
5
10
20
X2
X1
X1 Plotagem de ajuste de linha 300 250 200 150 100 50 0
X2 Plotagem de ajuste de linha 300
Y Previsto(a) Y
200
Y Previsto(a) Y
Y
Y
15
100 0
0
50 X1
100
0
10
20 X2
30
25
Exemplo modelo de regressão linear múltipla no Excel Gráficos na planilha de Resultados
Plotagem de probabilidade normal 300 Y
200 100 0 0
50 100 Percentil da amostra
150
Problemas que podem acontecer em um modelo de regressão linear Multicolinearidade: Quando há relações lineares exatas ou aproximadamente lineares entre as variáveis explicativas, a redundância entre as varáveis pode resultar em estimativas com valores elevados para o erro padrão ou impossibilitar a estimação dos coeficientes de regressão no caso de relações lineares exatas. Heterocedasticidade: A variância do erro não é uma constante, (violação da hipótese de homocedasticidade). Não raro acontece quando a amostra de observações é um corte transversal de unidades com “tamanhos” heterogêneos. Na presença de heterocedasticidade o estimador MQO permanece não tendencioso, mas deixa de ser o melhor estimador. Nestas situações deve-se utilizar o métodos mínimos quadrados ponderados (MQP). Autocorrelação: Os erros são autocorrelacionados, violação da hipótese de covariância nula entre os erros. Problema frequente quando a amostra de dados é formada por séries temporais. Na presença de autocorrelação serial dos erros o estimador MQO permanece não tendencioso, mas deixa de ser o melhor estimador. Nestas situações deve-se utilizar o métodos mínimos quadrados generalizados (MQG).
Multicolinearidade Ocorre quando qualquer variável independente é altamente correlacionada com um conjunto de outras variáveis independentes. No caso extremo, uma variável independente guarda uma relação linear com outra variável independente. Neste caso não é possível obter as estimativas de mínimos quadrados. Consequências da multcolinearidade: • Estimativas mais imprecisas • Erros-padrão maiores • Dificuldade da separação dos efeitos de cada variável Soluções para contornar a multicolineardade. • Coletar mais dados • Eliminar variáveis • Usar componentes principais para reduzir a dimensão dos dados
Avaliação da Multicolinearidade 1) Coeficientes de correlação simples entre as variáveis independentes 2) Tolerância: quantia de variabilidade da variável dependente não explicada pelas outras variáveis independentes. Valores altos significam um pequeno grau de multicolinearidade. Tolerância= 1–Rk2, se menor que 0,1 indica multicolinearidade Onde Rk2 é o coeficiente de determinação da variável independente k nas demais variáveis independentes. 3) Fator de inflação da variância (VIF): é o inverso da tolerância. Valores altos significam maiores níveis de multicolinearidade. VIF = 1 / Tolerância, se maior do que 10 já indica multicolinearidade
Referências Bibliográficas Hanke, J.E.; Wichern, D.W. Pronósticos en los negocios, Naucalpan de Juárez: Pearson Education de México, 2006. Kutner, M.H.; Nachtsheim, C.J.; Neter, J. Applied linear regression models, New York: McGraw-Hill Irwin, 2004.