1 Econometria Modelos de regressão linear

Share Embed


Descrição do Produto

Econometria

Modelos de Regressão Linear

Prof. José Francisco [email protected]

Regressão Objetivo: Estabelecer uma função matemática que descreva a relação entre uma variável contínua (variável explicada ou dependente) e uma ou mais variáveis explicativas ou independentes. y = f(x1,x2,...,xK) + ε  y denota a variável dependente.  x1,x2,...,xK denotam as variáveis independentes.  f(x1,x2,...,xK) descreve a variação sistemática  ε representa a variação não sistemática (erro aleatório) Modelos de regressão (função f) podem ser lineares ou não lineares. A função f não é conhecida e deve ser inferida a partir das observações das variáveis y, x1,x2,...,xk.

Regressão Linear Técnica estatística que pode ser usada para analisar a relação entre uma única variável dependente (explicada) e um conjunto de variáveis independentes (explicativas). O objetivo da análise de regressão linear consiste em identificar uma equação linear que permita prever o valor da variável dependente em função dos valores conhecidos das variáveis independentes. Regressão linear simples: apenas uma variável independente. Exemplo: variável dependente = vendas variável independente = despesas com propaganda Regressão linear múltipla: duas ou mais variáveis independentes. Exemplo: variável dependente = preço do imóvel variáveis independentes = área, nº de quartos, nº de banheiros, idade

Motivação (HANKE & WICHERN, 2006) Uma empresa transportadora deseja estimar o custo de agregar carga a um caminhão parcialmente cheio. A empresa acredita que o único incremento de custo, decorrente da agregação de carga, é o custo adicional de combustível, pois o rendimento (milhas por galão) seria menor. Admite-se que a frota da transportadora é formada por caminhões idênticos. No período 2009-2012 foram realizadas 5.428 viagens e uma amostra aleatória de 40 viagens foi tomada. Na tabela ao lado são apresentados os pesos e os rendimentos (milhas/galão) das 40 viagens selecionadas na amostra.

Diagrama de dispersão representação gráfica que permite visualizar a relação/associação entre duas variáveis

Um incremento no peso reduz o rendimento A relação entre as variáveis não é exata (estocástica)

Motivação A boa aderência da nuvem de pontos ao redor de um reta imaginária indica que a relação entre as duas variáveis pode ser aproximada por uma relação linear.

A essência da relação entre o peso e o rendimento pode ser expressa por uma reta. Seja Y o rendimento em milhas/galão e X o peso da carga (1000 libras), então temos o seguinte modelo de regressão linear simples: modelo

y = β 0 + β 1x + ε

β0 e β1 são constantes não conhecidas ε é um termo aleatório com distribuição normal (ε ~ N(0,σ2))

A identificação desta reta (estimação dos parâmetros do modelo) pode ser efetuada por meio do estimador de mínimos quadrados ordinários (MQO).

Motivação Neste caso o rendimento (y) é explicado pelo peso da carga (x), então, y=f(x): y = rendimento = variável dependente x = peso da carga = variável independente A relação estocástica entre as duas variáveis pode ser modelada da seguinte forma: y = β 0 + β 1x + ε Onde:  β0 e β1 são coeficientes desconhecidos da reta que relaciona as variáveis x e y (estimados a partir dos dados da amostra).  ε é um termo aleatório (erro) que representa a imprecisão na relação entre x e y.

Motivação Y Equação da reta estimada por MQO Ê(Y|X) = 8,8484 – 0,0604 X

X Para uma carga de 70 mil libras (X= 70) espera-se um rendimento de 4,62 milhas/galão ( Ê(Y|X) = 4,62 ) E(Y|X) = 8,8484 – 0,0604 x 70 ≅ 4,62

Motivação Estimação por mínimos quadrados ordinários (MQO)

Estimador MQO

∑ (x n

βˆ 1 =

i =1

i

)(

− x yi − y

∑ (x n

i =1

i

−x

)

2

)

Modelo ajustado Ê(Y|X) = 8,8484 – 0,0604 X

βˆ0

βˆ1

βˆ 0 = y − βˆ 1 x X é a variável independente ou explicativa, neste caso o peso ( X é a média amostral de X) Y é a variável dependente ou explicada, neste caso é o rendimento (milhas por galão), Y é a média amostral de Y n é número de observações, neste caso 40

Motivação

Interpretação da equação estimada Ê(Y|X) = 8,8484 – 0,0604 X Cada incremento de 1000 libras (∆ ∆X=1) na carga implica em uma redução, média, do rendimento (milhas/galão) da ordem de 0,0604 milhas/galão. A transportadora paga $ 1,25 por galão de diesel, então qual o incremento no custo para transportar 1000 libras adicionais por um trajeto de 100 milhas, dado que o frete é o médio (68,6 1000 libras)?

Motivação

centróide Y = 4,7

A transportadora paga $ 1,25 por galão de diesel, então qual o custo para transportar 1000 libras de carga em um trajeto de 100 milhas ? O rendimento médio é 4,7 milhas/galão, logo para um trajeto de 100 milhas com trasporte do frete médio (68,6 1000 libras), em média, o custo total é:

X = 68,6

100 milhas x 1,25 $/galão

= $ 26,60

4,7 milhas/galão O custo da mesma viagem com 1000 libras adicionais é: 100 milhas x 1,25 $/galão

= $ 26,94

(4,7 – 0,0604) milhas/galão Ou seja, 1000 libras adicionais na carga aumenta o custo em 34 centavos

Modelos de regressão linear Modelo de regressão linear simples: uma variável dependente explicada independente.

por

uma

variável

y = β 0 + β 1x + ε Modelo de regressão linear múltipla: Uma variável dependente explicada por pelo menos duas variáveis independentes. y = β0 + β1x1 + ... + βKxK + ε

(K≥2)

Objetivo: Identificar uma função linear que permita explicar uma variável dependente (y) em função das variáveis explicativas (x), ou seja, como y varia de acordo com mudanças em x.

Significado do erro ε O erro ε representa:  Todos os outros fatores que afetam a variável dependente Y, mas que não estão contempladas nas variáveis explicativas X.  Erros de medição.  Forma funcional inadequada, por exemplo, y = β 0 + β 1x  Inerente variabilidade econômicos.

ou y = β0 + β1x + β1x2 ? no

comportamento

dos

agentes

Modelo de Regressão Linear Simples Equação de regressão populacional: y = β0 + β1x + ε

(apenas uma variável independente)

Os coeficientes β0 e β1 não são conhecidos e devem ser estimados a partir de uma amostra aleatória de tamanho n da população: Amostra aleatória de tamanho n ⇒ (xi , yi), i=1,n Em cada unidade amostrada tem-se que yi = β0 + β1xi + εi i=1,n Componente determínistica

Erro, variável aleatória não-observável

Modelo de Regressão Linear Simples Hipóteses assumidas pelo modelo H1) A relação entre as variáveis é linear yi = β0 + β1xi + εi i=1,n: H2) Média nula: E(εi) = 0 para todo i=1,n H3) Variância constante: V(εi) = σ2 para todo i=1,n H4) Erros não correlacionados: Cov(εi,εk) = 0 para todo i≠k H5) Distribuição Normal: εi ~ N(0,σ2) para todo i=1,n εi são independentes e identicamente distribuídos N(0,σ σ2)

H6) A variável explicativa X é fixa, i.e., não é estocástica

Modelo de Regressão Linear Simples y = β 0 + β 1x + ε E E

(y (y

| x

)= x)=

E (β

|

β

0

0

) (ε )

+ β 1x + ε

+ β 1x + E

Como o valor esperado do erro é zero E(εε)=0, o valor esperado de y condicionado ao valor de x é igual a:

E ( y | x ) = β 0 + β1x Por hipótese a variável independente não é aleatória, assim tem-se:

V (y ) = σ

2

Como o erro tem distribuição Normal com média 0 e variância σ2

(

y ~ N β 0 + β1 x, σ

2

)

Modelo de Regressão Linear Simples

Reta de regressão

E ( y | x ) = β 0 + β1 x

Modelo de Regressão Linear Simples Estimador de mínimos quadrados yi = β0 + β1xi + εi ⇒ εi = yi - β0 - β1xi f = ∑ ε = ∑ [ yi − (β0 + β1xi )] n

Soma dos quadrados dos erros

n

2 i

i =1

i =1

f = ∑ [ yi − (β0 + β1xi )] n

As estimativas de β0 e β1 devem minimizar a soma sos quadrados dos desvios No ponto de mínimo as derivadas parciais são nulas

2

Min β0 ,β1

2

i =1

n ∂f = 0 ⇒ ∑ [ yi − (β0 + β1xi )] = 0 ∂β0 i =1 n ∂f = 0 ⇒ ∑ xi [ yi − (β0 + β1xi )] = 0 ∂β1 i =1 n

n

i =1

i =1

nβ0 + β1 ∑ xi = ∑ yi Sistema de equações normais A solução deste sistema fornece os estimadores de β0 e β1

n

n

n

β0 ∑ xi + β1 ∑ x = ∑ xi yi i =1

i =1

2 i

i =1

Modelo de Regressão Linear Simples Estimador de mínimos quadrados Solução do sistema de equações normais Estimadores de mínimos quadrados Sistema de equações normais n

n

nβ0 + β1 ∑ xi = ∑ yi i =1

i =1

n

n

n

i =1

i =1

i =1

∑ (x n

βˆ 1 =

i =1

i

)(

− x yi − y

∑ (x n

i =1

β0 ∑ xi + β1 ∑ xi2 = ∑ xi yi βˆ 0 = y − βˆ 1 x

i

−x

)

2

)

Modelo de Regressão Linear Simples Estimador de mínimos quadrados

Equação de regressão estimada

yˆ = E ( y | x ) = βˆ 0 + βˆ 1x

Valor estimado da variável dependente y dado que x é igual a xi

yˆ i = βˆ 0 + βˆ 1xi

Resíduo da i-ésima observação é igual a diferença entre o valor observado e o valor estimado da variável yi

εˆ i = yi − yˆ i εˆ i = yi − βˆ 0 + βˆ 1xi

(

)

Modelo de regressão linear simples Se as hipóteses H1 até H6 forem satisfeitas, os estimadores de mínimos quadrados são estimadores lineares não tendenciosos de variância mínima (Teorema de Gauss Markov) O estimador MQO é não tendencioso

( )

E βˆ 0 = β0

n

σ β2ˆ = 0

σ ε2 ∑ xi2 n

( )

σ β2ˆ = 1

(

i =1

n∑ xi − x i =1

E βˆ 1 = β1

Os estimadores são normalmente distribuídos

(

βˆ 0 ~ N β0 , σβ2ˆ0

)

2

(

σ ε2 n

2 x ∑ i −x

βˆ 1 ~ N β1, σβ2ˆ1

2

i =1

n

Estimador da variância do erro

σˆ ε2 =

∑ uˆ i =1

∑( n

2 i

n−2

=

i =1

yi − βˆ0 − βˆ1 xi n−2

)

2

)

)

Modelo de regressão linear simples Decomposição do erro

Y

Yi (valor observado) ^ Yi - Yi Yi - Y

^ Yi

(resíduo)

(valor estimado pela reta)

^ -Y Y i Y Média da variável dependente

^ = b + b X (reta de regressão) Y 0 1

X

Modelo de regressão linear simples Decomposição do erro

Y

n

(

SQT = ∑ Yi − Y i =1

)

2

SQT é a soma dos quadrados dos desvios de Y em relação a sua média, logo SQT é uma medida da variação total da variável dependente.

Y

X

Modelo de regressão linear simples Decomposição do erro

Y

n

(

SQR = ∑ Yˆi − Y i =1

)

^

2

SQR é a soma dos quadrados dos desvios entre a reta de regressão e a média da variável dependente Y.

Y corresponde as estimativas definidas pela reta de regressão

Y

SQR é uma medida da variação total da variável dependente explicada pela regressão.

X

Modelo de regressão linear simples Decomposição do erro

Y

n

SQE = ∑ i =1

(

Yi − Yˆi

)

2

SQE é a soma dos quadrados dos desvios de Y em relação a reta de regressão (resíduos). SQE expressa a parcela da variação de Y não explicada pela reta de regressão.

^

Y corresponde as estimativas definidas pela reta de regressão

X

Modelo de regressão linear simples Decomposição da soma de quadrados total

∑ (Y − Y ) = ∑ ( n

i =1

n

2

i

SQT

i =1

=

)

n

(

Yi − Yˆi + ∑ Yˆi − Yi SQE

2

i =1

+

)

2

SQR

SQT = Soma de Quadrados Total (variação total da variável dependente) SQR = Soma de Quadrados da Regressão (parcela da variação total explicada pelo modelo) SQE = Soma de Quadrados dos Erros (Resíduos) (parcela da variação total não explicada pelo modelo)

n é o total de observações na amostra

Modelo de regressão linear simples Coeficiente de determinação

n

R2 =

SQR = SQT

(

∑ Yˆi − Yi i =1 n

)

2

∑ (Y − Y ) i =1

2

= 1−

SQE SQT

i

0 ≤ R2 ≤ 1  Se R2 estiver próximo de 1, a variável x explica a maior parte da variação total de y. Neste caso, a variável x é uma boa preditora da variável y.  Se R2 estiver próximo de 0, a variável x explica muito pouco da variação total de y. Neste caso, a variável x não é uma boa preditora da variável y.

Modelo de regressão linear simples Análise da variância (ANOVA) F=

Fonte de variação

Graus de liberdade

Regressão

1

Soma dos quadrados SQR = βˆ 2 1

∑ (x n

i =1

i

−X

n

Resíduos

n-2

SQE = ∑ ( yi − yˆ i )

2

i =1 n

Total

n-1

SQT = ∑ yi2 − nY

SQR SQE (n − 2)

Quadrados médios

)

2

QMR = SQR / 1

QME = SQE / (n − 2 )

2

i =1

σˆ ε2 R2 =

SQR SQT

Estimador da variância do erro

Modelo de regressão linear simples Análise da variância (ANOVA) No exemplo da transportadora tem-se que Resultados gerados pelo Excel

R2 = 0,76, ou seja, 76% da variação do rendimento é explicada pela equação de regressão Y = 8,8484 – 0,0604X SQR SQE

equação de regressão Y = 8,8484 – 0,0604X

SQT

Modelo de regressão linear simples Inferência Estatística Modelo de regressão linear simples: Y = β0 + β1X + ε Teste t Avalia a significância do coeficiente de regressão linear associado com uma determinada variável explicativa. H0 : β1 = 0 ( ausência do efeito ) H1 : β1 ≠ 0 ( presença do efeito ) Sob H0

βˆ1 t= ~ t N −2 σˆ βˆ 1

Estatística teste

t > tcrítico rejeita H0 t < tcrítico aceita H0 tcrítico é um valor tabelado para um nível de significância α, no Excel use INVT(alfa;N-2)

Modelo de regressão linear simples Inferência Estatística (teste t) No exemplo da transportadora tem-se que Resultados gerados pelo Excel

H0 : β 1 = 0 H1 : β 1 ≠ 0

βˆ1

Estatística teste

βˆ t= ~ t N −2 σˆ βˆ

σˆ βˆ

1

Ao nível de significância α de 5% o valor tabelado (tcrítico) de uma t com (40-2) = 38 graus de liberdade é 2,024 =INVT(0,05;38) Valor absoluto do t calculado maior que tcrítico, logo H0 é rejeitada.

βˆ1 − 0,0604 t= = = −10,9052 σˆ βˆ 0,0055 t calculado 1

Exemplo modelo de regressão linear simples Inferência Estatística (teste t) No exemplo da transportadora tem-se que Região de rejeição Distribuição t

H0 : β 1 = 0 H1 : β 1 ≠ 0 Região de rejeição bilateral

- 2,024

0

2,024

tcalculado = -10,9052 tcrítico = INVT(0,05;38)

βˆ1 t= σˆ βˆ

1

Exemplo modelo de regressão linear simples Inferência Estatística (teste t e valor p) O valor p (p-value) fornece uma forma direta de decidir entre a rejeição e a não rejeição da hipótese nula H0 P-valor é a probabilidade de encontrar um valor para a estatística teste mais extremo que o valor calculado para a estatística teste (tcalculado). Se o valor p é menor que os níveis usuais de significância (1% ou 5%) devemos concluir pela rejeição da hipótese nula Cálculo do valor p no exemplo da transportadora: No Excel =DISTT(10,9052;38;2) tcalculado = -10,9052 valor p = P(t mais extremo que tcalculado) = P (t ≤ -10,9052 ou t ≥ 10,9052) = 2,91E-13 Probabilidade muito pequena e menor que o nível de significância adotado (5%), logo a hipótese nula (H0) deve ser rejeitada

H0 : β 1 = 0 H1 : β 1 ≠ 0

Exemplo modelo de regressão linear simples Inferência Estatística (teste t e p-valor)

Resultados gerados pelo Excel

Valor p menor que o nível de significância adotado (5%), logo a hipótese nula (H0) deve ser rejeitada

Modelo de regressão linear simples Inferência Estatística (intervalo de confiança) Intervalo de confiança 100(1-α α)%

βˆ1 − σˆ β 1 ⋅ t

1−

α

≤ β1 ≤ βˆ1 + σˆ β1 ⋅ t

1−

2

α 2

No exemplo da transportadora tem-se que

Valores tabelados

Resultados gerados pelo Excel

O intervalo -0,0716 ≤ β1 ≤ -0,0492 tem 95% de confiança de conter o valor do coeficiente de regressão da variável peso

Modelo de regressão linear simples Previsão do valor esperado

Previsor

Eˆ (Y h | X

Erro de previsão

εh = E(Yh | Xh ) − Eˆ (Yh | Xh ) = βˆ0 − β0 + βˆ1 − β1 Xh

h

) = βˆ 0

+ βˆ 1 X

(

  2  X h − X  2 2 1 S (ε h ) = σˆ ε  + n  2 n  Xi − X  ∑   i =1 Intervalo de previsão

(

[Eˆ(Y | X ) −t h

h

c

(

)

)

h

)(

SQ Re s n−2

σˆ ε =

S2 (εh ), Eˆ(Yh | Xh ) +tc S2 (εh )

)

]

Modelo de regressão linear simples Previsão de uma observação Dado XT+h prever YT+h Previsor

Yˆh = βˆ 0 + βˆ1 X h

Erro de previsão

εh = Yh −Yˆh = β0 − βˆ0 + β1 − βˆ1 Xh + uh

(

)(

)

  2  1 X h − X  2 2 S (ε h ) = σˆ ε 1 + + n  2 n  Xi − X  ∑   i =1

(

Intervalo de previsão

[Yˆ −t h

c

(

)

)

S2 (εh ),Yˆh +tc S2 (εh )

]

σˆ ε =

SQ Re s n−2

Modelo de regressão linear simples Intervalo de previsão de uma observação

Intervalo de previsão do valor esperado

Exemplo A Comissão de Serviços Públicos é responsável pela regulação dos serviços públicos, ou seja, atua no sentido de induzir as empresas a serem eficientes e prestarem serviços de qualidade ao preço justo para a população. Em um determinado Estado atuam diferentes empresas de serviços públicos sob o regime de monopólio nas respectivas áreas de concessão. O trabalho do auditor consiste em visitar estas empresas e auditar seus registros financeiros para detectar se algum tipo de abuso está ocorrendo. A maior dificuldade do auditor é avaliar se os custos apresentados pelas empresas são razoáveis, pois as empresas têm diferentes tamanhos O arquivo empresas.xls contêm registros do número de clientes e custos de manutenção de 12 empresas de serviço público. •

Estime o modelo de regressão.



Qual o custo de manutenção esperado para uma empresa com 75.000 clientes ?



Suponha que uma empresa com 75.000 clientes reporte uma despesa com manutenção de 1.500.000. Com base nos resultados da regressão linear, o auditor deve ver este número como razoável ou excessivo ?

Exemplo clientes (1000) despesas com manutenção (1000 US$) 25.3 484.6 36.4 672.3 37.9 839.4 45.9 694.9 53.4 836.4 66.8 681.9 78.4 1037 82.6 1095.6 93.8 1563.1 97.5 1377.9 105.7 1711.7 124.3 2138.6

Yˆ = 33,32 + 15,02 X Y = Despesa com manutenção X = Nº de clientes

Exemplo Qual o custo de manutenção esperado para uma empresa com 75.000 clientes ? X = 75 →

Yˆ = 33,32 + 15,02 ⋅ 75 = 1159,82 Y = Despesa com manutenção X = Nº de clientes

1159,82

75

→ US$ 1.159.820,00

Exemplo Suponha que uma empresa com 75.000 clientes reporte uma despesa com manutenção de 1.500.000. Com base nos resultados da regressão linear, o auditor deve ver este número como razoável ou excessivo ? Podemos responder esta pergunta por meio de um intervalo de previsão para uma observação.

[Yˆ −t h

Valor estimado pelo modelo de regressão para variável dependente (Yh = 1159,2) quando Xh = 75.

c

S2 (εh ),Yˆh +tc S2 (εh )

]

t crítico com N-2 graus de liberdade ao nível de significância α. No Excel =INVT(0.05;10) = 2,2281

  2  1 X h − X  2 2 onde S (ε h ) = σˆ ε 1 + + n  2 n  Xi − X  ∑   i =1 Obtido na Anova Quadrado médio do resíduo 35236

(

(

)

)

Nº de observações = 12 Média da variável dependente 70,67

Exemplo O intervalo de confiança cobre o ponto (75, 1500), logo o valor do custo não é excessivo.

X = 75 (1000 clientes) Y = 1500 (1000 US$)

Exemplo modelo de regressão linear simples no Excel 1) Matriz de dados para regressão linear simples 1 variável dependente 2) No menu Ferramentas escolha a 1 variável independente opção Análise de dados

4) Informe os dados para regressão na caixa de diálogo

3) Na caixa de diálogo escolha a opção Regressão e clique em Ok

Exemplo modelo de regressão linear simples no Excel Intervalo com os valores da variável independente

Rótulos: nomes das variáveis

Intervalo com os valores da variável dependente

Caixa de diálogo regressão

Marque s e tem rótu lo

Gráfico dos resíduos contra a variável explicativa

Grava resultados da regressão em uma nova planilha

Apresenta a série de resíduos

Y − Yˆ

Gráfico para avaliar se a hipótese de normalidade do erro é satisfeita

Gráfico com os valores observados e previstos

Exemplo modelo de regressão linear simples no Excel Planilha de Resultados Valor P < 5% rejeito H0 no teste F

R2

R2

Valor P P(F>24,3492) = 0,0011

α

β

Valor P P( |t| >4,9345) = 0,0011

Yˆ Y − Yˆ

Valor P P( |t| >2,1495) = 0,0638 Intervalo de confiança

Valores para a plotagem de probabilidade normal

Valor P < 5% rejeito H0 no teste F

- 4,9345

4,9345

Exemplo modelo de regressão linear simples no Excel Gráficos na planilha de Resultados Útil na verificação da hipótese de normalidade do erro (valores ao redor de uma reta imaginária indicam que a hipótese de normalidade não foi violada)

Resíduos

X Plotagem de resíduos 20 0 -20

0

10

20

30

40

50

Plotagem de probabilidade normal

X

60

Útil na verificação da hipótese de variância constante do erro

50

Y

40

Valores observados contra valores estimados Útil na avaliação da qualidade do ajuste

30 20 10 0

X Plotagem de ajuste de linha

0

40

60

Percentil da amostra

60 50 40 Y

20

Y Previsto(a) Y

30 20 10 0 0

10

20

30 X

40

50

80

100

Regressões que se tornam lineares por anamorfose As especificações a seguir são não-lineares, mas podem se tornar lineares por anamorfose, ou seja, mediante alguma transformação das variáveis. (exponencial) Yi = β 0 β1 ε i

ln Yi = ln β 0 + ln β1 ⋅ X i + ln ε i

Xi

Modelo linear

(potência)

β

Yi = β 0 X i 1 ε i

ln Yi = ln β 0 + β1 ln X i + ln ε i * * * Modelo linear Y = β + β ⋅ X + v i 0 1 i i X i* = 1

(hipérbole)

1 Yi = β 0 + β1 + εi Xi

Xi

A substituição de variáveis é válida, pois a relação entre X1 e X2 é não linear

(polinomial)

Yi* = β 0* + β1* ⋅ X i + vi

Yi = β 0 + β1 X i + β1 X i2 + ε i

Yi = β 0 + β1 X i* + ε i X i1 = X i X i 2 = X i2

Yi * = ln Yi β 0* = ln β 0

β1* = ln β1 vi = ln ε i Yi * = ln Yi β 0* = ln β 0 X i* = ln X i vi = ln ε i

Modelo linear

Modelo regressão linear múltipla

Yi = β 0 + β1 X i1 + β1 X i 2 + ε i

Modelo de regressão linear múltipla

Modelo de regressão linear múltipla A variável dependente é uma função linear de K variáveis independentes (K≥ ≥2)

Y i = β 0 + β 1 X 1i + β 2 X

2i

+K + βk X

Ki

+ εi

i=1,n

β1, β2, β3,..., βk, σ2 são parâmetros do modelo que devem ser estimados

Yi = [1

L

X i ,1

Notação matricial

 Y1  Y  Y =  2 M   Yn 

β0  β  X i , K ]⋅  1  + ε i i=1,n  M    β k 

Y = Xβ + ε

1 1 X = M  1

X 11 X 12 X 1n

L

X k1  X k 2    X kn 

ε1  ε  ε =  2 M   ε n 

β 0  β  β =  1  M    β k 

Na regressão linear simples (K=1), um caso particular da regressão linear múltipla

Hipóteses assumidas pelo modelo de regressão linear múltipla Basicamente, são as mesmas hipóteses assumidas na regressão linear simples H1) A relação entre as variáveis é linear yi = β0 + β1xi1 + β2x2i +...+ βkxki + εi i=1,n. H2) A variável explicativa X é fixa, ou seja, não é aleatória. H3) As colunas da matriz X são linearmente independentes, ou seja, não há uma relação linear perfeita entre duas ou mais as variáveis explicativas. H4) Erros tem média nula: E(εi) = 0 para todo i=1,n. H5) Variância do erro é constante (homocedasticidade): V(εi) = σ2 para todo i=1,n. H6) Erros não correlacionados: Cov(εi,εk) = 0 para todo i≠k. H7) Erros tem distribuição Normal: εi ~ N(0,σ2) para todo i=1,n. H2,H3,H4 e H5 ⇒ εi são independentes e identicamente distribuídos N(0,σ σ 2)

Modelo de regressão linear múltipla Estimador de Mínimos Quadrados Ordinários (MQO)

(

βˆ = X T X   n  n  X 1i ∑ i =1 T  X X = n  ∑ X 2i  i =1  M  n  ∑ X Ki  i =1

Equação de projeção

n

∑X i =1 n

∑X i =1

n

∑X

1i

i =1

∑X i =1

n

∑X i =1

1i

2i

L

X 2i

n

1i

∑X

X 2i

i =1

2 2i

O n

∑X i =1

n

1i

X Ki

∑X i =1

2i

X TY

 X ∑ Ki  i =1  n X 1i X ki  ∑  i =1 n  X 2 i X ki  ∑  i =1  n  2 X Ki  ∑ i =1 

 n  y ∑ i   i =1  n   x1i y i  ∑  i =1  T  X Y = n  ∑ x2i yi   i =1  M   n   x y  ∑ Ki i   i =1 

n

n

2 1i

)

−1

X Ki

yˆ = Eˆ ( y | X ) = βˆ 0 + βˆ1 X 1 + K + βˆ k X K = [1

X1

L

 βˆ 0   ˆ  β X K ]⋅  1   M     βˆ k 

Estimador de mínimos quadrados Propriedades do estimador de mínimos quadrados

( ) Σ (βˆ ) = σ (X X ) E βˆ = β

Estimador não tendencioso

2

T

−1

Matriz de covariância dos estimadores

SQE σˆ = n−k 2

(

−1 T 2 ˆ β ~ N K +1 β , σ ( X X )

βˆ j ~ N (β j , σ 2 a jj )

)

O vetor de estimadores tem distribuição normal multivariada Cada βˆ j tem distribuição normal ajj elemento da diagonal principal da inversa de X’X

Se as hipóteses H1 até H6 forem satisfeitas, o estimador de mínimos quadrados é o melhor estimador linear não tendencioso (Teorema de Gauss Markov)

Exemplo modelo de regressão linear múltipla (KUTNER et al, 2004) Uma empresa de artigos infantis opera em 21 cidades de médio porte. A empresa está analisando a possibilidade de expansão em outras cidades de médio porte e para isso deseja investigar se a vendas (Y) em uma localidade podem ser preditas com base no número de pessoas com até 16 anos de idades (X1) e a renda per capita na localidade (X2). Valores expressos em milhares.

X2 16,7 16,8 18,2 16,3 17,3 18,2 15,9 17,2 16,6 16 18,3 17,1 17,4 15,8 17,8 18,4 16,5 16,3 18,1 19,1 16

Y 174,4 164,4 244,2 154,6 181,6 207,5 152,8 163,2 145,4 137,2 241,9 191,1 232 145,3 161,1 209,7 146,4 144 232,6 224,1 166,5

300

300

250

250

200

200

Y

X1 68,5 45,2 91,3 47,8 46,9 66,1 49,5 52 48,9 38,4 87,9 72,8 88,4 42,9 52,5 85,7 41,3 51,7 89,6 82,7 52,3

Y

Atualmente a empresa está presente em 21 localidades (N = 21), cujos dados são apresentados na tabela abaixo:

150

150

100

100

50

50

0 30

40

50

60

70

X1

80

90

100

0 15

16

17

18

X2

Modelo de regressão linear múltipla a ser estimado

Y = β 0 + β1 X1 + β 2 X 2 + ε

19

20

Exemplo modelo de regressão linear múltipla Os dados das 21 localidades podem ser dispostos em um gráfico, onde cada localidade é representada por um ponto. A equação de regressão

E (Yi X 1 , X 2 ) = β 0 + β1 X 1 + β 2 X 2

define um plano

passando pelo meio da nuvem de pontos. Este plano representa o valor esperado das vendas em função da renda e da população abaixo de 16 anos em uma localidade

vendas

renda

população

Exemplo modelo de regressão linear múltipla Modelo de regressão linear

Yi = β 0 + βX 1, i + β 2 X 2, i + ε i

Estimação dos coeficientes de regressão por mínimos quadrados

X X= T

Dados

Y=

174,4 164,4 244,2 154,6 181,6 207,5 152,8 163,2 145,4 137,2 241,9 191,1 232 145,3 161,1 209,7 146,4 144 232,6 224,1 166,5

X=

1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

68,5 45,2 91,3 47,8 46,9 66,1 49,5 52 48,9 38,4 87,9 72,8 88,4 42,9 52,5 85,7 41,3 51,7 89,6 82,7 52,3

16,7 16,8 18,2 16,3 17,3 18,2 15,9 17,2 16,6 16 18,3 17,1 17,4 15,8 17,8 18,4 16,5 16,3 18,1 19,1 16

(X X ) T

−1

=

X Y= T

21,00 1.302,40 360,00

1.302,40 87.707,94 22.609,19

360,00 22.609,19 6.190,26

29,7289 0,0722 -1,9926

0,0722 0,0004 -0,0055

3.820,00 249.643,35 66.072,75

βˆ = X T X

-1,9926 -0,0055 0,1363

(

)

−1

X TY

 βˆ0   − 68,8571     ˆ  β1  =  1,4546   ˆ    β 9 , 3655   2  Equação estimada

Y = −68,86 + 1,45 X1 + 9,37 X 2 + ε

Exemplo modelo de regressão linear múltipla Gráficos dos resíduos contra cada variável explicativa e a variável explica exibe um padrão aleatório e a dispersão parece constante e, portanto, estão coerentes com as hipóteses (pressupostos) de covariâncias nulas entre os erros e variância do erro constante.

Exemplo modelo de regressão linear múltipla O gráfico de probabilidade normal índica que a distribuição dos resíduos é normal, portanto, coerente com a hipótese (pressuposto) de distribuição normal para o erro.

Modelo de regressão linear múltipla Inferência Estatística no Modelo de Regressão Linear Análise da variância - ANOVA Fonte de variação

Graus de liberdade

Soma dos quadrados

Quadrados médios

2

Regressão

K

Resíduos

n - (K+1)

Total

 n  T T ˆ SQR = β X Y −  ∑ yi   i =1  SQE = Y TY − βˆ T X T Y  n  SQT = Y Y −  ∑ yi   i =1  T

n -1

∑ (Yˆ − Y ) n

SQR R = = SQT 2

i

i

∑ (Y

−Y

i =1 n

i

)

n −1 R = 1− 1− R n−k

(

QMR = SQR / K QME = SQE / [n − (K − 1)]

2

n

2

i =1

2

n

2

)

2

QMR SQR k F= = QME SQE [n − (k + 1)]

Exemplo modelo de regressão linear múltipla Construção da ANOVA para o exemplo da cadeia de lojas de roupas juvenis

Yˆi = −68,8571 + 1,4546 X 1i + 9,3655 X 2 i

SQE

SQR

SQT

Exemplo modelo de regressão linear múltipla Construção da ANOVA para o exemplo da cadeia de lojas de roupas juvenis ANOVA Soma dos quadrados (A)

Graus de liberdade (B)

Quadrado médio (C=A/B)

Regressão

SQR 24015,28

2

12007,64

Resíduo

SQE 2180,93

N-3=18

121,1626

Total

SQT 26196,21

N-1=20

Fonte de variação

2 variáveis explicativas Coeficiente de determinação R2

3 coeficientes estimados Por isso N – 3

SQR 24015.28 2 R = = = 0,917 SQT 26196,21

F 12007,64 / 121.1626 = 99,1035

O quadrado médio dos resíduos é uma estimativa da variância do erro

σˆ ε

2

Modelo de regressão linear múltipla Inferência Estatística Teste t

H0 : β j = 0 H1 : β j ≠ 0

bj t= ~ t n −(k +1) σˆ β j

t ≥ t tab elad o ⇒ rejeita H 0

Teste F H0 : β 1 = β 2 = β 3 =...= β k =0 H1 : pelo menos um βj ≠ 0

SQR k F= SQE [n − (k + 1)]

F ≥ Fta belad o ⇒ rejeita H 0

Exemplo modelo de regressão linear múltipla Modelo de regressão linear

Yi = b0 + bX 1, i + b2 X 2, i + ε i

Estimativas dos erros padrão dos coeficientes de regressão

 σˆ 2ˆ  β0 S β = σˆ βˆ βˆ 0 1 σˆ  βˆ0 βˆ2

Sβ =

3.602,0347 8,7459 -241,4230

σˆ βˆ βˆ σˆ β2ˆ σˆ βˆ βˆ

0 1

1

1 2

8,7459 0,0449 -0,6724

Resultado na ANOVA = 121,1626  0 2  −1 2 T ˆ  = σε ⋅ X X 1 2 29,7289 0,0722 -1,9926  0,0722 0,0004 -0,0055 2   -1,9926 -0,0055 0,1363

σˆ βˆ βˆ σˆ βˆ βˆ σˆ β2ˆ

-241,4230 -0,6724 16,5158

Erros padrão dos estimadores dos coeficientes de regressão (valores informados pelo ajuste de regressão no Excel)

(

)

Variâncias na diagonal principal Covariâncias fora da diagonal principal

σˆ βˆ = σˆ β2ˆ = 3602,0347 = 60,0170 0

0

σˆ βˆ = σˆ β2ˆ = 0,0449 = 0,2118 1

1

σˆ βˆ = σˆ β2ˆ = 16,5158 = 4,0640 2

2

Exemplo modelo de regressão linear múltipla Inferência do modelo Teste F: Testa o efeito conjunto das variáveis explicativas sobre a variável dependente.

H0 : b1 = b2 = 0 ( não há regressão de Y em X1 e X2) H1 : b1 ≠ 0 ou b2 ≠ 0 ( presença do efeito ) 1) Estatística teste SQR K F= SQE n − (K + 1)

2) Distribuição da estatística testes sob H0

3) Valor da estatística teste na amostra observada (Fcalculado)

4) F crítico ao nível de significância de 5% = 3,5546 =FINV(0,05;2;18) no Excel

12.007,64 2 F= = 99,1035 121,1626 21 − (2 + 1)

SQR K ~ FK ,n −( K +1) SQE n − (K + 1)

5) Conclusão Fcalculado > Fcrítico logo rejeita H0

Distribuição F

Exemplo modelo de regressão linear múltipla Inferência do modelo Teste t: Testa a significância do coeficiente de regressão linear associado com uma determinada variável explicativa.

H0 : b1 = 0 ( ausência do efeito ) H1 : b1 ≠ 0 ( presença do efeito ) 1) Estatística teste

bˆ1 t= σˆ βˆ

1

2) Distribuição da estatística testes sob H0

Distribuição t

bˆ1 ~ t N −3 σˆ βˆ 1

3) Valor da estatística teste na amostra observada (tcalculado)

1,4546 t= = 6,8682 0,2118

4) t crítico ao nível de significância de 5% = 2,1 =TINV(0,05;18) no Excel 5) Conclusão tcalculado > tcrítico logo rejeita H0

Exemplo modelo de regressão linear múltipla Inferência do modelo Teste t: Testa a significância do coeficiente de regressão linear associado com uma determinada variável explicativa.

H0 : b2 = 0 ( ausência do efeito ) H1 : b2 ≠ 0 ( presença do efeito ) 1) Estatística teste

bˆ2 t= σˆ βˆ

2

2) Distribuição da estatística testes sob H0

Distribuição t

bˆ2 ~ t N −3 σˆ βˆ 2

3) Valor da estatística teste na amostra observada (tcalculado)

9,3655 t= = 2,3045 4,0640

4) t crítico ao nível de significância de 5% = 2,1 =TINV(0,05;18) no Excel 5) Conclusão tcalculado > tcrítico logo rejeita H0

Exemplo modelo de regressão linear múltipla Intervalos 95% de confiança para os coeficientes da equação de regressão

bˆi − bi − t n −( K +1) (2,5% ) ≤ ≤ t n −( K +1) (2,5% ) σˆ bi

Distribuição t

K = número de variáveis independentes n = tamanho da amostra

95%

− 68,8571 − b0 − 2,1 ≤ ≤ 2,1 ⇒ −194,948 ≤ b0 ≤ 57,2339 60,0170 − 2,1 ≤

1,4546 − b1 ≤ 2,1 ⇒ 1,0096 ≤ b1 ≤ 1,8995 0,2118

− 2,1 ≤

9,3655 − b2 ≤ 2,1 ⇒ 0,8274 ≤ b2 ≤ 17,9036 4,0640

R2 ajustado Problema com a estatística R2 : sempre aumenta a medida que novas variáveis são incluídas no modelo de regressão linear múltipla, independentemente da variável adicionada. No entanto cada variável adicionada ao modelo tem um custo, pois mais um coeficiente deve ser estimado. Então é interessante ter uma medida que permita avaliar o benefício para melhoria do modelo com a adição de uma nova variável explicativa em relação ao custo de estimar mais um coeficiente. Esta medida é o R2 ajustado

2 ajustado

R

n −1 2 ( = 1− 1− R ) n−k

Onde n é o tamanho da amostra K é o número de parâmetros da equação de regressão. O R2 ajustado é útil quando desejamos comparar dois modelos diferentes ou comparar um mesmo modelo com tamanhos de amostras diferentes

Modelo de regressão linear múltipla Previsão Dado

x hT = [1

X 1h

X 2h

L

X kh ]

Previsão do valor esperado da variável dependente dado Y

Eˆ (Yh | X ) = βˆ0 + βˆ1 X 1h + K + βˆ k X kh s 2previsão =

x hT S βˆ x h

Previsão do valor da variável dependente dado Y

Yˆh = βˆ0 + βˆ1 X 1h + K + βˆ k X kh Erro padrão das previsões

s 2previsão =

x hT S βˆ x h + σˆ 2

Quadrado médio dos resíduos Valor obtido na ANOVA

Exemplo Calcule a previsão das vendas esperadas nas cidades A e B:

Cidade A número de pessoas com até 16 anos de idades (X1) : 65,4 renda per capita na localidade (X2) : 17,6

x hT = [1 65 , 4 17 ,6 ]

Cidade B número de pessoas com até 16 anos de idades (X1) : 53,1 renda per capita na localidade (X2) : 17,7

x hT = [1 53 ,1 17 ,7 ]

Previsão da venda esperada na cidade A E(Y|X)

= −68,86 + 1,45 ⋅ 65,4 + 9,37 ⋅17,6 = 191,10

Previsão da venda esperada na cidade B E(Y|X)

= −68,86 + 1,45 ⋅ 53,1 + 9,37 ⋅17,7 = 174,15

Exemplo Intervalos de confiança para as vendas esperadas nas cidades A e B: Cidade A número de pessoas com até 16 anos de idades (X1) : 65,4 T renda per capita na localidade (X2) : 17,6

x h = [1 65 , 4 17 ,6 ]

Cidade B número de pessoas com até 16 anos de idades (X1) : 53,1 T renda per capita na localidade (X2) : 17,7

x h = [1 53 ,1 17 ,7 ] Matriz de covariâncias dos estimadores slide 54

Resultado da ANOVA slide 52 2 ˆ σ ε = 121,1626

Sβ =

Erro padrão das estimativas slide 60

´s 2previsão =

x hT S βˆ x h

3.602,0347 8,7459 -241,4230

8,7459 0,0449 -0,6724

-241,4230 -0,6724 16,5158

Cidade A = 11,35

Cidade B = 11,93

Exemplo Intervalos de confiança para as vendas esperadas nas cidades A e B: E(Y|X) é a média das vendas dado X

α  2 α  2 previsão − t N −( k +1)   s previsão ≤ E (Y | X ) ≤ previsão + t N −( k +1)   s previsão 2 2

Valor crítico da t com N-(k+1) graus de liberdade ao nível de confiança 1-alfa, podem ser obtidos no Excel, por exemplo, para 95% de confiança =INVT(0,05;18), cujo valor é aproximadamente 2,101

167,3 ≤ E (Y | X ) ≤ 214,9

Cidade A

149,1 ≤ E (Y | X ) ≤ 199,2

Cidade B

Note que os intervalos de confiança tem grande amplitude apesar do elevado R2 (0,92), portanto, valores elevados de R2 não garantem necessariamente previsões precisas

Exemplo modelo de regressão linear múltipla no Excel 1) Matriz de dados para regressão linear múltipla 1 variável dependente 2) No menu Ferramentas escolha a 2 variável independentes opção Análise de dados

4) Informe os dados para regressão na caixa de diálogo

3) Na caixa de diálogo escolha a opção Regressão e clique em Ok

Exemplo modelo de regressão linear múltipla no Excel Intervalo com os valores da variável independente

Intervalo com os valores da variável dependente

Rótulos: nomes das variáveis

Caixa de diálogo regressão

Marque s e tem rótu lo

Gráfico dos resíduos contra a variável explicativa

Grava resultados da regressão em uma nova planilha

Apresenta a série de resíduos

Y − Yˆ

Gráfico para avaliar se a hipótese de normalidade do erro é satisfeita

Gráfico com os valores observados e previstos

Exemplo modelo de regressão linear múltipla no Excel

βˆ 0 ˆ β βˆ 2 1

Exemplo modelo de regressão linear múltipla no Excel Gráficos na planilha de Resultados

30,00 20,00 10,00 0,00 -10,00 0 -20,00 -30,00

20

40

60

X2 Plotagem de resíduos

80

100

Resíduos

Resíduos

X1 Plotagem de resíduos 40,00 20,00 0,00 -20,00 0 -40,00

5

10

20

X2

X1

X1 Plotagem de ajuste de linha 300 250 200 150 100 50 0

X2 Plotagem de ajuste de linha 300

Y Previsto(a) Y

200

Y Previsto(a) Y

Y

Y

15

100 0

0

50 X1

100

0

10

20 X2

30

25

Exemplo modelo de regressão linear múltipla no Excel Gráficos na planilha de Resultados

Plotagem de probabilidade normal 300 Y

200 100 0 0

50 100 Percentil da amostra

150

Problemas que podem acontecer em um modelo de regressão linear Multicolinearidade: Quando há relações lineares exatas ou aproximadamente lineares entre as variáveis explicativas, a redundância entre as varáveis pode resultar em estimativas com valores elevados para o erro padrão ou impossibilitar a estimação dos coeficientes de regressão no caso de relações lineares exatas. Heterocedasticidade: A variância do erro não é uma constante, (violação da hipótese de homocedasticidade). Não raro acontece quando a amostra de observações é um corte transversal de unidades com “tamanhos” heterogêneos. Na presença de heterocedasticidade o estimador MQO permanece não tendencioso, mas deixa de ser o melhor estimador. Nestas situações deve-se utilizar o métodos mínimos quadrados ponderados (MQP). Autocorrelação: Os erros são autocorrelacionados, violação da hipótese de covariância nula entre os erros. Problema frequente quando a amostra de dados é formada por séries temporais. Na presença de autocorrelação serial dos erros o estimador MQO permanece não tendencioso, mas deixa de ser o melhor estimador. Nestas situações deve-se utilizar o métodos mínimos quadrados generalizados (MQG).

Multicolinearidade Ocorre quando qualquer variável independente é altamente correlacionada com um conjunto de outras variáveis independentes. No caso extremo, uma variável independente guarda uma relação linear com outra variável independente. Neste caso não é possível obter as estimativas de mínimos quadrados. Consequências da multcolinearidade: • Estimativas mais imprecisas • Erros-padrão maiores • Dificuldade da separação dos efeitos de cada variável Soluções para contornar a multicolineardade. • Coletar mais dados • Eliminar variáveis • Usar componentes principais para reduzir a dimensão dos dados

Avaliação da Multicolinearidade 1) Coeficientes de correlação simples entre as variáveis independentes 2) Tolerância: quantia de variabilidade da variável dependente não explicada pelas outras variáveis independentes. Valores altos significam um pequeno grau de multicolinearidade. Tolerância= 1–Rk2, se menor que 0,1 indica multicolinearidade Onde Rk2 é o coeficiente de determinação da variável independente k nas demais variáveis independentes. 3) Fator de inflação da variância (VIF): é o inverso da tolerância. Valores altos significam maiores níveis de multicolinearidade. VIF = 1 / Tolerância, se maior do que 10 já indica multicolinearidade

Referências Bibliográficas Hanke, J.E.; Wichern, D.W. Pronósticos en los negocios, Naucalpan de Juárez: Pearson Education de México, 2006. Kutner, M.H.; Nachtsheim, C.J.; Neter, J. Applied linear regression models, New York: McGraw-Hill Irwin, 2004.

Lihat lebih banyak...

Comentários

Copyright © 2017 DADOSPDF Inc.