Econometria Cross-Section: Uma Análise para fins educacionais do tipo Cross-Country dos Indicadores de WDI do Banco Mundial

May 29, 2017 | Autor: Bruno Candea | Categoria: Economics, Econometrics
Share Embed


Descrição do Produto

2016

ECONOMETRIA CROSS-SECTION: UMA ANÁLISE CROSS-COUNTRY DOS INDICADORES DE INVESTIMENTO DO WDI BRUNO CANDEA BARBARA WERNER TIAGO TEUBER THALES GAZOLA

Banco de dados e script publicados em 09 de agosto de 2016 em: https://data.mendeley.com/datasets/gmfc38cdfj/1

Sumário Introdução.........................................................................................................................................................3 Econometria Cross-Section, análise Cross-Country. .......................................................................3 Abordando um tema real: Millenium Goals e WDI .........................................................................3 Especificação dos dados ..........................................................................................................................5 Especificações técnicas .............................................................................................................................5 Sistemas operacionais utilizados .......................................................................................................5 Softwares utilizados ...............................................................................................................................6 Ferramentas importantes.....................................................................................................................6 Pacotes utilizados no R ........................................................................................................................6 Testes e Modelos Iniciais..............................................................................................................................6 Especificação do modelo .............................................................................................................................7 Especificação Matemática do modelo de regressão múltipla com testes iniciais ................8 Testando o modelo criado ........................................................................................................................ 10 Normalidade dos dados......................................................................................................................... 10 Shapiro-Wilk .......................................................................................................................................... 10 Jarque-Bera ............................................................................................................................................ 10 Normalidade dos Resíduos ................................................................................................................... 11 Shapiro-Wilk .......................................................................................................................................... 11 Jarque-Bera ............................................................................................................................................ 11 Presença de Outliers................................................................................................................................ 12 p-value de Bonferroni ......................................................................................................................... 12 Análise gráfica dos resíduos ............................................................................................................. 13 Métrica de Cook ................................................................................................................................... 14 Heterocedasticidade .............................................................................................................................. 15 Inspeções gráficas dos resíduos ...................................................................................................... 16 Breusch-Pagan ...................................................................................................................................... 16 Goldfeld-Quandt .................................................................................................................................. 17 Correções da heterocedasticidade ................................................................................................. 17 Multicolinearidade.................................................................................................................................... 18 VIF (Variance Inflator Factor) ............................................................................................................ 19 Correlação (Não-Serial) .......................................................................................................................... 19

MQG - Mínimos Quadrados Generalizados ....................................................................................... 20 MQGF - Mínimos Quadrados Generalizados Factíveis .................................................................... 21 Comparações finais e escolha do modelo .......................................................................................... 22 Demonstração da capacidade de estimação do modelo .............................................................. 24 Filtragens de dados..................................................................................................................................... 25 Primeira filtragem de dados ................................................................................................................ 25 Segunda filtragem de dados ............................................................................................................... 25 Terceira filtragem de dados ................................................................................................................. 25 Quarta filtragem de dados ................................................................................................................... 25 Quinta filtragem de dados ................................................................................................................... 25 Bibliografia ..................................................................................................................................................... 26

2

INTRODUÇÃO Em Econometria, podemos destacar três tipos principais de estruturas de dados: Cross-Sections, ou cortes no tempo, que relacionam variáveis explicativas a uma variável dependente, em um ponto único no tempo, com diversos “itens” (países, cidades, empresas, indivíduos, etc). A seguir, temos as séries temporais, estruturas interessantes que fazem esta mesma relação, porém com relação a um “item” de cada vez, e ao longo do tempo, e, além destas, temos a análise longitudinal, ou de painéis, que relaciona variáveis explicativas a variáveis dependentes, ao longo do tempo e para diversos “itens”. Neste trabalho, procuraremos relacionar algumas das características econométricas de uma análise Cross-Section, aplicada a um tema real, do tipo Cross-Country (análise de um conjunto de países), construção e testes de hipóteses, e modelagem de um fenômeno econômico.

ECONOMETRIA CROSS-SECTION, ANÁLISE CROSS-COUNTRY. Uma análise cross-country pode ser considerada aquela que relaciona uma estrutura de dados de países, compondo um dado banco de dados. Pode ser interessante como forma de análise de variáveis macroeconômica mais generalizadas, que usam, por exemplo, o PIB, produto interno bruto (em inglês, GDP, Gross Domestic Product) ou o PNB, produto nacional bruto (em inglês, GNI, Gross National Income), como formas de mensurar o quanto um país produz. Em alguns casos, de análises de regressões lineares espaciais, geograficamente ponderadas, ou de dados mais específicos, este tipo de análise pode não ser o mais recomendado, pois não leva em consideração diversos fatores de maior peculiaridade que podem influenciar nos resultados da regressão, ou de previsões, se for este o objeto pretendido pela análise de regressão. Um exemplo disto é que, ao analisarmos renda, consumo e investimento por meio de uma Cross-Country, por exemplo, teríamos limitações pelo fato de que diferentes países podem ter hábitos de consumo diferentes, para diferentes níveis de renda. O consumo pode ser determinado por hábitos culturais, ou religiosos, por exemplo. O investimento e até mesmo a renda podem, da mesma forma, ser influenciados por questões similares, e isto tudo torna a análise mais complexa.

No caso deste trabalho, no entanto, tomamos o cuidado de utilizar somente variáveis previamente estudadas acerca de metodologia de coleta, e buscamos apenas aquelas que tenham sido verificadas, e analisadas anteriormente pelo Banco Mundial e/ou órgãos acreditados. Recomenda-se ter este cuidado sempre, para que a análise possa ser a mais limpa possível de interferência por meio de amostragem indevida, i.e., que não tenha sido gerada através de um processo aleatório, estatisticamente válido.

ABORDANDO UM TEMA REAL: MILLENIUM GOALS E WDI Ao realizar um estudo econométrico, devemos nos preocupar em colher dados confiáveis e bem trabalhados, como mencionado antes, e também em tratar de um assunto real, que envolva uma teoria por trás, e que possamos analisar. Desta forma, abordemos agora o tema que motivou este estudo econométrico breve: No ano 2000, a Organização das Nações Unidas, ONU, oficializou os esforços por melhorar as condições de vida a nível mundial, com a criação do United Nations Millenium Goals Declaration, documento assinado pelos 189 países membros da organização na época, e por mais de 20 parcerias, de outras organizações mundiais. Esta declaração tinha como objetivo coordenar quais seriam os objetivos mais importantes, seu prazo e como seriam atingidos. Inicialmente, os

3

oito Millenium Goals foram1 estes demonstrados na imagem abaixo desta página. Visando a importância deste tema, o Banco Mundial, uma das principais parcerias da ONU, e referência em dados estatísticos de nível global, fez um levantamento de indicadores que mensurassem itens contidos na descrição do

estejam na escola. O objetivo era atingir a educação plena até 2015, mas uma redução nos investimentos em educação após 2008, é apontada como fator decisivo para este objetivo não ter sido completo. Dentro deste tema, coletamos dados sobre os investimentos feitos em educação pelo Estado, em relação ao PIB.

plano da ONU para cada um destes Millenium Goals. Este levantamento de dados deu origem a um dos seus principais e mais acessados bancos de dados, denominado World Development Indicators. Em seu report oficial de 20162 sobre estes indicadores de desenvolvimento mundiais, o Banco Mundial ressalta a importância de investimentos em educação e infraestrutura, e sobretudo com parcerias que incluam o setor privado, como forma de gerar e consolidar crescimento econômico, afirmação que despertou o interesse que levou a este trabalho. Uma análise prévia dos dados refletia a relevância de mensurar estatísticas sólidas que tem impacto principalmente em dois dos oito objetivos estabelecidos nos Millenium Goals da ONU: O primeiro objetivo a levarmos em consideração é o de atingir educação primária universal (MG2). Estima-se que cerca de 91% das crianças em idade de educação primária hoje

O segundo, é atingir parcerias globais pelo desenvolvimento (MG 8). Em 2005, em uma reunião com ministros das finanças dos países membros do G-8, cerca de US$ 40 bilhões foram concedidos para que as 48 economias menos desenvolvidas do mundo pudessem ter quase toda sua dívida externa quitada, gerando oportunidade de investimento que levassem desenvolvimento. Dentro deste tema, por sua vez, coletamos dados sobre os investimentos feitos em Telecomunicações, Energia, Transporte e Água e Saneamento, com participação do setor privado, em relação ao PIB (% do PIB). Dados adicionais para outras análises também foram coletados, como PNB, população, número de pessoas com acesso à internet, e classificamos os países de acordo com seu nível de renda per capita. Por último, criamos também uma dummy, que assume valor 1 se o país é membro da OECD (Organização para a Cooperação e Desenvolvimento Econômico) e 0 se não.

Para mais detalhes: http://www.unmillenniumproject.org/goals/gti.htm

2

1

4

Para mais detalhes: http://data.worldbank.org/data-catalog/worlddevelopment-indicators

Sendo assim, após a leitura dos reports oficiais das bases de dados do Banco Mundial WDI – World Development Indicators, do ano 2012 a 2016, e do report disponibilizado pelo órgão sobre os dados coletados, metodologia, e relevância, decidimos por separar, para testes iniciais, os indicadores que serão detalhados na seção seguinte. Para efeito de constatação, este trabalho testará, portanto, o papel de cada um destes dados coletados no produto do país, ou seja, o efeito de variações unitárias (e percentuais, como será mostrado mais adiante) das variáveis explicativas sobre o PIB, nossa variável dependente.

ESPECIFICAÇÃO DOS DADOS Os dados foram originalmente coletados na página oficial do Banco Mundial referente à base de dados World Development Indicators, descritos no documento World Development Indicators 2016, um report oficial do órgão descrito na bibliografia deste trabalho. Após a coleta, todos os dados foram tratados, no Microsoft Excel, com transformações de porcentagem para valores correntes, e depois para valores per capita, tal qual descrito com mais detalhes na seção sobre filtragem de dados e testes iniciais. Os dados iniciais coletados foram: Despesas do governo com educação, em % do PIB (SE.XPD.TOTL.GD. ZS); Despesas totais do governo, em % do PIB (GC.XPN.TOTL.GD. ZS); Crédito doméstico ao setor privado, em % do PIB (FS.AST.PRVT.GD.ZS); Investimentos em Telecomunicações com participação do setor privado, em dólares correntes, e em % do PIB (IE.PPI.TELE.CD); Investimentos em Energia com participação do setor privado, em dólares correntes, e em % do PIB (IE.PPI.ENGY.CD); Investimentos em Transporte com participação do setor privado, em dólares correntes, e em % do PIB (IE.PPI.TRAN.CD); Investimentos em Água e Saneamento com participação do setor privado, em dólares correntes, e em % do PIB (IE.PPI.WATR.CD) e número de pessoas com acesso à internet por 100 pessoas (IT.NET.USER.P2).

Além destes dados, foram coletados o PIB, em dólares correntes, o PNB, também em dólares correntes, e a população de cada país. A partir destes dados, foi possível criar uma planilha que contém todas estas informações, e que é capaz de realizar as devidas conversões. A planilha que criamos, nomeada como excel_wdi.xls, foi publicada no site de referências bibliográficas e dados Mendeley Data, com licença de uso do tipo GNU, aberta para pesquisa, modificações e republicações, no artigo intitulado

World Bank WDI: Investments in Education and Infrastructure with Participation of State and Private Sector, juntamente do script que criamos, nomeado rscript_wdi.r e utilizado neste trabalho. O link é permanente, e qualquer pessoa pode fazer o download tanto da planilha quanto do script no seguinte endereço: https://data.mendeley.com/datasets/gmfc38cdfj/1 .

ESPECIFICAÇÕES TÉCNICAS Toda análise econométrica tem por objetivo estudar fenômenos econômicos reais, da maneira mais robusta possível, com o objetivo de produzir ciência, i.e., experimentos que possam ser recriados, testados e confirmados ou refutados, e, com vista a isto, publicamos todos os arquivos no banco de dados online da Mendeley Data, conforme citado na seção anterior, para testes, pesquisas e comentários posteriores. Outro cuidado geralmente tomado em produções científicas, das mais básicas, como esta, às mais avançadas, é o de documentar as especificações técnicas usadas na realização dos experimentos:

SISTEMAS OPERACIONAIS UTILIZADOS I. Windows 10 Home Edition, processador 64 bits, arquitetura x86. II. Windows 10 Professional, processador 32 bits, arquitetura x32. III. Windows 7 Professional, processador 32 bits, arquitetura x32.

5

SOFTWARES UTILIZADOS I. Microsoft Excel 2016, developer edition. II. R Software, versão 3.3.0, construção x86_64w64-mingw32/x64

FERRAMENTAS IMPORTANTES I. Plotly – Ferramenta para plotar gráficos interativos para arquivos excel e csv.

PACOTES UTILIZADOS NO R I. corrgram – Excelente para plotagem de correlogramas, carrega diversos outros pacotes gráficos. II. car – pacote estatístico com funções e testes para regressões lineares. III. AER – pacote estatístico com funções avançadas de econometria aplicada. IV. tseries – pacote estatístico com funções de séries temporais, mas com testes que são úteis em qualquer tipo de estrutura de dados.

TESTES E MODELOS INICIAIS Assim que coletamos os dados necessários, a primeira preocupação foi realizar uma bateria de testes para decidir quais deles melhor se encaixariam em um modelo final que pudesse ser utilizado na predição de séries de dados. Uma a uma, todas as variáveis explicativas (a variável dependente será, em todo o trabalho, o PIB) foram testadas por meio de modelos laterais. Algumas se mostraram estatisticamente significativas, outras não. Nesta primeira filtragem de dados, as variáveis was, (water and sanitation, referente à investimentos em água e saneamento), poderia ser retirada do resto da análise, por falta de significância e por excessiva falta de dados disponíveis (o R removeu 166 linhas de dados devido a NA’s). Outra variável descartada foi a dummy OECD, omd (de Oecd

6

Member Dummy), que também demonstrou muito pouca significância estatística, e um p-value de 0.99, o que nos fez descarta-la de nosso futuro modelo. As variáveis remanescentes foram edu, que representa os investimentos em educação, tel, que representa os investimentos em telecomunicações, cdt, que representa o crédito doméstico dado ao setor privado, e a variável eng, que representa os investimentos em energia. Doravante, mencionaremos nos testes o nome das variáveis apenas, para facilitarmos o entendimento e não termos um texto com muitas repetições. Seguem os resultados dos primeiros testes iniciais das variáveis significativas: PIB ~ Educação: Significativo a um p-value extremamente baixo, com erro padrão baixo e valores significativos nos testes t-student para significância do parâmetro, e F, para significância da regressão. Notamos um R² muito alto, com R ajustado igualmente alto. Falaremos sobre isto mais à frente, e como um valor muito alto de R² pode na verdade ser fruto de uma correlação entre a variável explicativa e a variável dependente, ou ainda fruto de um processo de retroalimentação, o que tornaria nossa análise muito mais complexa, e fugiria do escopo deste trabalho em si (Visualização dos resultados na página seguinte). PIB ~ Crédito: Significativo a um p-value extremamente baixo, apresentando inclusive um intercepto bastante significativo, o que não possui uma interpretação econômica clara, mas sim estatística. Os valores dos testes t-student e F de Fisher-Snedecor também reportaram valores significativos. Como o erro-padrão da variável cdt é extremamente baixo, e os valores de R² e do R ajustado são muito altos, suspeitamos de que o mesmo problema anterior, da variável edu, possa estar ocorrendo nesta regressão (Visualização dos resultados do R também na página seguinte). PIB ~ Telecom: Significativo a um p-value extremamente baixo, com um valor considerado normal de erro-padrão, dados os graus de liberdade observados, com um R² razoável

acompanhado de um R ajustado que se enquadra no ‘normal’ esperado para uma regressão simples como esta. Com testes t-student e F FisherSnedecor bons, e características que não saltam os olhos de maneira indevida a princípio, podemos dizer que aparentemente a regressão possua poucos problemas, e que os processos geradores dos dados não tenham problemas de correlação excessiva com a variável dependente, embora possa ocorrer alguma relação deste tipo, bem como problemas de retroalimentação, como no caso das demais variáveis. Novamente, isto fugiria ao escopo deste trabalho, e, portanto, assumiremos que tel é uma variável legítima (Visualização dos resultados do R abaixo). PIB ~ Energia: Embora tenha sido a variável cuja regressão, dentre estes modelos iniciais reportou os menores valores de R² e R ajustado, verificamos um F de Fisher-Snedecor relativamente alto, aceitável a 5%, assim como o valor do teste tstudent. Tal qual a variável tel, a variável eng é uma boa aposta para os próximos modelos de regressão (Visualização dos resultados do R abaixo). De maneira geral, estas variáveis foram consideradas aptas a passarem por outros testes.

Estes testes consistiram na segunda filtragem de dados, onde transformamos todos os dados em variáveis per capita afim de diminuir o nível de variação entre os dados. Todos os testes realizados na primeira filtragem de dados foram refeitos, e reportaram resultados similares. Desta forma, constatamos que as variáveis edu, cdt, tel e eng passaram para a próxima etapa do nosso estudo.

ESPECIFICAÇÃO DO MODELO Após termos realizado duas baterias de testes com nossas variáveis pré-selecionadas, trataremos de realizar uma terceira bateria de testes, desta vez com modelos de regressão linear múltipla que combinem várias variáveis. Depois de inúmeros testes, com diversos modelos diferentes, tanto lineares quanto logarítmicos (log-log), selecionamos um modelo que apresentaremos agora. Também apresentaremos uma breve discussão acerca das formas funcionais, e de

7

como escolhemos a que representará os testes deste trabalho como um todo.

ESPECIFICAÇÃO MATEMÁTICA DO MODELO DE REGRESSÃO MÚLTIPLA COM TESTES INICIAIS A escolha correta da forma funcional de um modelo de regressão, seja linear ou não nos parâmetros, seja ele simples ou múltiplo, de qualquer que seja a estrutura, se cross-section ou não, é extremamente importante. Erros na especificação correta do modelo podem incorrer em um viés muito comum, de especificação, e resultar em um modelo com pouco ou nenhum poder preditivo. De maneira geral, temos os modelos de regressão linear, onde os dois lados da equação de regressão são definidos por variáveis lineares. Neste modelo, uma variação unitária em X causa β unidades de variação em Y. De maneira parecida, temos os modelos semilogarítmicos, que podem assumir as formas lin-log ou log-lin, a depender de qual lado da equação será logaritmizado. Nestes tipos de modelos, temos semi-elasticidades, ou seja, uma variação unitária em X (para o caso de um modelo log-lin), causa β pontos percentuais em Y, ou uma variação de um ponto percentual em X causa β unidades de variação em Y (modelo lin-log). Há ainda os modelos duplo-log, em que ambos os lados da equação são logarítmicos, modelos recíprocos, que incluem uma assíntota ou valor limite, que a variável dependente Y assumirá quando X aumentar indefinidamente, e que é não linear no parâmetro X. Além destes, há muitos outros, modelos logísticos, logit, tobit, entre outros. Nos concentraremos, neste trabalho, dadas as características dos dados e do problema estudado, em dois tipos de modelo: linear em Y e em X, e duplo-log, ou seja, log em Y e em X. Assim, após todos os testes realizados, definidos na terceira bateria de testes, chegamos a um modelo que referenciava as variáveis edu, tel, e tra, que inclusive havia sido descartada na segunda bateria de testes com modelos diversos. Os resultados desta bateria de dados nos levaram a observar mais de perto os problemas dos dados,

8

que estavam ainda referenciados em dólares correntes. Suspeitamos então definimos que o melhor modelo possível para continuarmos a análise seria dado por: 𝑃𝐼𝐵𝑖 = 𝛽0 + 𝛽1𝑖 𝑒𝑑𝑢4 + 𝛽2𝑖 𝑡𝑒𝑙4 + 𝛽 3𝑖 𝑒𝑛𝑔4 + 𝜀𝑖 Com variáveis já conhecidas por nós. O valor 4 à frente das variáveis é uma referência à quarta filtragem de dados realizada. No final deste trabalho, há uma seção que explica brevemente cada uma destas filtragens de dados, mas o mais importante é que, durante as três primeiras filtragens, foram eliminadas variáveis que possuíam muitas observações de NA’s, que não possuíam nenhuma significância estatística, e que não se comportavam bem por um viés de especificação da variável. Nesta quarta etapa de tratamento dos dados, criamos um arquivo final, chamado data4.csv, que contém observações robustas para 66 países, sem NA’s, e com todos os valores previamente convertidos para dados per capita, afim de criar a melhor base de dados possível para o modelo. A esta altura, podemos agora demonstrar os resultados do primeiro run do nosso modelo: As variáveis edu, tel, e eng se mostraram significativas, tanto a 2%, como o caso de eng quanto a valores α muito baixos, no caso das outras variáveis. O intercepto não possui significância estatística, o que poderia causar problemas na predição correta do PIB. O valor da estatística F de Fisher-Snedecor se mostrou satisfatório, reportando um p-value extremamente baixo. Os valores dos coeficientes de determinação R², bem como o R ajustado, se mantiveram em patamares realistas, dentro do esperado para um modelo sobre um fenômeno

tão complexo quanto o PIB, embora seu valor ainda carregue a suspeita de correlação entre as variáveis, problema investigado mais à frente. Uma rápida olhada na matriz de variância deste modelo inicial nos reforça esta ideia, mas devemos realizar primeiro os devidos testes para

fazer qualquer tipo de afirmativa. Ao analisarmos, por sua vez, os resíduos desta regressão, percebemos alguns detalhes interessantes. O primeiro destes detalhes é que aparentemente a distribuição dos erros segue uma distribuição aproximadamente normal com pequena assimetria à esquerda, embora com

alguns pontos bem disformes, que saem bastante do padrão normal, fato mostrado no terceiro plot abaixo (Normal Q-Q). Pelos outros gráficos, poderíamos notar também a aparente presença de heterocedasticidade, dado o padrão de comporta mento dos resíduos, e ainda a presença de outliers na análise, pois todos os plots detectaram pontos fora do comum. Investigaremos estes problemas de maneira mais profunda à frente. Por enquanto, vamos apenas resgatar os valores dos coeficientes da regressão para usarmos novamente no fim deste trabalho quando formos testar o poder de predição de cada um dos modelos criados.

9

TESTANDO O MODELO CRIADO Até agora havíamos nos preocupado em criar um modelo para trabalharmos. Vimos, por meio de uma rápida inspeção gráfica, que aparentemente há presença de outliers e de heterocedasticidade. Vamos, portanto, iniciar os testes para verificar, empiricamente, as hipóteses de normalidade dos dados, presença de outliers, heterocedasticidade, multicolinearidade e correlação não-serial, que também entra na hipótese anterior.

em que an-i+1 são constantes geradas pelas médias, variâncias e covariâncias das estatísticas de ordem de uma amostra de tamanho n de uma distribuição Normal. Pelo teste de Shapiro-Wilk, observamos pvalues extremamente baixos para todas as amostras coletadas, indicando que os dados não provêm de uma distribuição normal.

NORMALIDADE DOS DADOS A hipótese de normalidade dos dados é importante para o processo de inferência, e não apenas a estimação, para que possamos utilizar os procedimentos de testes de hipóteses mais simples possíveis. Sendo assim, testamos a hipótese de normalidade dos dados por meio de dois dos principais testes existentes: Shapiro-Wilk e JarqueBera. Existem muitos outros testes disponíveis, como o Kolmogorov-Smirnov, Anderson-Darling, Lillefors, e muitos outros, mas vamos nos ater a estes dois dado a facilidade de implementação, interpretação, e o fato de que são os mais usados geralmente.

SHAPIRO-WILK Proposto em 1965, o teste é baseado na estatística W, calculada por:

em que xi são os valores da amostra ordenados (x(1) é o menor). A constante b é determinada da seguinte forma:

10

JARQUE-BERA Introduzidos por Carlos Jarque e Anil Bera, o teste é basicamente uma medição da qualidade de ajuste da amostra, à partir de suas características de assimetria e curtose, para verificar se os dados provém de uma distribuição aproximadamente normal com (𝜇 = 0, 𝜎 2 = 𝜎 2 ). O teste é definido pela estatística JB por:

Em geral, a presença de outliers na amostra pode ser um fator decisivo na normalidade dos dados. Onde S é a medida da assimetria e C a medida da curtose da amostra, por sua vez definidos como:

NORMALIDADE DOS RESÍDUOS Outra hipótese importante de testarmos é se os resíduos do nosso modelo seguem uma distribuição normal ou não. Utilizamos a mesma estrutura de testes, com Shapiro-Wilk e Jarque-Bera, para testar esta hipótese, e descobrimos que também os resíduos não seguem uma distribuição normal, como demonstrados à seguir:

SHAPIRO-WILK Este teste relaciona as estatísticas dos terceiro e quarto momentos centrais da amostra, como demostrado acima, e é uma forma de confirmação ou não da hipótese nula de normalidade dos dados da amostra. Ao carregarmos o teste de Jarque-Bera no R, a partir da função jarque.bera.test(model) do pacote tseries, chegamos à mesma conclusão dos testes de Shapiro- Wilk, quanto a nãonormalidade dos dados da nossa amostra. Os resultados são demonstrados a seguir:

JARQUE-BERA

Em geral, para amostras de tamanho razoável, como a nossa (66 observações), tomamos o cuidado também de realizar uma rápida verificação gráfica da distribuição dos resíduos do modelo, e no caso deste modelo, a hipótese de não-normalidade dos resíduos também foi aceita, como demonstrado no histograma dos resíduos da regressão na página seguinte. De modo geral, sabemos que a nãonormalidade dos resíduos da regressão afeta os valores dos testes t e F em amostras pequenas ou finitas, como o caso da nossa.

11

fringeliers, apontados por Wainer (1976) como eventos incomuns que podem acontecer mais de uma vez, e que por estarem próximos da fronteira de três desvios padrão da média, podem causar uma forte influência na estimação dos parâmetros do modelo. Na imagem abaixo percebemos que alguns países realmente possuem um distanciamento das demais observações, que pode causar problemas ao estimarmos o modelo. Para testarmos empiricamente a presença de outliers, usamos o teste outlierTest(model) para verificarmos a presença deste pontos isolados na amostra.

PRESENÇA DE OUTLIERS Outliers são observações que se distanciam muito do padrão comum encontrado no restante dos dados. Em geral, o problema que causam é que podem criar uma falsa heterocedasticidade no modelo. De maneira geral, a presença de outliers pode causar o que Zimmerman (1994, 1998, 1999) categorizou como erros inflados, e distorções substanciais na aferição de testes para parâmetros ou estatísticas, usando ou não estimativas paramétricas. Outro fenômeno que pode ocorrer, mas com uma frequência mais rara, é a presença de

12

P-VALUE DE BONFERRONI Um dos valores reportados pelo teste outlierTest do pacote car é o da estatística de Bonferroni. Esta estatística, proposta pelo matemático italiano Carlo Emilio Bonferroni e descrito por Olive Dunn em seus artigos de 1959 e 1961, reporta um teste que verifica o quão prejudiciais os dados de observações muito distantes da amostra podem ser. De modo geral, para valores da estatística de Bonferroni acima de 1, suspeitamos que a observação seja um outlier, e podemos inferir que

possui influência na distribuição dos resíduos, e que o verdadeiro valor dos resíduos da regressão Studentizados é na verdade menor do que o observado na regressão contendo outliers. De fato, ao utilizarmos a função outlierTest(model) no R, reportamos o seguinte

em relação à média podem ser considerados fringeliers, como é o caso da 36a observação, como reportado pela estatística do teste de p-

teste: Assim, mantemos a suposição de presença de outliers nas 16a e 36a observações, pelo menos.

ANÁLISE GRÁFICA DOS RESÍDUOS Outra forma de verificarmos a presença de outliers é por meio da análise gráfica de seu comportamento. Notamos, através do gráfico QQ Plot a seguir, como existem observações que se

value de Bonferroni: Outra forma de análise gráfica trata dos

leverages dos resíduos, isto é, a diagonal da matriz chapéu H, criada no R (hatmodel) definida por:

dispersam muito do restante da amostra: Da mesma forma, podemos analisar também a distribuição dos resíduos ao quadrado, e como eles se comportam em relação à média zero (ideal). Vimos anteriormente que resíduos que estejam na fronteira dos três desvios padrão

13

De modo geral, através dos gráficos de leverages, supomos a presença de outliers influentes:

MÉTRICA DE COOK Tomando como base a diagonal principal da matriz chapéu H que demonstramos à pouco, e chamando cada elemento de hi, temos que a métrica da Distância D de Cook é dada por:

A grosso modo, podemos dizer que D é grande quando os leverages são grandes, ou seja, quando um ponto se distancia demais das demais observações, e que, quando D é maior que 1, podemos considerar o ponto, ou seja, a observação, como um ponto influente no processo de estimação dos parâmetros. Ao plotarmos o gráfico da Distância de Cook para o nosso modelo, verificamos

novamente que a 36a observação da nossa amostra se mostra muito distante das demais, acompanhada por outras observações aparentemente influentes: Após testes de influência, comprovamos a já esperada hipótese de presença de outliers no nosso modelo.

14

Uma rápida inspeção gráfica de outro gráfico de distância de Cook comprova isto: Após a confirmação da presença de outliers, prosseguimos com a utilização de uma técnica conhecida como jackknife, que visa eliminar pontos demasiadamente influentes da amostra, e realiza uma nova regressão. Dos resultados deste procedimento, retiramos cinco das sessenta e seis observações da nossa amostra. São elas os países Lao e Butão, que realizaram grandes investimentos em Energia, nos últimos anos, e por isto possuíam um valor muito alto para este dado, o Chile, por ser um outlier em Y, ou seja, possuir um PIB per capita muito alto para os demais países da amostra coletada, e os países Uruguai e Lituânia, que vem realizando maciços investimentos em educação nos últimos anos. Percebemos que todos, exceto o Chile, eram exemplos de outliers em Y. O procedimento a seguir foi de criar uma nova base de dados, resultante da quinta filtragem de dados, em que os outliers foram removidos, e uma amostra de maior qualidade, agora com 61 observações, pode ser utilizada. Com base nesta nova base de dados, recriamos as variáveis, que agora passaram a se chamar gdp5, edu5, tel5 e eng5.

Outro modelo foi estimado, e os testes de normalidade foram refeitos. Os dados continuam sendo originados por uma distribuição nãonormal, o que comprova que os outliers não estavam influenciando na distribuição dos resíduos, mas sim nos parâmetros. Outro fato interessante, também sobre os parâmetros estimados, é que o segundo modelo, sem outliers, não possui significância para a variável eng5, o que nos faz pensar que a significância atribuída a ela anteriormente era meramente fruto da influência de outliers em suas observações, e que demonstra o que afirmamos no início desta seção: a presença de outliers pode afetar a estimação dos parâmetros e das inferências dos testes, dado seu impacto também sobre o verdadeiro erro-padrão do modelo.

HETEROCEDASTICIDADE Um dos problemas que podem ocorrer quando trabalhamos com regressões lineares é o da heterocedasticidade, ou seja, os erros passam a ter uma variância que não é mais constante. Uma das possíveis causas deste problema na estimação é a presença de dados discrepantes, ou seja, observações muito diferentes das demais observações da amostra. Como já realizamos os

testes e correções de outliers, pressupomos que este não será um problema em nosso modelo atual, já corrigido. Uma outra hipótese é a de que pode ser que o modelo não esteja corretamente especificado, gerando um viés que possa levar a observação de resíduos diferentes dos verdadeiros, ou seja, aqueles que observaríamos no caso de um modelo corretamente especificado. Dada esta hipótese, criamos um outro modelo, com o qual seguiremos em paralelo todos os próximos testes, sob a forma de duplolog. Utilizar o log dos dois lados da equação que define o modelo econométrico pode ser útil, pois uma das propriedades do log é “achatar” os dados, deixando-os mais bem comportados no modelo. Uma outra causa da heterocedasticidade é a assimetria da distribuição de um ou mais regressores. Vimos que nossos dados não seguem uma distribuição normal, o que, economicamente pode ser interpretado como a desigualdade que encontramos dentre as economias estudadas. A natureza das variáveis que estudamos neste trabalho são, por si só, distintas. Alguns países possuem maior produto, outros menos. Alguns investem mais em educação, outros têm priorizado transportes. Ou energia, ou possuem baixos investimentos para todos. Sabemos como o mundo é, e de suas peculiaridades, então esperamos que as variáveis carreguem heterocedasticidade, principalmente por causa deste problema. De maneira geral, Damodar Gujarati (2006) classifica a heterocedasticidade como um problema que afeta mais as estruturas de corte transversal (cross-sections) do que as séries temporais, e de fato tínhamos a intenção de tentar um modelo temporal, mas devido a limitações técnicas, manteremos este trabalho sob o escopo da estrutura previamente citada, e manteremos a ideia de um trabalho similar mais aprofundado para um futuro próximo. Com relação ao processo de estimação dos parâmetros, a heterocedasticidade não causa um problema em si no fato dos estimadores continuarem a ser estimadores não-tendenciosos para o modelo. O problema que ela causa, na

15

verdade, é que os estimadores não serão mais os melhores não-tendenciosos, visto que sua variância mínima não é mais definida como o usual. Com isto, deixamos de ter, no MQO, o melhor método de estimação, e passamos a precisar do MQG, ou Mínimos Quadrados Generalizados, para nossa regressão. Na verdade, pode haver a presença de BLUE (em português, melhor estimador nãotendencioso, ou MELNT) mesmo com heterocedasticidade, nos MQO, como demonstra o teorema de Kruskal (condição suficiente para haver BLUE em MQO), mas isto, no entanto, é algo mais raro, e de maneira geral não é caso que temos em mãos neste trabalho. Com isto em mente, demonstraremos os testes e medidas corretivas tomadas em nosso modelo.

INSPEÇÕES GRÁFICAS DOS RESÍDUOS O primeiro teste que fizemos, informal, é o da inspeção gráfica do comportamento dos resíduos. Demonstramos, junto dos testes de outliers, que os resíduos possuíamos diversos pontos que saltavam à média das demais observações. Verificaremos agora se, após a correção de jackknife, houve mudanças nos resíduos do nosso modelo:

apresenta, aparentemente, um padrão heterocedástico. Analisaremos agora o modelo logarítmico (faremos comparações entre os modelos a partir deste ponto):

De maneira geral, notamos um melhor comportamento do modelo logarítmico. Ainda assim, prosseguimos com os testes, desta vez, utilizando procedimentos formais de testes da hipótese de heterocedasticidade.

BREUSCH-PAGAN O teste de Breusch-Pagan é um dos mais utilizados para testar a presença de heterocedasticidade. Baseando-se em modelos da forma:

Regredimos o modelo contra o resíduo:

E aferimos a seguinte estatística: ~ Para os nossos modelos, encontramos os seguintes resultados: O gráfico demonstra que o modelo linear, mesmo após a correção de outliers, ainda

16

CORREÇÕES DA HETEROCEDASTICIDADE A primeira das medidas de visualização dos modelos aplicadas foi a fracionalização do modelo, como descrito em Gujarati (2006). Os resultados após as medidas foram:

De acordo com o teste de Breusch-Pagan para heterocedasticidade, o problema assola o modelo linear, mas não o logarítmico.

GOLDFELD-QUANDT No R, descobrimos que o teste de White é realizado através no teste de Goldfeld-Quandt, algo presente nas descrições técnicas dos pacotes car e tseries. Dado isto, designamos este teste para a segunda verificação formal da hipótese de heterocedasticidade. O teste de Goldfeld-Quandt é útil quando acreditamos que a variância heterocedástica é positivamente relacionada a uma das variáveis explicativas do modelo de regressão. Nesta estrutura de teste, fazemos a ordenação das observações de acordo com os valores de X, omitimos observações centrais, dividindo as restantes em dois grupos distintos, ajustamos regressões por MQO separadas para estes dois conjuntos e estimamos a razão GQ. No caso do nosso modelo, obtivemos as seguintes estatísticas de teste, que confirmaram, tal qual os testes de Breusch-Pagan, a hipótese de heterocedasticidade no modelo linear e homocedasticidade no modelo log.

Após verificarmos que mesmo com a fracionalização das amostras, o modelo linear permaneceu com a presença de heterocedasticidade, decidimos por aplicar a medida corretiva da matriz robusta de White à heterocedasticidade. MATRIZ ROBUSTA DE WHITE

Percebemos uma melhoria nos errospadrão estimados para ambos os modelos, e ao realizarmos uma nova bateria de testes para a heterocedasticidade, notamos que os modelos ficaram melhor definidos após a aplicação do método de construção da matriz robusta de White à heterocedasticidade. Os resultados da nova regressão por meio da matriz robusta geraram as seguintes estatísticas, com destaque para o modelo log.

17

DUMMIES Uma das medidas que podem ser adotadas na presença persistente de heterocedasticidade, como no caso do nosso modelo linear, é criar dummies categóricas no modelo. De fato, havíamos coletado informações sobre o grupo de renda ao qual cada país pertence. Utilizamos o R, portanto, para criar dummies que categorizam os países segundo seu grupo, assumindo valores 1 ou 0 para as seguintes categorias: A se o país é de baixa renda, B se é de renda média, C se é de renda média alta, e D se é de renda alta, todos critérios baseados no nível de renda per capita, que acompanham o padrão criado na terceira filtragem de dados. Com a criação de dummies, chegamos ao seguinte modelo:

Já o modelo logarítmico permanece um pouco melhor comportado:

MULTICOLINEARIDADE

Após a criação de dummies, e a construção da estimação através da matriz robusta de White, percebemos mudanças nos gráficos dos resíduos das regressões, embora a regressão por meio do modelo de forma linear continue com padrões heterocedásticos persistentes, como demonstrado na figura seguinte, dos resíduos ao quadrado da regressão:

18

Um dos problemas mais comuns que assolam as regressões lineares é o da multicolinearidade, ou correlação não-serial entre as variáveis. Em geral, a presença de multicolinearidade afeta as variâncias dos estimadores de MQO, o que pode trazer problemas aos processos de inferências realizados nos testes de hipóteses. Com uma variância muito alta, os intervalos de confiança ficam mais amplos, e é mais fácil aceitar a hipótese

nula de que o parâmetro, ou o modelo como um todo, não possuem significância estatística. Se o objetivo for apenas a estimação, no entanto, este problema não traz muitas consequências imediatas. Os estimadores continuarão a ser os melhores estimadores nãotendenciosos, e a multicolinearidade só será um problema muito grande quando for perfeita, ou quando a amostra for muito pequena. É um dos problemas mais fáceis de testar, mas geralmente corrigi-lo se torna um problema, visto que precisaríamos realizar transformações nos dados, no caso de séries temporais, ou inclusão de novas informações, o que pressupomos como algo irracional visto que, se dispuséssemos de tais informações desde o começo, as teríamos usado em toda a modelagem.

VIF (VARIANCE INFLATOR FACTOR) Para testar a presença do problema da multicolinearidade em nossos modelos, usaremos o teste VIF (Variance Inflator Factor), um teste que avalia o grau de influência da variância na inflação dos resíduos do modelo. Em geral, existem testes de multicolinearidade que trabalham com a razão dos autovalores da matriz de dados. Além destes, há também aqueles que trabalham com regressões auxiliares, comparando-as em relação ao R². No caso do teste VIF, temos um teste que mede o quanto o j-ésimo coeficiente da nossa regressão está sendo inflado pela variância. É basicamente definido por:

Valores preocupantes, que indicam a presença de multicolinearidade no modelo são geralmente mais altos que 10. Nos resultados do teste VIF aplicados ao nosso modelo, no entanto, verificamos valores relativamente baixos para o teste, em geral bem próximos de 1:

Logo, assumimos a hipótese nula de que não há presença de multicolinearidade em nosso modelo.

CORRELAÇÃO (NÃO-SERIAL) Outra hipótese a ser verificada é a da autocorrelação, ou correlação serial. Em geral, dizemos da autocorrelação que é o problema que ocorre quando os erros são correlacionados. No caso de dados de corte transversais, dizemos que o problema é na verdade de correlação não-serial. A autocorrelação é um problema que assola as séries temporais, e depende de inferências a respeito do processo gerador dos dados, do grau de autoregressões (AR), da presença ou não de estacionariedade, que é a característica de que os principais momentos centrais (média, variância e covariância) não variam ao longo do tempo. Neste caso, usaríamos os testes de Breusch-Godfrey, ou o de Durbin-Watson para verificarmos a presença de autocorrelação. Como estamos trabalhando com dados cross-section, vamos utilizar a hipótese clássica do MQO de ausência de autocorrelação. De toda forma, recomenda-se, sob a suspeita de presença de correlação entre os termos de erro, construir uma modelagem por meio da matriz robusta de White e de Mínimos Quadrados Generalizados, duas medidas que tomamos o cuidado de realizar. Quanto à matriz robusta de White, demonstramos na seção sobre heterocedasticidade, e quanto ao método de estimação por MQG, demonstraremos a seguir:

19

MQG - MÍNIMOS QUADRADOS GENERALIZADOS

Além de estimar seus parâmetros, verificamos o comportamento de seus resíduos, como demonstrado na imagem anterior, e fizemos o mesmo para o modelo logarítmico:

Dados todos os problemas que podem surgir tanto da presença de heterocedasticidade quanto da correlação dos resíduos, tomamos o cuidado de criar também um terceiro par de modelos, da forma linear e duplo-log, porém estimados pelo método dos Mínimos Quadrados Generalizados. Sob a hipótese de presença da heterocedasticidade, como é o caso do nosso modelo linear, estimar o modelo por MQG pode ser bastante útil no que diz respeito a estimação de BLUE, ou seja, de melhores estimadores nãotendenciosos. Com isto em mente, chegamos, após a construção com base em testes que usavam pesos normais e quadrados na estimação de uma forma funcional que melhor pudesse descrever o modelo. Assim chegamos a este modelo final:

Após nova bateria de testes, acerca de cada uma das hipóteses previamente mencionadas, verificamos que este modelo, construído por meio do MQG, tem sido o melhor até agora. O único problema em criarmos um modelo através de MQG é que precisamos conhecer bem a forma funcional correta para estima-lo, o que nem sempre é possível. Desta forma, tomamos também o cuidado de realizar uma estimação por MQGF, ou Mínimo Quadrados Generalizados Factíveis.

20

MQGF - MÍNIMOS QUADRADOS GENERALIZADOS FACTÍVEIS Quando não conhecemos a forma funcional correta do modelo de estimação por MQG, quando temos presença de heterocedasticidade, ou quando notamos a presença de certa correlação entre os resíduos, geralmente nos deparamos com uma situação na qual os estimadores de MQO podem não ser os BLUE, ou até mesmo podem ser viesados, podemos utilizar o método de MQG Factíveis, onde criamos uma regressão auxiliar, que no caso do nosso modelo é dada pela regressão logarítmica auxiliar:

Que depois é utilizada como peso na regressão principal, por meio de seu inverso exponenciado, o que cria a regressão gama definida por uma matriz identidade ponderada à regressão principal. Após termos estimado a regressão auxiliar, estimamos agora a principal, cujos resultados trataremos de mostrar:

Além de estimarmos os modelos, fizemos também os mesmos testes de sempre.

Podemos notar, pelos plots dos resíduos e dos quadrados dos resíduos acima que conseguimos melhorias significativas desde o primeiro modelo.

21

COMPARAÇÕES FINAIS E ESCOLHA DO MODELO Levando em consideração todos os resultados até aqui obtidos, os testes, as filtragens de dados e todas as características de cada modelo, e das particularidades que a temática deste trabalho nos traz, realizamos ultimas comparações entre os resultados obtidos. Em relação a qualidade teórica, deveríamos utilizar o modelo logarítmico estimado por meio dos MQGF, pois é um modelo abrangente, com a menor presença de heterocedasticidade envolvida, correlações entre os termos de erro corrigidas, e características inerentes de BLUE.

22

No tocante a modelos lineares, optamos pelo modelo criado a partir do método de MQG, com pesos inversos, pois foi aquele que melhor demonstrou um ajuste aos dados, características de BLUE e que reportou os melhores índices de qualidade em todos os testes para modelos lineares que realizamos. Estas decisões podem ser ilustradas por meio da plotagem comparativa dos resíduos das regressões lineares (série de gráficos superior, com os quatro modelos lineares criados desde o início), e a plotagem comparativa dos resíduos das regressões logarítmicas (série de gráficos inferior, com os cinco modelos criados desde o início). Por último, tratamos de testar, por meio do Microsoft Excel, o grau de acuidade de cada modelo linear criado. Os testes reportaram que, assim como citado, o modelo criado a partir do

MQG foi o que reportou o melhor índice de predição, chegando até mesmo a prever com exatidão uma amostra, e chegar a 95% de acerto em diversas outras. Dada a falta de significância estatística de algumas variáveis, observamos que os erros de estimação eram encontrados exatamente nestas categorias. Para os países do grupo D, ou seja, de alta renda, pudemos prever com precisão considerável diversas observações. De maneira geral, o que se conclui é que os países em desenvolvimento, pertencentes aos grupos B e C tem realizado fortes investimentos em infraestrutura. A consolidação de uma rede de telecomunicações mais robusta também se mostrou significante, e condiz com o report do Banco Mundial que atribui a importância de investimentos em infraestrutura neste setor. Uma preocupação do órgão é também no que diz respeito a fornecimento de energia elétrica. Em um mundo que possui uma crescente demanda por energia, e uma matriz cada vez mais complexa, torna-se cada vez mais necessário criar investimentos produtivos e eficientes nesta área, muito embora não tenhamos verificado significância estatística para estes investimentos em nosso modelo final. Uma outra crescente preocupação do Banco Mundial, muito citada no report e que pudemos notar o motivo de maneira clara diz respeito a capacidade dos países de gerar estatísticas eficientes, de qualidade. Muitos investimentos tem sido feitos nesta área, e perpassam também os investimentos em educação, variável estatisticamente significativa em nosso modelo, e que a literatura econômica já demonstrou inúmeras vezes sua relevância como fator decisivo nos ganhos de produtividade de um país. Para um futuro trabalho mais aprofundado em Econometria, ficamos com a possibilidade bastante interessante de aprendizado utilizando extensões da nossa base de dados, para séries temporais (de fato nossa preocupação nos fez criar uma base já com dados de 10 anos para futuros trabalhos), e extensões na teoria econométrica, o que sabemos, poderá ser bastante proveitoso.

23

DEMONSTRAÇÃO DA CAPACIDADE DE ESTIMAÇÃO DO MODELO Segue uma breve demonstração da capacidade de predição do modelo linear estimado por MQG: País Albania Algeria Angola Argentina Armenia Bangladesh Belarus Bolivia Botswana Brazil Bulgaria Cabo Verde Cambodia Cameroon Colombia Cote d'Ivoire D. Republic Ecuador Egypt El Salvador Georgia Ghana Guatemala Honduras India Indonesia Iran Jamaica Kazakhstan Kenya Kyrgyz Rep. Liberia Madagascar Malaysia Mexico Moldova Morocco

PIB Estimado Y-Ῠ 4081.53 4110.98 -29.45 4764.58 4170.62 593.97 4304.18 2945.66 1358.51 11205.08 10912.51 292.57 3308.33 3288.03 20.30 815.10 677.26 137.85 6034.09 7223.98 -1189.88 2286.77 3228.72 -941.96 6384.13 10963.23 -4579.10 10015.90 11628.04 -1612.15 6855.17 7067.11 -211.94 115.91 118.18 -2.26 601.87 543.91 57.96 740.48 861.99 -121.51 6314.40 6516.64 -202.24 1291.91 1752.38 -460.47 5525.16 2467.92 3057.24 5073.68 4980.53 93.15 2712.47 2796.48 -84.01 3712.07 3872.83 -160.77 3314.82 3107.85 206.97 1381.25 2472.70 -1091.45 3115.66 2764.95 350.71 2157.89 3441.57 -1283.68 1305.87 1232.70 73.17 2935.36 2214.73 720.62 5943.61 4532.76 1410.85 4999.05 5820.40 -821.34 10199.01 7151.84 3047.17 1098.24 1999.74 -901.50 1014.13 1544.27 -530.14 354.26 296.72 57.54 430.91 375.43 55.48 9300.19 9632.67 -332.48 9439.73 9456.11 -16.39 1720.41 3386.83 -1666.42 2928.24 3912.82 -984.58

Mozambique Nepal Nicaragua Pakistan Peru Philippines Romania Russia Senegal Serbia Sierra Leone South Africa Sri Lanka Tajikistan Tanzania Thailand Togo Turkey Uganda Ukraine Vanuatu Vietnam Yemen, Rep. Zambia

515.99 586.88 1664.12 1161.93 5235.51 2289.21 8678.01 11776.84 1011.74 5711.72 571.11 6625.85 2790.50 816.91 735.88 5070.51 537.73 9911.07 590.16 3101.75 2854.33 1502.58 1233.73 1469.02

688.74 586.88 2513.39 994.00 3984.44 1837.42 7613.03 10331.36 1932.46 7280.69 675.33 7819.01 1720.00 1043.90 837.35 4521.60 479.59 6638.72 612.92 4441.88 3535.22 1746.51 1302.30 1020.23

-172.74 0.00 -849.27 167.93 1251.07 451.79 1064.97 1445.48 -920.72 -1568.96 -104.23 -1193.16 1070.49 -226.99 -101.46 548.91 58.14 3272.35 -22.75 -1340.12 -680.89 -243.92 -68.57 448.79

24

FILTRAGENS DE DADOS Ao longo do trabalho, foram citadas as quatro filtragens de dados realizadas. São elas:

PRIMEIRA FILTRAGEM DE DADOS Até então, contávamos com observações diversas para todas as variáveis inicialmente citadas, PIB e PNB, população, dummy para OECD, grupo de renda ao qual o país pertence, gastos do governo, gastos em educação, crédito doméstico, investimentos em telecomunicações, energia, transporte, água e saneamento e usuários de internet por 100 pessoas. Tudo isto em uma matriz com dados para 203 economias. Verificamos, logo no começo, a dificuldade de trabalhar com algumas delas, dado a falta de dados, problema corriqueiro quando se trata de dados com observações de nível mundial. Decidimos por retirar, então, nesta primeira filtragem, as variáveis PNB e água e saneamento, pela dificuldade que seria converter os valores todos para % do PNB, e pela quantidade de NA’s na amostra, respectivamente.

significância estatística, e permaneceram fora dos dados finais.

QUARTA FILTRAGEM DE DADOS Neste processo, foi criada a tabela final, que deu origem ao arquivo data4.csv, carregado pelo R para ser utilizado nos principais modelos de regressão mais robustos. Basicamente, nenhuma outra alteração importante foi feita.

QUINTA FILTRAGEM DE DADOS Procedimento inteiramente realizado dentro do R, onde nos preocupamos em criar uma amostra de dados sem outliers. Removemos, neste processo, observações provenientes de 5 países, sendo eles Butão, Chile, Lao, Lituânia e Uruguai.

SEGUNDA FILTRAGEM DE DADOS Este processo foi, na verdade primeiro a remoção de outras variáveis que não se encaixaram no modelo após os testes com os primeiros modelos lineares criados. Nesta filtragem, removemos OECD e usuários de internet, pela baixa significância estatística e pouco poder teórico.

TERCEIRA FILTRAGEM DE DADOS Neste processo, convertemos todos os dados até então usados em dados per capita, e remodelamos todas as regressões feitas. Aquelas que haviam sido removidas continuaram sem

25

BIBLIOGRAFIA World Bank, 2016. World Development Indicators 2016. DC. © World Bank. Disponível em: https://issuu.com/world.bank.publications/docs/9 781464806834?e=0/35179276 Acessado em: 01 de julho de 2016.

World Bank. 2016. The Little Data Book 2016. Washington, DC. © World Bank. Disponível em: https://openknowledge.worldbank.org/handle/10 986/23968 License: CC BY 3.0 IGO. Acessado em: 03 de julho de 2016.

GUJARATI, Damodar N. Econometria Básica. Tradução de Maria José Cyhlar Monteiro. – Rio de Janeiro: Elsevier, 2006 – 5a tiragem.

CRÉPON, Bruno. Econometrie Lineaire. ISBN: 9782804153236, 2005.

Diagnóstico de Homocedasticidade. Portal Action. Disponível em: http://www.portalaction.com.br/analise-deregressao/32-diagnostico-dehomoscedasticidade Acessado em: 05 de agosto de 2016.

Multicolinearidade. Portal Action. Disponível em: http://www.portalaction.com.br/analise-deregressao/362-multicolinearidade Acessado em: 06 de agosto de 2016.

26

Lihat lebih banyak...

Comentários

Copyright © 2017 DADOSPDF Inc.