O OUTLIER QUE PERTURBA O SEU SONO: COMO IDENTIFICAR CASOS EXTREMOS?

May 31, 2017 | Autor: Dalson Figueiredo | Categoria: Outliers in statistical data, Outlier detection, Outliers, Outlier detection, Clustering

Share Embed

Denunciar este link

Descrição do Produto

ÁREA TEMÁTICA Ensino e Pesquisa em Ciência Política e Relações Internacionais

O OUTLIER QUE PERTUBA O SEU SONO: COMO IDENTIFICAR CASOS EXTREMOS?

DALSON BRITTO FIGUEIREDO FILHO

LUCAS EMANUEL DE OLIVEIRA SILVA

Universidade Federal de Pernambuco (UFPE)

Universidade Federal de Pernambuco (UFPE)

[email protected]

[email protected]

Resumo A presença de outliers é um dos problemas mais antigos da Estatística e afeta todos os ramos do conhecimento científico que utilizam testes de hipóteses como mecanismo de tomada de decisão. O principal problema dos casos extremos é que eles afetam a consistência das estimativas. Essas inconsistências podem se manifestar de várias formas: dificuldade de visualização gráfica, problemas na magnitude das estimativas, inversão de sinal dos coeficientes, erros do tipo 1 e 2, violação de pressupostos, etc. Este artigo apresenta uma introdução intuitiva sobre como identificar outliers. O foco repousa sobre cinco diferentes técnicas: (1) escores padronizados; (2) diferença interquartílica; (3) resíduos padronizados; (4) distância de Mahalanobis e (5) distância de Cook. O desenho de pesquisa utiliza simulação básica e replica dados secundários para ilustrar o passo a passo de cada procedimento. Defendemos que importante progresso pode ocorrer na Ciência Política brasileira se os pesquisadores checarem seus dados em busca de observações desviantes utilizando os procedimentos apresentados neste artigo. Palavras-chave: outliers; casos extremos;

“Outliers: They will eat your results for lunch. Take them out before they do”. Desconhecido



Nosso resumo foi inspirado no artigo “Understanding Interaction Models: Improving Empirical Analyses” de Brambor, Clark e Golder (2005), publicado na Political Analysis. 2

INTRODUÇÃO Em 1778, Daniel Bernoulli se posicionou criticamente sobre a tendência de alguns astrônomos em descartar observações destoantes e analisar os casos remanescentes como se eles constituíssem a amostra original (HAWKINS, 1980). Nesse sentido, a presença de outliers é um dos problemas mais antigos da Estatística e afeta todos os ramos do conhecimento científico que utilizam testes de hipóteses como mecanismo de tomada de decisão (GRUBBS, 1969; BARNET e LEWIS, 1994; HODGE, 2004). O principal problema dos outliers é que eles afetam a qualidade das estimativas. As inconsistências podem se manifestar de várias formas: dificuldade de visualização gráfica (ATKINSON e MULIRA, 1993), violação de pressupostos (ATKINSON, 1994), problemas na magnitude e na variabilidade das estimativas (SEO, 2002), inversão de sinal dos coeficientes (FOX, 1991; VERARDI e CROUX, 2009), entre outros. Por essa razão, é essencial que os pesquisadores saibam identificar e lidar com casos atípicos (DAVIES e GATHER, 1993; OSBORNE e OVERBAY, 2004). Apesar dos esforços da comunidade estatística, os métodos de detecção e tratamento de casos extremos raramente são utilizados por outras disciplinas (IGLEWICZ e BANERJEE, 2001; WEBER, 2010). É o caso da Ciência Política brasileira. Com o objetivo de preencher essa lacuna, este artigo apresenta um guia prático sobre como identificar e tratar outliers. O foco repousa sobre a compreensão intuitiva de cinco diferentes técnicas: (1) escores padronizados; (2) diferença interquartílica; (3) resíduos padronizados; (4) distância de Mahalanobis e (5) distância de Cook. Metodologicamente, utilizamos simulação e replicamos diferentes dados secundários para ilustrar o passo a passo de cada procedimento. O restante do artigo está organizado da seguinte forma. A próxima seção apresenta uma discussão conceitual sobre outliers. Depois disso, apresentamos as cinco técnicas para detectar casos extremos. A quarta seção discute diferentes estratégias sobre como lidar com observações atípicas. A última seção sumariza as conclusões. OUTLIERS: conceito, origem e efeitos Neste artigo, adotamos a concepção de Hawkins (1980) que define outlier como uma observação que se distancia tanto das demais ao ponto de gerar desconfiança se ela foi gerada por um mecanismo diferente. O Quadro 1 sumariza diferentes definições encontradas na literatura. Quadro 1 – Diferentes definições de outliers AUTOR (ANO)

DEFINIÇÃO

3

Grubbs (1969)

Hawkins (1980) Fox (1991) Johnson (1992) Mendenhall et al (1993) Ross (1996) Pyle (1999) Moore e McCabe (1999)

An outlying observation, or outlier, is one that appears to deviate markedly from other members of the sample in which occurs An observation that deviates so much from other observations as to arouse suspicion that it was generated by a different mechanism An outlier is an observation whose dependent variable value is unusual given the value of the independent variable An observation in a data set which appears to be inconsistent with the remainder of that set of data Observations whose values lies very far from the middle of the distribution in either direction Outlier are data points that do not appear to follow the pattern of the other cases An outlier is a single, or very low frequency, occurrence of the value of a variable that is far away from the bulk of the values of the variable An outlier is an observation that lies outside the overall pattern of a distribution

An outlier in a set of data is an observation or a point that is considerably dissimilar or inconsistent with the remainder of Shim (2000) the data An “outlier” is an extremely high or an extremely low data value Bluman (2000) when compared with the rest of the data values Fonte: elaborado pelos autores (2016).

Ramasmawy, Rastogi e

A Figura 1 ilustra intuitivamente o conceito de outlier a partir da interpretação de um bloxplot1. Figura 1 – Namorado outlier

Fonte: XKCD. Disponível em: . Acessado em: dez. 2015.

Nesse exemplo, o boxplot é utilizado para demonstrar que o caso de interesse é significativamente diferente do demais. Mas o que isso quer dizer? O primeiro passo para entender como esse gráfico pode ser utilizado para identificar observações extremas é saber como interpretá-lo. Ele representa a distribuição dos dados a partir de quatro quartis, ou seja, de quatro grupos, cada um com 25% dos casos. A linha no interior da caixa representa a mediana, ou seja, o parâmetro que divide a distribuição ao meio. 75% das observações estão abaixo do quartil superior e 25% dos casos estão abaixo do quartil inferior. As hastes nos

1

Esse gráfico foi desenvolvido por Tukey (1977) e a sua utilização para identificar casos extremos é denominada pela literatura como outlier labeling rule (HOUGLIN, IGLEWICZ e TUKEY, 1986). 4

extremos indicam os valores mínimo e máximo e valores localizados fora desses limites são considerados potenciais casos extremos. Quanto maior a distância entre o caso e as hastes, mais atípica é a observação em relação ao restante da amostra. A literatura diferencia outliers univariados e multivariados (FOX, 1991; BARNETT e LEWIS, 1994). Os univariados são casos destoantes em uma única variável enquanto os multivariados representam combinações incomuns em um conjunto de variáveis. Por exemplo, para Walfish (2006), o caso extremo univariado é aquela observação muito destoante da média da distribuição e dos demais casos da amostra. Por outro lado, o outlier em uma regressão é aquele que tem um valor muito atípico em Y, condicionado ao seu valor em X. Tecnicamente, um caso extremo tem uma probabilidade muito pequena de ter sido produzido pela mesma distribuição estatística responsável pela geração das demais observações (HAWKINS, 1980; WALFISH, 2006). Portanto, é importante compreender a origem de casos atípicos. Chandola, Banerjee e Kumar (2007) identificam quatro principais hipóteses para explicar o surgimento de observações destoantes: (1) atividade maliciosa; (2) erro de instrumento; (3) mudança abrupta no meio ambiente e (4) erro humano. A atividade maliciosa diz respeito às ações ilegais que produzem padrões diferentes do esperado. O exemplo típico de atividade maliciosa é quando a operadora de crédito entra em contato com o titular do cartão para verificar a veracidade de uma determinada compra. Por exemplo, imagine que um dia você resolve comprar uma Mitsubishi Pajero Rally Dakar2. Ao chegar na concessionária o atendente indaga sobre a forma de pagamento e você responde: “débito”. É natural receber uma ligação do banco com o objetivo de verificar a legalidade da transação, já que o valor observado é bastante atípico em relação à média de gasto do cartão de crédito3. O erro de instrumento é mais comum nas Ciências Naturais, já que a mensuração dos fenômenos de interesse geralmente depende de dispositivos específicos. Por exemplo, um físico interessado em mensurar o nível de radiação pode utilizar o contador de Geiger-Muller4. Um químico interessado em mensurar a temperatura de evaporação da água pode utilizar um termômetro. Em qualquer caso, no entanto, se o instrumento não for adequado, corre-se o risco de produzir medidas não confiáveis e inválidas5 (BLALOCK, 1979; ZELLER e CARMINES, 1980; WALFISH, 2006). 2

Valor estimado em R$ 208.990,00. Ver: < http://mitsubishimotors.com.br/wps/portal/mit/areas/veiculos/familiapajero/pajerofull> 3 Agradecemos a Geovanes Neves pelo exemplo. 4 Ver e http://www.analyticsvidhya.com/blog/2016/01/guide-data-exploration/ 5 A validade diz respeito ao nível de correspondência entre o conceito de interesse e o que foi de fato mensurado. A confiabilidade refere-se à consistência da mensuração. Uma balança bem calibrada é um instrumento válido e confiável para mensurar a massa de um determinado objeto. No entanto, se toda vez que a mensuração for realizada o instrumento informar pesos diferentes, tem-se um instrumento não confiável. 5

A depender do problema, o instrumento pode produzir mensurações muito discrepantes do que seria observado na presença de um dispositivo bem calibrado. É por esse motivo, por exemplo, que você não deve comer uma feijoada antes de realizar um exame clínico para avaliar o nível de triglicerídeos. Nas Ciências Sociais, um exemplo de instrumento é o questionário. Se o questionário estiver mal formulado, as informações coletadas não serão válidas para mensurar o fenômeno de interesse. Os resultados serão inconsistentes e, em alguns casos, totalmente equivocados. Por exemplo, imagine um questionário que questiona o peso dos entrevistados utilizando o sistema de quilogramas para respondentes norteamericanos, acostumados com o peso em libras. As medidas reportadas apresentarão erros de mensuração, o que por sua vez compromete a validade e a confiabilidade dos resultados observados. O outlier gerado por mudança abrupta no meio ambiente é típico de desastres naturais. Uma chuva muito intensa e a cheia de um rio, por um lado, e a estiagem prolongada e a consequente falta de água, por outro, representam exemplos de variações biológicas que podem afetar a consistência das estimativas. Por exemplo, imagine um estudo sobre segurança pública que mensura a quantidade de homicídios por dia. O padrão esperado é que mais mortes ocorram durante os fins de semana. No entanto, a elevação abrupta do índice pluviométrico tende a reduzir o número de mortes. Ao fim, tais variações podem afetar a consistência das estimativas. A última causa para explicar a presença de casos extremos é o erro humano (BELSLEY, KUH e WELSCH, 1980). Esse problema é particularmente relevante para as Ciências Sociais, já que a maior parte dos pesquisadores ainda coleta e codifica dados manualmente (HOPKINS e KING, 2010). A coleta manual é mais lenta, onerosa e menos confiável do que os procedimentos automatizados de extração de informações. Para Stevens (1984: 335), “influential cases can occur because of recording errors (…) there are many possible sources of error from the initial data collection to the final keypunching”. Um simples problema de importação ou pontuação pode introduzir casos extremos na amostra, que, por sua vez, podem ter consequências catastróficas sobre as inferências. Um exemplo conhecido de como erros na manipulação de planilhas podem comprometer a consistência das inferências pode ser encontrado em Reinhart e Rogoff (2010)6. Depois de definir o conceito e indicar o seu processo de geração, o próximo passo é identificar quais são os problemas produzidos por casos extremos. Fox (1991) argumenta que outliers são problemáticos porque alteram os resultados observados e porque a sua presença pode ser um sinal de que o modelo está falhando em identificar características importantes da distribuição analisada. Osborne e Overbay (2004) argumentam que a presença de

6

Ver: . Acesso em março de 2016. 6

observações atípicas aumenta a variância e reduz o poder dos testes estatísticos. Além disso, outliers podem violar a normalidade das distribuições, o que afeta a chance de cometer erros do tipo 1 e do tipo 2, além da possibilidade de inversão do sinal e alteração da magnitude dos coeficientes7. Para ilustrar o impacto de casos atípicos sobre a consistência das estimativas, a Tabela 1 sumariza a estatística descritiva do Índice de Desenvolvimento Humano (IDH) por unidade da federação em 2010. Tabela 1 – IDH por UF N

Média

Mediana 0,699

Desvio padrão 0,049

Com DF

27

0,704

Sem DF

26

0,699

CV 0,069

0,694

0,043

0,061

Fonte: elaboração dos autores (2016) com base nos dados do Atlas Brasil

Enquanto a média do IDH com o Distrito Federal (DF) é de 0,704, sem ele é de 02,699. Ao fim, a presença do DF garante que o Brasil se enquadre na categoria de Alto Desenvolvimento Humano (0,7-0,8) ao invés de Médio Desenvolvimento Humano (0,55-0,7). Ou seja, a presença de um único caso destoante muda a classificação do país no ranking. Similarmente, a presença de casos extremos pode gerar problemas no sinal e na magnitude das estimativas. Para ilustrar esse problema, a Figura 2 ilustra o efeito de observações atípicas em uma análise de correlação bivariada. Figura 2 – Comparação de correlações (com outlier)

(sem outlier)

r = 0,481 p-valor = 0,010 n = 28

r=0 p-valor = 1,000 n = 27

Fonte: elaboração dos autores (2016) com base nos dados do Atlas Brasil

7

O erro do tipo 1 é a rejeição incorreta da hipótese nula, ou seja, tem-se um resultado falso positivo. O erro do tipo 2 é incapacidade de rejeitar uma hipótese nula falsa, ou seja, tem-se um resultado falso negativo. Como os testes de significância são utilizados para julgar a plausibilidade da hipótese nula, as observações atípicas podem gerar um efeito de confusão e produzir inferências equivocadas. 7

As variáveis têm média zero e desvio padrão igual a 1 e foram simuladas de forma ortogonal (correlação = 0). Com a inclusão de um único caso destoante (5,-5), a correlação passa a ser moderada (r = 0,481) e significativa (p-valor

Lihat lebih banyak...

O OUTLIER QUE PERTURBA O SEU SONO: COMO IDENTIFICAR CASOS EXTREMOS?

Descrição do Produto

Comentários