Estatística para s Ciencias Sociais Vol 1
Descrição do Produto
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Capa
ESTATÍSTICA PARA AS CIÊNCIAS SOCIAIS
Vol 1
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS INDICE
Tema 1.1 – População e Amostra. Aquisição de Dados ……………………………………………………
1
Tema 1.2 – Elementos de Estatística Descritiva – Síntese de Definições ………………………….
5
Tema 1.3 – Elementos de Estatística Descritiva – Exercícios ………………………………………….. 15 Tema 1.4 – Elementos de Estatística Descritiva – Estudo de caso ………………………………….. 24 Tema 1.5 – Elementos de Estatística Descritiva – Estudo de caso em Gráficos ………………. 31 Tema 2.1 – Analise Representação e Redução de Dados ……………………………………………….. 36 Tema 3.1 – Características Amostrais. Medidas de Localização ……………………………………… 43 Tema 3.2 – Medidas de Localização – média …………………………………………………………………. 49 Tema 3.3 – Medidas de Localização – mediana, quartis e moda ……………………………………. 53 Tema 3.4– Medidas de Dispersão ou Variabilidade ……………………………………………………….. 59 Tema 3.5 – Estudos de caso – Medidas de localização e dispersão ………………………………… 66 Tema 4.1 – Dados Bivariados. Correlação e Regressão ………………………………………………….. 79 Tema 4.2 – Estudos de caso – Correlação e Regressão Linear ……………………………………….. 86 Tema 5.1 – Probabilidade ……………………………………………………………………………………………… 96 Tema 5.2 – Probabilidade – Noções ……………………………………………………………………………… 103 Tema 5.3 – Probabilidade – Experiencias aleatórias …………………………………………………….. 115
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 1.1 – População e Amostra. Aquisição de Dados INTRODUÇÃO Estatística como sendo um conjunto de técnicas para tratamento e análise de dados, como simultaneamente uma ciência e uma arte que permite obter conclusões sobre um conjunto de dados, e que a sua vertente mais abrangente realiza aquilo que se designa por Inferência Estatística.
POPULAÇÃO E AMOSTRA, OBTENÇÃO DE DADOS Amostra e população Os conceitos de amostra e de população aparecem em inúmeras situações onde se utilizam técnicas estatísticas envolvendo análises sobre conjuntos de indivíduos. População - é uma colecção de elementos individuais ou resultados experimentais que tenham uma ou mais características em comum e que se pretendam analisar. Exemplos:
Estudantes da Universidade Aberta
Pessoas com mais de 18 anos residentes em Portugal Continental
Conjunto de escaravelhos na região de Trás os Montes
Conjunto dos acidentes num determinado dia na auto-estrada A1
Conjunto de golfinhos presos diariamente em redes de pesca em todo o mundo
Poderemos analisar as mais variadas características, consoante a natureza das mesmas e o objectivo do estudo. Exemplos:
Idade (em cm) dos estudantes da Universidade Aberta
peso (em Kg) das pessoas residentes em Portugal continental com mais de 18 anos
numero de escaravelhos por hectare nos concelhos da Região de Trás os
número de acidentes provocados por excesso de álcool na A1
número de golfinhos presos em redes de pesca
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
Página
1
Montes
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 1.1 – População e Amostra. Aquisição de Dados Recenseamento e Sondagens Em situações onde é necessário estudar todos os elementos duma população procede-se habitualmente a um recenseamento ou censo. Num recenseamento é possível obter informação variada, respeitante a condições económicas e sociais dos habitantes, e pode contribuir para tomada de decisões importantes por parte do poder politico, podem ser analisados aspectos como, aspectos ligados à habitação, mas também pode envolver aspectos ligados ao funcionamento da agricultura e industria. Recenseamento, um processo em que para além da recolha de informação está também envolvida a análise de todos os elementos da população em estudo, tendo como objectivo não apenas a enumeração dos seus elementos mas também o estudo de características importantes. Sondagem, estudo baseado numa parte de uma população com intuito de inferir resultados para toda a população, têm como objectivo conhecer gostos ou preferências em relação a certos assuntos ou acontecimentos comuns a toda a população, podemos afirmar que este tipo de estudo começou a ter maior destaque a partir da segunda metade do seculo XX, período a partir do qual foi possível implementar um conjunto de métodos e técnicas estatísticas que lhe deram definitivamente um carácter científico. Amostragem aleatória simples A problemática envolvendo a recolha de amostras é sem dúvida bastante importante e merece destaque especial. Atendendo a factores vários, torna-se muitas vezes inviável a análise de todos os elementos de uma população, situações:
CASO 1 - A população é infinita ou pode ser considerada como tal. Ex: Temperaturas nos pontos da superfície da Terra, num dado instante.
CASO 2 - A recolha da informação obrigaria à destruição total dos elementos
CASO 3 - A recolha de toda a informação ser muito dispendiosa ou ser muito demorada. Ex: Consulta de opinião pública sobre um candidato presidencial.
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
Página
2
em estudo. Ex: Tempo de vida de determinado tipo de lâmpada.
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 1.1 – População e Amostra. Aquisição de Dados Nos casos referidos o método por excelência de todo aconselhável recorrer à selecção de uma amostra, referimo-nos a um processo que consiste em considerar um certo número de elementos - amostra – do conjunto de elementos a estudar população. Esse processo deve ter em atenção critérios adequados, de tal forma que nos conduzam a conclusões válidas para toda a população. Uma amostra que pelo contrário não seja representativa da população, diz-se enviesada. Podemos enumerar os critérios, que no essencial nos orientam para a realização de uma amostragem adequada:
Todos os indivíduos da população devem ter igual probabilidade de ser seleccionados
A População deve estar bem definida logo à partida, ou seja desde o início do estudo
Dimensão da amostragem deve ser adequada, ou seja nela devem figurar toda a variedade de subgrupos existentes na população.
Na amostra enviesada, podemos apontar como exemplos:
Utilização de uma amostra, constituída por opiniões de 10 membros da Liga Protectora dos Animais, sobre a abolição das touradas;
Utilização de uma amostra de pluviosidades diárias verificadas nos meses de Junho, Julho e Agosto para tirar conclusões sobre um ano inteiro.
A amostragem aleatória simples, consiste num processo onde se extrai de uma população um número de elementos previamente fixado:
ao acaso;
de forma a ter em conta a composição da população;
de forma que a escolha feita por um indivíduo não influencie a escolha de
Página
3
outro.
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 1.1 – População e Amostra. Aquisição de Dados Estatística descritiva e Estatística indutiva Numa análise estatística podem estar envolvidas fases distintas: uma análise descritiva dos dados, correspondente à obtenção, organização e tratamento dos dados de uma determinada amostra, e uma análise inferencial onde a partir do conhecimento descritivo dos dados se procura inferir conclusões para toda a população.
A estatística descritiva, ao estudo de uma amostra, onde o principal objectivo é a obtenção de algumas características amostrais e construção de tabelas e gráficos onde possa constar toda a informação na forma resumida. Exemplo onde numa turma se questionou cada um dos alunos acerca do número de irmãos que cada um tem. 0120024123211110001234221101010102112011
0 | *********** 1 | **************** 2 | ********* 3 | ** 4 | **
a situação que mais ocorre é ter um irmão, e que apenas uma pequena minoria tem três ou mais irmãos
A inferência estatística, dá-se quando num estudo estatístico, os objectivos vão habitualmente mais além duma descrição dos dados, quer seja em tabelas ou gráficos, muitas vezes queremos mesmo é estimar quantidades ou testar hipóteses utilizando técnicas estatísticas adequadas, que nos permitam tirar conclusões acerca
Página
4
de uma população.
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 1.2 – Elementos de Estatística Descritiva – Síntese de Definições DEFINIÇÕES
População – colecção de unidades individuais, que podem ser pessoas, animais, resultados experimentais, com uma ou mais características comuns que se pretendem analisar (objecto de estudo).
Parâmetro – é um número que descreve a população, embora seja fixo, normalmente é desconhecido.
Amostra – subconjunto da população, que se observa com o objectivo de tirar conclusões para a população de onde foi recolhida.
Estatística – é um número que descreve a amostra. Calcula-se o valor de uma estatística a partir dos valores observados na amostra, variando o valor da estatística de amostra para amostra. Usa-se a estatística para estimar um parâmetro desconhecido.
Variáveis em estatística:
Quantitativas - são aquelas que são numericamente mensuráveis, por exemplo, a idade, a altura, o peso, subdividem-se em: - VARIÁVEL QUANTITATIVA CONTINUA: são aquelas que assumem valores dentro de um conjunto contínuo, tipicamente os números reais (PESO OU ALTURA DE UMA PESSOA).
- VARIÁVEL QUANTITATIVA DISCRETA: são aquelas que assumem valores dentro de um tempo finito ou enumerável, tipicamente números inteiros (NÚMERO DE FILHOS DE UMA PESSOA). - VARIÁVEL QUANTITATIVA DICOTÓMICA: são aquelas que apenas admitem
Página
5
duas opções (SIM/NÃO; VERDADEIRO/FALSO; MASCULINO/FEMININO, etc.)
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 1.2 – Elementos de Estatística Descritiva – Síntese de Definições
Qualitativas - são aquelas que se baseiam em qualidades e não podem ser mensuradas numericamente. Estas ainda se subdividem em: - VARIÁVEL QUALITATIVA ORDINAL: são aquelas que podem ser colocadas em ordem (a variável classe social: A;B;C;D; ou E, e a variável "Peso" medida em 3 níveis: pouco pesados; pesados; muito pesados). - VARIÁVEL QUALITATIVA NOMINAL: são aquelas que não podem ser hierarquizadas ou ordenadas (cor dos olhos; local de nascimento).
Enquadramento de variáveis: CASO - Foi elaborado um questionário a 1000 pessoas escolhidas aleatoriamente na zona de Braga, no qual eram formuladas várias questões; antes de se proceder à análise dos resultados é necessário classificar as variáveis. Pretende-se que classifique as seguintes variáveis: possui computador, possui cartão de crédito, plafond do cartão de crédito, quantos empregos teve até à data, sexo, idade, salário actual, categoria profissional, habilitações literárias, caso tenha sido avaliado no ano transacto qual a avaliação obtida. RESOLUÇÃO - Dados Qualitativos: possui computador, possui cartão de crédito, sexo, categoria profissional e as habilitações literárias. Dados Quantitativos: plafond do cartão de crédito, quantos empregos teve até à data, idade, salário actual, caso tenha sido avaliado no ano transacto qual a avaliação obtida. CASO - Número de e-mails enviados diariamente por uma empresa, considere-se como amostra o último mês de laboração. RESOLUÇÃO: Quantitativa Discreta – o número de e-mails enviados por uma empresa no último mês representa um conjunto de dados quantitativos, cada dia tem uma intensidade diferente, é uma característica susceptível de ser medida. A variável é discreta pois
Página
6
apresenta sempre um número finito (ou infinito numerável).
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 1.2 – Elementos de Estatística Descritiva – Síntese de Definições CASO - Valor mensal do custo da Electricidade numa determinada habitação na cidade de Aveiro. RESOLUÇÃO: Quantitativa Contínua - Valor mensal do custo da electricidade é um conjunto de dados quantitativos, é susceptível de ser medido, apresentando diferentes intensidades. É uma variável contínua pois pode assumir todos os valores numéricos compreendidos no seu intervalo de variação.
CASO - Resposta a um questionário: “Concorda com o número de livros existentes na biblioteca?”, o qual possui as seguintes opções: concorda plenamente, concorda, discorda, discorda totalmente. RESOLUÇÃO: Qualitativa - A resposta ao questionário tem um conjunto de alternativas, ou seja, a informação identifica uma qualidade não susceptível de medida, mas sim de classificação logo uma variável qualitativa.
Recenseamento – estudo científico de um universo de pessoas, instituições ou objectos físicos com o propósito de adquirir conhecimentos, observando todos os seus elementos, e fazer juízos quantitativos acerca de características importantes desse universo.
Sondagem – estudo científico de uma parte de uma população com o objectivo de estudar atitudes, hábitos e preferências da população relativamente a acontecimentos, circunstancias e assuntos de interesse comum.
Amostra aleatória simples – dada uma população, esta amostra de dimensão n é um
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
Página
teria igual probabilidade de ser seleccionado.
7
conjunto de n unidades da população, tal que qualquer outro conjunto n unidades
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 1.2 – Elementos de Estatística Descritiva – Síntese de Definições Amostra enviesada - uma amostra que pelo contrário não seja representativa da população (utilização de uma amostra, constituída por opiniões de 10 membros da Liga Protectora dos Animais, sobre a abolição das touradas).
Precisão – ao utilizar o valor de uma estatística para estimular um parâmetro, vimos que cada amostra fornece um valor para a estatística que se utiliza como estimativa desse parâmetro. Estas estimativas não são iguais devido à variabilidade presente na amostra. Se os diferentes valores obtidos para a estatística forem próximos, podemos ter confiança de que o valor calculado a partir da amostra recolhida (na prática recolhe-se uma única amostra) está próximo do parâmetro (desconhecido).
CASO – Atirador que aponta várias setas a um alvo, tendo por objectivo atingir o
Página
8
centro do alvo:
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 1.2 – Elementos de Estatística Descritiva – Síntese de Definições Etapas normalmente seguidas num procedimento estatístico:
CASO - Numa determinada fábrica procedeu-se ao registo do tempo de duração da deslocação casa -> fábrica no período da manhã, isto foi feito para todos os trabalhadores. O objectivo é escolher um novo horário de início de laboração para os funcionários. RESOLUÇÃO: População constituída por todos os funcionários da fábrica; Amostra constituída por todos os funcionários da fábrica; Variável, tempo de percurso entre a casa e a fábrica, variável quantitativa contínua. CASO - Havendo a suspeita que muitos dos alunos do diurno de determinada Universidade têm um emprego (mesmo que em part-time) foi realizado um inquérito a 2500 alunos dos 7000 inscritos no horário laboral. RESOLUÇÃO: População constituída por todos os Estudantes da Universidade, 7000;
Variável, qualitativa, dicotómica (porque só assume dois valores possíveis). Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
Página
Universidade;
9
Amostra de dimensão 2500, constituída por alguns dos estudantes do diurno da
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 1.2 – Elementos de Estatística Descritiva – Síntese de Definições CASO - Pretende-se efectuar um estudo sobre o número de pessoas dos agregados familiares de determinada cidade. Para tal efectuou-se um inquérito ao qual responderam 20 agregados familiares. RESOLUÇÃO: População constituída por todos os agregados familiares da cidade em estudo; Amostra de dimensão 20, constituída por alguns (20) dos agregados familiares da referida cidade; Variável, número de pessoas que constituem cada agregado familiar, quantitativa discreta.
CASO - Pretende-se efectuar um estudo sobre a escolaridade da população residente em Braga. Para tal foi efectuado um inquérito, cabendo a cada Junta de Freguesia garantir a recepção das respostas. Analisam-se todos os inquéritos recebidos. RESOLUÇÃO: População – Toda a população residente em Braga com mais de 18 anos. Amostra – Toda a população residente em Braga com mais de 18 anos. Variável – Escolaridade de cada habitante em Braga, variável qualitativa.
Aplicações da estatística: Estudos de mercado
Medicina
Controlo de qualidade
Política de ensino
Pedagogia
Página
10
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 1.2 – Elementos de Estatística Descritiva – Síntese de Definições Dados qualitativos – representam a informação que identifica alguma qualidade, categoria ou características, não susceptível de medida, mas de classificação, assumindo várias modalidades. Estado Civil: 1-Solteiro; 2-Casado; 3-Divorciado; 4Viuvo.
Diagrama circular – é uma representação gráfica que tem por base o circulo, que se divide em vários sectores circulares, tantos quantas as classes consideradas para a variável de estudo. Os ângulos dos sectores são proporcionais às frequências das classes.
Diagrama de barras – é uma representação gráfica, que consiste em marcar num sistema de eixos coordenados, no eixo dos x, pontos que representem as classes e nesses pontos barras verticais de altura igual ou proporcional à frequência absoluta
Página
11
ou relativa
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 1.2 – Elementos de Estatística Descritiva – Síntese de Definições Dados quantitativos – representam a informação resultante de características susceptíveis de serem medidas, apresentando-se com diferentes intensidades, que podem ser de natureza discreta (dados discretos), ou contínua (dados contínuos).
Página
12
Dados discretos:
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 1.2 – Elementos de Estatística Descritiva – Síntese de Definições
Página
13
Dados contínuos:
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 1.2 – Elementos de Estatística Descritiva – Síntese de Definições Histograma – para a representação de dados contínuos, usa-se um diagrama de áreas ou histograma, formado por uma sucessão de rectângulos adjacentes, tendo
Página
14
cada um por base o intervalo de classe e por área a frequência relativa (ou absoluta)
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS
Página
15
Tema 1.3 – Elementos de Estatística Descritiva – Exercícios
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS
Página
16
Tema 1.3 – Elementos de Estatística Descritiva – Exercícios
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS
Página
17
Tema 1.3 – Elementos de Estatística Descritiva – Exercícios
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS
Página
18
Tema 1.3 – Elementos de Estatística Descritiva – Exercícios
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS
Página
19
Tema 1.3 – Elementos de Estatística Descritiva – Exercícios
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS
Página
20
Tema 1.3 – Elementos de Estatística Descritiva – Exercícios
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS
Página
21
Tema 1.3 – Elementos de Estatística Descritiva – Exercícios
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS
Página
22
Tema 1.3 – Elementos de Estatística Descritiva – Exercícios
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS
Página
23
Tema 1.3 – Elementos de Estatística Descritiva – Exercícios
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 1.4 – Elementos de Estatística Descritiva – Estudo de caso Inquérito a 50 pessoas recolhendo informações sobre a satisfação sobre um determinado produto:
Identificação (contador de controle do inquirido, varia de 1 a 50)
Sexo (M/F)
Idade
Fumador (S/N)
Naturalidade
Nº de Filhos
Altura
Peso
Satisfação com Produto
Página
24
Primeiro passo será a caracterização das variáveis:
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 1.4 – Elementos de Estatística Descritiva – Estudo de caso As variáveis Qualitativas podem ser:
Nominais – variáveis não ordenáveis sob o ponto de vista lógico, i é, não são logicamente ordenáveis e temos: Sexo; Fumador; Naturalidade.
Ordinais – variáveis ordenáveis logicamente, caso da Satisfação com Produto que podem ser gradativamente ordenadas de Excelente (índice mais elevado) a Péssima (índice mais baixo), ficando: Excelente; Boa; Média; Má; Péssima
Dicotómicas – variáveis que assumem apenas dois valores (SIM/NÃO)
Frequência Absoluta – número de incidências de cada caso da variável (SIM/NÃO). Frequência Relativa – obtém-se dividindo os valores de cada frequência absoluta, incidências de cada caso (SIM/NÃO), pelo total (somatório das incidências de cada frequência absoluta) Caso apresentado da variável Fumadores:
Frequência absoluta acumulada – representa o número de incidências até ao valor total do somatório da frequência absoluta simples (50) Frequência relativa acumulada – representa o acumulado dos valores da frequência
Página
25
relativa simples até ao total de 100%
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 1.4 – Elementos de Estatística Descritiva – Estudo de caso As variáveis Quantitativas, podem ser:
Discretas – são aquelas que assumem valores fixos dentro de determinado intervalo (valores inteiros, p. ex. Nº de Filhos; Idade).
Contínuas – são aquelas que podem assumir todos os valores dentro do intervalo (valores medidos e logo fraccionados, p. ex. Altura; Peso). Para estas variáveis que no caso da altura implicará enumerar por exemplo desde 1,54m a 1,96m com intervalos de 1 décima (1,55; 1,56; […]; 1,97; 1,98). Neste caso utiliza-se o método de divisão por classes com intervalos fixos definidos ([1.55,1,60[; [1.60,1.65[ … [1.80,1.85[; [1.85,1.90[).
Determinação de classes:
Determinação do número de classes segundo isto é
segundo o nosso caso
arredondado 7
Determinar a amplitude (âm) da classe, isso é o intervalo entre o valor menor e o maior de cada classe,
isto é
Página
ou seja, 5
26
o valor obtido deverá ser arredondado para o inteiro superior,
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 1.4 – Elementos de Estatística Descritiva – Estudo de caso
Tendo o valor para o intervalo entre os elementos da classe, parte-se do valor inferior, adicionando 5 até obter o intervalo onde cabe o valor mais alto recolhido (valor inferior = 1,55; valor superior = 1,85), considerando o limite superior um intervalo aberto [, o valor como até, isto é 1,60 já não é considerado, pois é o primeiro elemento da classe que se lhe segue, assim: [1.55,1,60[ [1.60,1,65[ [1.65,1,70[ [1.70,1,75[ [1.75,1,80[ [1.80,1,85[ [1.85,1,90[
Tabelas e contingência - são usadas em estatística para registar e analisar o relacionamento entre duas ou mais variáveis, normalmente de escala nominal.
Suponhamos que temos duas variáveis, sexo (masculino ou feminino) e fumadores (fumador ou não fumador). Observamos os valores de ambas as variáveis de uma amostra casual de 50 pessoas. Uma tabela de contingência pode ser usada para
Página
27
expressar o relacionamento entre estas duas variáveis, como se segue:
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 1.4 – Elementos de Estatística Descritiva – Estudo de caso O mesmo tipo de tabelas também se pode aplicar para intervalos de classe (altura) e sexo (masculino ou feminino). Observemos as mesmas 50 pessoas em termos
Página
28
distribuição de altura relacionadas com o respectivo sexo:
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 1.4 – Elementos de Estatística Descritiva – Estudo de caso
Sexo M F F M M M M M F F F F F F M M M M M M M M M M F F F F F F F F F F F F F F F F F F M M M M M M M M
Idade Fumador Naturalidade Nº filhos Altura Peso 25 N Lisboa 1 1,76 93 25 S Porto 0 1,77 64 26 S Lisboa 3 1,55 53 27 S Setúbal 7 1,72 83 28 N Lisboa 0 1,68 65 28 S Lisboa 1 1,78 70 28 S Évora 2 1,70 84 28 S Beja 3 1,71 94 28 N Coimbra 0 1,60 59 28 S Braga 1 1,65 71 29 N Lisboa 0 1,61 65 29 N Lisboa 1 1,72 59 30 N Lisboa 1 1,67 73 32 N Porto 1 1,58 50 32 N Lisboa 0 1,73 78 33 S Faro 2 1,85 106 34 S Coimbra 1 1,75 67 35 N Beja 0 1,69 89 35 S Portalegre 1 1,73 72 35 N Lisboa 2 1,72 80 35 S Porto 1 1,78 73 36 N Porto 0 1,82 89 37 S Lisboa 0 1,71 64 38 S Lisboa 0 1,70 66 38 S Santarém 0 1,73 78 38 S Braga 1 1,64 78 38 N Lisboa 0 1,63 72 39 N Porto 1 1,65 76 39 N Coimbra 0 1,66 58 39 N Porto 1 1,64 75 40 N Portalegre 4 1,68 76 40 S Castelo Branco 3 1,62 63 41 N Lisboa 2 1,65 52 41 N Lisboa 0 1,76 63 41 S Porto 1 1,59 71 41 N Lisboa 3 1,61 65 42 N Lisboa 0 1,67 61 42 N Coimbra 1 1,67 67 42 S Braga 0 1,65 52 42 N Bragança 0 1,58 47 43 N Lisboa 2 1,82 64 43 S Viseu 1 1,63 74 44 N Porto 0 1,73 75 45 N Santarém 0 1,75 89 45 S Coimbra 1 1,76 74 21 N Porto 0 1,77 78 32 S Porto 1 1,77 88 42 N Lisboa 0 1,75 98 33 S Leiria 0 1,71 64 33 N Braga 1 1,72 71
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
Satisfação Produto Boa Excelente Média Má Boa Boa Média Excelente Boa Boa Média Boa Péssima Boa Boa Média Má Boa Boa Boa Má Boa Boa Média Excelente Boa Média Média Boa Má Média Boa Boa Excelente Média Boa Boa Média Média Boa Média Boa Média Boa Má Excelente Boa Boa Média Boa
Página
Identificação 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50
29
Dados de base para os cálculos:
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 1.4 – Elementos de Estatística Descritiva – Estudo de caso
Página
30
Função estatística em Excel:
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 1.5 – Elementos de Estatística Descritiva – Estudo de caso em Gráficos Inquérito a 50 pessoas recolhendo informações sobre a satisfação sobre um determinado produto: Identificação (contador de controle do inquirido, varia de 1 a 50); Sexo (M/F); Idade; Fumador (S/N); Naturalidade; Nº de Filhos; Altura; Peso; Satisfação com Produto
Página
31
Distribuição dos inquiridos por sexo:
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 1.5 – Elementos de Estatística Descritiva – Estudo de caso em Gráficos
Página
32
Fumadores e não fumadores por sexo:
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 1.5 – Elementos de Estatística Descritiva – Estudo de caso em Gráficos
Página
33
Gráfico de intervalo de classes (altura) entre Masculino/Feminino:
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 1.5 – Elementos de Estatística Descritiva – Estudo de caso em Gráficos
Sexo M F F M M M M M F F F F F F M M M M M M M M M M F F F F F F F F F F F F F F F F F F M M M M M M M M
Idade Fumador Naturalidade Nº filhos Altura Peso 25 N Lisboa 1 1,76 93 25 S Porto 0 1,77 64 26 S Lisboa 3 1,55 53 27 S Setúbal 7 1,72 83 28 N Lisboa 0 1,68 65 28 S Lisboa 1 1,78 70 28 S Évora 2 1,70 84 28 S Beja 3 1,71 94 28 N Coimbra 0 1,60 59 28 S Braga 1 1,65 71 29 N Lisboa 0 1,61 65 29 N Lisboa 1 1,72 59 30 N Lisboa 1 1,67 73 32 N Porto 1 1,58 50 32 N Lisboa 0 1,73 78 33 S Faro 2 1,85 106 34 S Coimbra 1 1,75 67 35 N Beja 0 1,69 89 35 S Portalegre 1 1,73 72 35 N Lisboa 2 1,72 80 35 S Porto 1 1,78 73 36 N Porto 0 1,82 89 37 S Lisboa 0 1,71 64 38 S Lisboa 0 1,70 66 38 S Santarém 0 1,73 78 38 S Braga 1 1,64 78 38 N Lisboa 0 1,63 72 39 N Porto 1 1,65 76 39 N Coimbra 0 1,66 58 39 N Porto 1 1,64 75 40 N Portalegre 4 1,68 76 40 S Castelo Branco 3 1,62 63 41 N Lisboa 2 1,65 52 41 N Lisboa 0 1,76 63 41 S Porto 1 1,59 71 41 N Lisboa 3 1,61 65 42 N Lisboa 0 1,67 61 42 N Coimbra 1 1,67 67 42 S Braga 0 1,65 52 42 N Bragança 0 1,58 47 43 N Lisboa 2 1,82 64 43 S Viseu 1 1,63 74 44 N Porto 0 1,73 75 45 N Santarém 0 1,75 89 45 S Coimbra 1 1,76 74 21 N Porto 0 1,77 78 32 S Porto 1 1,77 88 42 N Lisboa 0 1,75 98 33 S Leiria 0 1,71 64 33 N Braga 1 1,72 71
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
Satisfação Produto Boa Excelente Média Má Boa Boa Média Excelente Boa Boa Média Boa Péssima Boa Boa Média Má Boa Boa Boa Má Boa Boa Média Excelente Boa Média Média Boa Má Média Boa Boa Excelente Média Boa Boa Média Média Boa Média Boa Média Boa Má Excelente Boa Boa Média Boa
Página
Identificação 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50
34
Dados de base para os cálculos:
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 1.5 – Elementos de Estatística Descritiva – Estudo de caso em Gráficos
Página
35
Função Gráficos em Excel e diferentes tipos:
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 2.1 – Analise Representação e Redução de Dados Variável estatística discreta e variável estatística contínua Uma variável estatística que apenas assume valores numéricos isolados, denominase de variável discreta. Exemplos:
Número de irmãos de um conjunto de alunos duma turma do 12o ano;
Número mensal de viagens de avião efectuadas por um executivo de uma empresa;
Número de golos marcados por uma equipa de futebol em cada jogo das 30 jornadas de um campeonato.
Quando uma varável toma qualquer valor num certo intervalo, designa-se por variável contínua. Exemplos:
Peso dos alunos de uma escola do ensino básico;
Temperatura diária registada numa estação meteorológica;
Pressão arterial medida num grupo de 100 hipertensos.
Tabelas de frequências Uma das formas comuns de organizar os dados que estejamos a tratar, é através das tabelas de frequências, onde habitualmente figuram entre outros valores, aqueles que dizem respeito:
Frequência absoluta simples - corresponde ao número de vezes que um determinado valor xi é observado na população ou amostra estudada, e designa-se por ni.
Frequência relativa simples - sendo ni a frequência absoluta do valor da variável xi e N a dimensão da população ou amostra estudada, designa-se por frequência relativa simples de xi o quociente, é comum a utilização das frequências relativas sob a forma de percentagem, que se obtêm calculando
𝒏𝒊 𝑵
Página
𝒇𝒊 =
36
fi x 100.
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 2.1 – Analise Representação e Redução de Dados
Frequência absoluta acumulada - de índice i a soma das frequências absolutas correspondentes aos valores da variável desde o primeiro valor até ao de ordem i, e representa-se por Ni. Para k observações tem-se
Frequência relativa acumulada - de índice i à soma das frequências relativas correspondentes aos valores da variável desde o primeiro valor até ao de ordem i, e representa-se por Fi.
Página
37
Em termos genéricos, uma tabela de frequências será constituída da seguinte forma:
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 2.1 – Analise Representação e Redução de Dados
Dados agrupados em classes (frequência absoluta e frequência relativa) numa distribuição com dados agrupados em classes, designa-se de frequência absoluta da classe (ni) ao número de casos que pertencem a essa classe e frequência relativa da classe (fi), ao quociente entre a frequência absoluta da classe e a dimensão da população (N). As FREQUÊNCIAS ABSOLUTAS ACUMULADAS (Ni) e as FREQUÊNCIAS RELATIVAS ACUMULADAS (Fi)
obtém-se fazendo a acumulação dos valores em cada classe
Centro de Classe - Em certos casos, torna-se necessário efectuar cálculos onde o valor central de cada classe deve ser conhecido. Esse valor central ou centro duma classe [li; li+1[ é calculado através de sendo li o extremo inferior da classe e li+1 o
Página
38
extremo superior da classe.
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 2.1 – Analise Representação e Redução de Dados Representações gráficas
Histogramas – representação gráfica dos dados agrupados em classes, podendo ser desenhados tanto para as referências absolutas como para as ordinárias: o histograma de frequências simples e o histograma de frequências acumuladas. Como impacto visual transmitem uma importante informação relativamente à forma, à tendência central e à dispersão dos dados. Para elaboração dos histogramas é conveniente a construção prévia de tabelas de frequências.
Diagrama circular - uma representação gráfica que tem por base um círculo, que é dividido em tantos sectores circulares, quantas as classes existentes para a variável em estudo e onde os ângulos dos sectores são proporcionais às frequências das classes, após a construção da tabela de frequências.
Página
39
Exemplo: cores dos olhos dos alunos de uma turma.
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 2.1 – Analise Representação e Redução de Dados
Diagrama de barras - representação gráfica, onde num sistema de eixos coordenados, associamos ao eixo das abcissas, marcas que representam as classes, e alinhadas com essas marcas colocamos barras verticais de altura igual ou proporcional à frequência da classe. Exemplo: para os dados anteriores aplicados ao diagrama de barras.
Diagrama de caule e folhas - este tipo de representação, pelo tipo de informação que contém, pode considerar-se como estando entre uma representação em tabela e um gráfico. Após um processo de contagem, organização e representação dos dados, obtém-se um diagrama com barras na horizontal. Em primeiro lugar deve-se traçar uma linha vertical, colocando à esquerda dessa linha o dígito (ou dígitos) da classe com maior grandeza, seguido dos restantes. Este tipo de representação é de fácil construção, sendo possível fazer a ordenação dos dados e muitas vezes também fazer a
Página
40
reconstituição da amostra.
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 2.1 – Analise Representação e Redução de Dados
Este tipo de representação de dados permite duma forma simples, destacar alguns aspectos particulares dos mesmos, como por exemplo, existência ou não de simetria, maior ou menor dispersão.
Diagrama de extremos e quartis - ou caixa de bigodes (box-plot) é um tipo de representação gráfica também de fácil construção e que realça muito bem a informação sobre os dados. Para sua construção é necessária a obtenção de cinco medidas, valor mínimo, 1º Quartil (Q1), 2º Quartil (Q2), 3º Quartil (Q3) e valor máximo. Verifica-se que Q1 < Q2 < Q3, onde Q2 representa a
Página
41
mediana.
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 2.1 – Analise Representação e Redução de Dados Vejamos agora um exemplo do caso da representação dos dados do exemplo anterior em diagrama de extremos e quartis:
Cálculo: Determinar intervalo de quartil (Qint)
Determinar
=
Determinar
=
Determinar
=
=
Página
42
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.1 – Características Amostrais. Medidas de Localização Estatísticas – medidas calculadas a partir dos dados e que pretendem dar informação sobre os parâmetros da população, normalmente a partir da recolha de dados dessas populações (amostras) e as suas características numéricas (parâmetros).
As medidas estatísticas que caracterizam os dados são as medidas de localização e as medidas de dispersão, estas devem ser convenientemente escolhidas, de modo a representarem o melhor possível o conjunto de dados que pretendem sumariar, de uma forma geral nenhuma é melhor que a outra, a sua utilização depende do contexto e da situação de serem calculadas e posteriormente usadas.
As medidas de localização ou tendência central são muito importantes pois permitem caracterizar uma distribuição identificando um valor que a tipifica.
Média aritmética A média aritmética de uma amostra
é a medida de localização obtida através do
quociente entre a soma de todos os valores observados nessa amostra e o número total de observações.
Página
43
Se representarmos as n observações por x1; x2; . . . ; xn virá:
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.1 – Características Amostrais. Medidas de Localização Caso os dados estejam agrupados podem ocorrer duas situações distintas:
Para dados de carácter quantitativo, a média aritmética, é uma das medidas de localização ou tendência central mais importantes. A média aritmética tem no entanto a desvantagem de não poder ser usada para dados de carácter qualitativo.
Mediana A mediana , é outra medida de localização cuja característica se traduz pela posição
Página
44
do meio que ocupa quando todos os dados estão ordenados por ordem crescente:
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS
Página
45
Tema 3.1 – Características Amostrais. Medidas de Localização
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS
Página
46
Tema 3.1 – Características Amostrais. Medidas de Localização
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.1 – Características Amostrais. Medidas de Localização Moda A moda
, define-se como sendo o valor que ocorre com maior frequência num
conjunto de dados, ou seja, uma vez conhecidas as frequências absolutas, a moda será o valor xi ao qual corresponde o maior valor de ni. Nas situações onde numa distribuição ocorrem dois valores apresentando a mesma e mais elevada frequência absoluta, diz-se que a distribuição é bimodal. Se uma distribuição estatística possui três ou mais modas, diz-se que a distribuição é plurimodal ou multimodal.
A classe modal é a classe com maior frequência ordinária, quer absoluta quer relativa.
onde li é o limite inferior da classe modal; d1 diferença entre a frequência da classe modal e a frequência da classe que lhe precede; d2 diferença entre a frequência da classe modal e a frequência da classe que lhe sucede; ai amplitude da classe modal.
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
Página
A classe modal é a classe [40; 50[.
47
Dado o histograma de frequências absolutas simples tem-se:
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.1 – Características Amostrais. Medidas de Localização Quantis São medidas de tendência central que permitem dividir uma amostra ou distribuição em partes iguais. Um caso particular dos quantis é a mediana, que permite dividir a distribuição em duas partes iguais.
Os quantis mais conhecidos são: os quartis, que dividem a distribuição em quatro partes iguais; os decis, que dividem a distribuição em dez partes iguais; os percentis, que dividem a distribuição em cem partes iguais.
O cálculo destes quantis e similar ao cálculo da mediana, uma vez que também subdividem a distribuição de medidas de acordo com a proporção das frequências observadas.
De um modo geral, para os restantes quantis, na expressão anterior em vez de aparece
e
para o 1º e 3º quartis,
e
para o 1º decil e 2º decil e assim
sucessivamente, sendo os Faci e F’aci as repetidas frequências acumuladas no limite
Página
48
inferior da respectiva classe e no limite superior da respectiva classe.
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.2 – Medidas de Localização - média A média - é a medida de localização do centro da amostra mais utilizada, e obtém-se somando os elementos da amostra e dividindo o resultado da soma pelo número desses elementos.
Em dados agrupados a média será calculada, segundo:
Os dados serem discretos e as diferentes classes são os diferentes valores que surgem da amostra
Os dados serem discretos ou contínuos e as classes são intervalos, aqui obtém-se apenas um valor aproximado
Ao calcular a média a partir de dados agrupados, em que as classes são intervalos, não se obtém o verdadeiro valor da, média, mas sim um valor aproximado, para se
Página
49
obter o valor exacto terão de se considerar os dados originalmente recolhidos.
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS
Página
50
Tema 3.2 – Medidas de Localização - média
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.2 – Medidas de Localização - média A média é uma boa indicação do centro da amostra quando a distribuição dos dados for aproximadamente simétrica (o histograma tem aproximadamente a forma de um sino).
A Distribuição Normal, uma das mais importantes, surge mais frequentemente, esquematicamente:
No histograma do lado esquerdo temos uma figura simétrica, o centro está bem definido, já no do centro existe um enviesamento para a direita desloca a média para a direita e no da direita o deslocamento é para a esquerda.
A média goza de uma particularidade interessante e que consiste no seguinte, se calcularmos os desvios de todas as observações relativamente à média e somarmos esses desvios o resultado obtido é igual a zero.
Exemplo: Numa festa foram distribuídos, atirando para o ar berlindes, quem mais corria mais apanhava, efectuou-se seguidamente à contagem de berlindes por
Página
A média apurada foi de 5,5 berlindes/criança.
51
criança:
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.2 – Medidas de Localização - média Calculando os desvios relativamente à média temos:
O resultado anterior verifica-se porque a soma dos desvios positivos é igual à soma dos desvios negativos, graficamente:
Com dados de tipo qualitativo não tem sentido calcular a média, mesmo que os
Página
52
dados sejam números.
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.3 – Medidas de Localização – mediana, quartis e moda A mediana - é a medida do centro da distribuição dos dados e que surge intuitivamente como um valor que divide a amostra ao meio, metade dos elementos são menores ou iguais à mediana, enquanto que os restantes são superiores ou iguais.
A sua determinação faz-se partindo da amostra ordenada, onde se pode verificar:
Se o número de observações n é impar, a mediana é o elemento médio.
Se o número de observações n é par, qualquer valor entre os dois elementos médios pode ser a mediana (semi-soma dos dois elementos médios).
Cálculo da mediana quando n é impar,
:
Se este quociente for um número inteiro (n impar), toma-se por mediana essa posição.
Se este quociente terminar em 0,5, considera-se a sua parte inteira e faz-se a semi-soma do elemento a que correspondente essa ordem, com o elemento
Página
53
seguinte.
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.3 – Medidas de Localização – mediana, quartis e moda Dado um histograma é fácil de obter a posição da mediana, pois esta está na posição em que passando uma linha vertical por esses pontos o histograma fica dividido em duas partes com áreas iguais.
Como medida de localização, a mediana é mais resistente do que a média, pois não é tão sensível aos dados.
Como a média é influenciada por valores muito grandes, ou por valores muito pequenos, pode haver enviesamento na sua distribuição, para a direita se os valores forem grandes (a média tende a ser maior que a mediana), para a esquerda se os
Página
54
valores forem pequenos (a média tende a ser inferior à mediana).
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.3 – Medidas de Localização – mediana, quartis e moda Para dados de tipo qualitativo pode-se calcular a mediana desde que esteja subjacente uma hierarquia nas diferentes classes ou modalidades que a variável assumir.
Página
55
Caso:
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.3 – Medidas de Localização – mediana, quartis e moda Quartis – medidas de localização de alguns pontos de interesse sem ser o centro da distribuição de dados. A melhor metodologia para os calcular é:
Ordenar as observações e calcular a mediana m
O 1º quartil é a mediana das observações que ficam para a esquerda de m
O 3º quartil é a mediana das observações que ficam para a direita de m
Página
56
Dada a seguinte amostra:
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.3 – Medidas de Localização – mediana, quartis e moda
Moda – valor que surge com mais frequência num conjunto de dados, se estes são discretos, ou a classe com maior frequência se os dados são contínuos ou estão agrupados.
Não sendo propriamente uma medida de localização, a única medida que é susceptível de ser calculada para os dados qualitativos, em que não se pode estabelecer uma hierarquia entre as diferentes modalidades ou classes que a variável possa assumir.
Para o caso de uma virose detectada num centro médico de uma dada região, recolheu-se de uma amostra de 35 pessoas, o dado idade, tendo sido apurada uma média de idade de 32 anos, distribuindo a mostra por um diagrama de caule-defolhas, apurou-se uma distribuição de dados que contraria as possíveis conclusões a
Página
57
retirar se se considerasse a média de idades.
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.3 – Medidas de Localização – mediana, quartis e moda Segundo o diagrama de caule-de-folhas a amostra apresenta a seguinte distribuição:
Efectivamente para este tipo de dados é enganador quer a medida de distribuição quer a medida de localização do centro de distribuição.
O que se verifica pela leitura do diagrama é que as ocorrências se situam em duas faixas etárias, de 1 a 8 anos de idade e de 68 aos 80 anos, de onde se conclui que o
Página
58
vírus ataca crianças e pessoas da 3ª idade.
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.4– Medidas de Dispersão ou Variabilidade Permitem avaliar o grau de variabilidade dos valores de uma distribuição. Amplitude total Normalmente denotada por R (range) é o valor da diferença entre o maior e o menor valor observados. No caso de dados agrupados a amplitude total será dada pela diferença entre o limite superior da classe mais alta e o limite inferior da classe mais baixa. Considera apenas os valores extremos da distribuição No que respeita aos valores intermédios não dá qualquer informação. R = valor máximo - valor mínimo
Amplitude inter-quartil É considerada uma medida resistente uma vez que é definida a partir de medidas resistentes, ou seja os quartis, é utilizada na construção do diagrama de extremos e quartis, fornece-nos informação acerca da amplitude do intervalo onde se encontram 50% das observações centrais. Amplitude inter-quartil = 3º Quartil – 1º Quartil
Observações:
Quanto mais variabilidade houver entre os dados, maior será a amplitude
No caso de não haver variabilidade, ou seja todas as observações serem iguais, a amplitude inter-quartil terá valor nulo.
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
Página
59
inter-quartil.
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.4– Medidas de Dispersão ou Variabilidade
Variância Esta é uma importante medida de variabilidade que permite medir o grau de dispersão dos dados em relação à média. Considere-se x1; x2; . . . ; xn as n observações de uma distribuição estatística, de média
e seja di o desvio entre o valor xi e , ou seja di = xi -
. Então, dado que a
soma dos desvios é igual a zero, considera-se os quadrados dos desvios.
A variância s2 é a média dos quadrados dos desvios e fornece-nos a informação de quão distantes se encontram os dados relativamente à média.
Em algumas situações nomeadamente quando se faz inferência da amostra para a população utiliza-se a fórmula, que corresponde à variância corrigida, ou estimador
Página
60
não enviesado da variância:
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.4– Medidas de Dispersão ou Variabilidade Nesta fórmula o denominador n é substituído por n-1 sendo que para um número de dados suficientemente grande os resultados são muito próximos.
Desvio padrão É uma medida que permite avaliar o grau de dispersão dos valores da variável em relação à média, com a vantagem de que, contrariamente à variância, o desvio padrão aparece sempre nas mesmas unidades dos valores da variável. O desvio padrão s é simplesmente a raiz quadrada da variância s2 , esta é a medida de dispersão mais utilizada, uma vez que oferece simultaneamente o uso de todos os valores da variável envolvida e ao mesmo tempo é expressa nas mesmas unidades..
A expressão anterior pode aparecer sob outras formas, por exemplo para dados agrupados se recorremos às frequências absolutas dos k valores diferentes da variável.
Tal como vimos para o caso da variância, também poderemos ter necessidade de recorrer ao desvio padrão corrigido, nomeadamente no âmbito do Cálculo de Probabilidades ou em estudos de Inferência Estatística. Nessa situação recorremos a:
Propriedades do desvio padrão:
O desvio padrão é sempre não negativo e será tanto maior quanto mais
Caso não haja variabilidade, o valor do desvio padrão é nulo.
Se o desvio padrão for nulo, então não existe variabilidade, e nesse caso os
Página
dados são todos iguais.
61
variabilidade houver entre os dados.
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.4– Medidas de Dispersão ou Variabilidade
À semelhança da média, também o desvio padrão é uma medida pouco resistente, pois é muito influenciável por valores que sejam muito diferentes
Página
62
dos restantes, quer seja por excesso quer por defeito.
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS
Página
63
Tema 3.4– Medidas de Dispersão ou Variabilidade
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.4– Medidas de Dispersão ou Variabilidade Propriedades algébricas da média e do desvio padrão As propriedades que seguem pretendem ilustrar o que acontece se todas as
Página
64
observações de uma série estatística forem acrescidas na mesma quantidade.
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS
Página
65
Tema 3.4– Medidas de Dispersão ou Variabilidade
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.5 – Estudos de caso – Medidas de localização e dispersão Inquérito a 50 pessoas recolhendo informações sobre a satisfação sobre um determinado produto: Identificação (contador de controle do inquirido, varia de 1 a 50); Sexo (M/F); Idade; Fumador (S/N); Naturalidade; Nº de Filhos; Altura; Peso; Satisfação com Produto. Variáveis:
Identificação (contador de controle do inquirido, varia de 1 a 50)
Sexo (M/F)
Idade
Fumador (S/N)
Naturalidade
Nº de Filhos
Altura
Peso
Satisfação com Produto
Página
66
Primeiro passo será a caracterização das variáveis:
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.5 – Estudos de caso – Medidas de localização e dispersão Variáveis nominais – o único valor possível de calcular para medidas de localização é a MODA, o valor da variável que tem maior frequência, na variável Sexo, que quer na frequência absoluta ni quer na frequência relativa fi, correspondendo os valores mais elevados os do sexo feminino.
Em variáveis do tipo da Naturalidade onde existem variadas hipóteses, teria de se observar qual a que possui os valores de frequência absoluta ni e relativa fi mais elevados, da amostra apresentada é Lisboa.
As medidas possíveis de observar dado que este tipo de variáveis não reúne as
Página
67
características que permitam efectuar cálculos.
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.5 – Estudos de caso – Medidas de localização e dispersão Varáveis qualitativas ordinais – temos as variáveis ordenadas por uma ordem gradativa como é o caso da satisfação do produto, onde os valores possuem uma ordem bem definida, o que já nos permite calcular medidas de localização (médias e desvios padrão), assim temos para a:
Para este tipo de variáveis apena contam os valores simples. Graficamente observa-se:
MODA – calculada a partir do valor mas elevado das frequências absoluta ni = 25 e relativa fi = 50%, assim a moda será a variável Boa.
MEDIANA – valor da variável que tem 50% inferiores ao valor absoluto e 50% superior a esse valor, usam-se agora as frequências relativas acumuladas, procurando o valor a que corresponde 50% + 1, é a Fi = 90%, correspondendo a mediana à variável Boa.
QUARTIL – divide a distribuição em 4 partes iguais, para percentagens em parcelas de 25%, logo o 1º quartil vai até aos 25% inferiores ao valor, e 75%
contida entre variável Má = 12% e a variável Média = 40%.
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
Página
(Q1) ficará então na variável que contem os 25%, a Média (40%) que está
68
superiores, tomando como base a frequência relativa acumulada. O 1º quartil
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.5 – Estudos de caso – Medidas de localização e dispersão
O 3º quartil (Q3) a variável onde estão contidos os 75%, logo estará entre a variável Média = 40% e a variável Boa = 90%, o Q# será então Boa.
PERCENTIL - divide a distribuição em 100 partes iguais, correspondendo o P10 (referente a 10% de valores inferiores e 90% de valores superiores); P50 (referente a 50%); P90 (referente a 90%). Para P10 (10%), estará localizado entre a variável Péssima = 2% e Má = 12%, logo P10 será Má. Para P90 corresponde exactamente à variável Boa = 90%, que coincide com o limite superior do intervalo.
Página
69
Resumindo para os cálculos destas variáveis teríamos:
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.5 – Estudos de caso – Medidas de localização e dispersão Variáveis quantitativas – dados não agrupados, sejam do tipo contínuo ou discreto. Formulário utilizado, neste grupo de cálculos, para amostra de dimensão n:
Partindo da base de cálculo número de filhos, em primeiro ligar obter o somatório da amostra sobre os 50 inquiridos, que dá um total de 51 filhos.
Cálculos possíveis para este tipo de variável quantitativa discreta, para todos estes cálculos já se poderão aplicar as funcionalidades existentes no Excel:
MODA – valor mais elevado da frequência absoluta, neste caso Moda = 0 (21 pessoas sem filhos).
MÉDIA – obtida a partir da soma dos valores a dividir pela dimensão da amostra
=
= 1,02, em Excel usaríamos
,a
Média = 1,02.
MEDIANA – recorre-se à frequência relativa acumulada, procuramos os 50%, que se encontra no intervalo de 0 (42%) e 1 (78%), considerando o valor da variável que contem os 50%, a Mediana = 1. Em Excel
.
QUARTIS – apurado através da frequência relativa acumulada, para o mesmo tipo de raciocínio Q1 localiza-se o valor que contem os 25% e Q3 localiza-se o
Página
onde estão contidos os 25% e para Q3 a variável que contem os 75%,
70
valor que contem os 75%. Para os dados apurados teremos Q1 a variável
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.5 – Estudos de caso – Medidas de localização e dispersão respectivamente Q1 = 0 e Q3 = 1. Em Excel respectivamente Q1 e Q3
.
PERCENTIL – dado que se divide a distribuição em 100 partes iguais, correspondendo o P10 (referente a 10% de valores inferiores e 90% de valores superiores); P90 (referente a 90%). Para a nossa amostra P10 corresponde à variável onde estão contidos os 10% e P90 a variável onde estão contidos os 90%. Respectivamente P10 = 0 e P90 = 3, dado que os 10% se encontram dentro da variável 0 (42%) e os 90% na variável 3 (96%). Em Excel,
P10
,
para
P90
.
Para os restantes cálculos seguir-se-á o formulário abaixo: Para a totalidade da população, dimensão N
Para a penas uma amostra, dimensão n ou n-1
Página
71
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.5 – Estudos de caso – Medidas de localização e dispersão Cálculo de:
VARANCIA – é calculado fazendo para cada variável, a variável menos o valor da média elevada ao quadrado
, a soma de todos os elementos de
verá ser dividida por N quando em presença da totalidade da população e por n-1 quando se está presente perante uma amostra que é o nossa base de trabalho. Em Excel os cálculos processar-se-ão por fases: 1. Calcular xi-média para cada elemento da amostra;
2. Elevar o valor calculado ao quadrado
(xi-media)^2 para cada elemento da amostra;
3. Efectuar a soma de todos os
elementos calculados em (2.) e dividir pela amostra menos 1, n-1. Em Excel .
DESVIO PADRÃO – é calculado pela raiz quadrada do valor obtido no cálculo da variância. Para a totalidade da população amostra populacional
. Em Excel
Cálculo Manual Moda Média Mediana Q1 Q3 P10 P90 Desvio Padrão Variância
0 1,02 1 0 1 0 3 1,332329554 1,775102041
para uma .
Cálculo com Excel 21 50%
0 1,02 1 0 1 0 3 1,332329554 1,775102041
Da análise dos números calculados se podem fazer várias análises como verificar se existe assimetria entre a MÉDIA e a MEDIANA, bem como para os QUARTIS, que se são idênticos, apresenta-se uma grande concentração nos valores da MÉDIA e da MEDIANA.
encontrar-se-ão longe da média, havendo uma maior dispersão entre os valores recolhidos. Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
Página
torno da média existe entre a informação recolhida, se for o contrário os valores
72
Em relação ao DESVIO PADRÃO, quanto menor este for, maior concentração em
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.5 – Estudos de caso – Medidas de localização e dispersão Cálculos para dados agrupados em classes (de valores), caso considerado o dos dados referentes à altura.
O conjunto dos cálculos baseia-se no formulário seguinte:
MÉDIA – para apurar a média há que iniciar pelo cálculo do centro da classe que se obtém multiplicando a frequência absoluta de cada classe pelo seu centro, cuja soma será dividida por n. Assim: 1. Inicia-se pelo cálculo do centro da classe (Ci) que é efectuado pela média entre o limite inferior (1,55) e o limite superior (1,60), caso da primeira classe,
= 1,75 o que
determina um valor de 0,25, que se verifica nos restantes elementos das
Página
73
classes.
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.5 – Estudos de caso – Medidas de localização e dispersão 2. Efectuam-se seguidamente cálculos com a frequência absoluta (ni) vezes o Centro da Classe (Ci), para todas as classes, que somado constitui o numerador para a nossa fórmula de cálculo da média de classes, que será depois dividido pelo numero de elementos da amostra (50), obtendo o valor para a Média = 85,2/50 = 1,704:
VARIÂNCIA – para este cálculo há que saber se se trata da totalidade da população N ou apenas possuímos a amostra n-1. Ao cálculos a efectuar pela aplicação da fórmula, fazem-se apurando o valor da diferença entre o Centro da Classe e a Média (apurada anteriormente), elevando-a ao quadrado
e
finalmente multiplicando-a pela frequência absoluta de cada classe ni, ou seja, ni
os valores apurados para cada elemento da classe, serão somados e
divididos por n-1 (49), calculando-se assim a Variância, 0,24545 / 49 que será
Página
74
igual a 0,005009.
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.5 – Estudos de caso – Medidas de localização e dispersão
DESVIO PADRÃO – obtém-se pela raiz quadrada da variância, √
=
0,070776
A conclusão que se pode tirar dos cálculos sobre os dados agregados, é de que existe um desvio médio padrão de 0,07 cm, logo a maior concentração estará à volta da média 1,70 cm
0,07 cm.
CLASSE MODAL – calculada simplesmente, passa por ver a Classe que tem a frequência absoluta mais elevada, seria o intervalo que corresponde ao valor da média (1,704) e o seu valor superior ([1.70, 1.75[).
CLASSE MEDIANA – calcula-se a partir da frequência relativa acumulada, verificando onde são ultrapassados os 50%, o que se verifica na mesma classe, sendo a classe mediana sempre aproximada da classe modal
MEDIANA – para os dados agrupados é calculada a partir da expressão, . Aplicando a fórmula, ao limite inferior (li=1,70) mais
(50/2=25) menos a frequência acumulada até à classe
inferior da classe mediana (Fácil=23), sobre a frequência acumulada da classe mediana (Face=36) menos a frequência acumulada da classe mediana até à classe inferior (Fácil=23) vezes a amplitude da classe (ai=0,05), isto é, a diferença ente 1,70 e 1,75, apura-se como valor para a Mediana = 1,7076.
Conclui-se então que média e mediana são idênticas, numa distribuição simétrica à
Página
75
volta da média.
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.5 – Estudos de caso – Medidas de localização e dispersão
QI (1º quartil) – para o calcular temos que a classe do 1º quartil, ou seja a classe compreendida nos 25%, será [1.65,1.70[, usando a mesma fórmula anteriormente
usada
para
calcular
a
mediana
, com a diferença de que como se trata de quartis se aplica
no lugar de
, calculando o
teríamos, limite inferior
(li=1,65), mais (50/4=12,5), menos a frequência acumulada até à classe inferior da classe mediana (F’aci=23), sobre a frequência acumulada da classe mediana (Faci=12) menos a frequência acumulada da classe mediana até à classe inferior (F’aci=23) vezes a amplitude da classe (ai=0,05), isto é, a diferença ente 1,65 e 1,70, apura-se como valor para o 1º quartil (Q1) = 1,6502
Concluindo, sempre que for possível calcular qualquer destas medidas, não recorrendo a dados agrupados fazendo a análise da tabela de frequências simples com a totalidade dos dados, tal como se calculou para as variáveis discretas (dados desagregados) será o método mais correcto e que fornecerá os dados mais próximos da realidade analisada, os dados agregados constituem uma solução que obriga ao recurso à tabela de frequências de classe, obtendo-se apenas valores estimativos e
Página
76
aproximados.
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.5 – Estudos de caso – Medidas de localização e dispersão
Sexo M F F M M M M M F F F F F F M M M M M M M M M M F F F F F F F F F F F F F F F F F F M M M M M M M M
Idade Fumador Naturalidade Nº filhos Altura Peso 25 N Lisboa 1 1,76 93 25 S Porto 0 1,77 64 26 S Lisboa 3 1,55 53 27 S Setúbal 7 1,72 83 28 N Lisboa 0 1,68 65 28 S Lisboa 1 1,78 70 28 S Évora 2 1,70 84 28 S Beja 3 1,71 94 28 N Coimbra 0 1,60 59 28 S Braga 1 1,65 71 29 N Lisboa 0 1,61 65 29 N Lisboa 1 1,72 59 30 N Lisboa 1 1,67 73 32 N Porto 1 1,58 50 32 N Lisboa 0 1,73 78 33 S Faro 2 1,85 106 34 S Coimbra 1 1,75 67 35 N Beja 0 1,69 89 35 S Portalegre 1 1,73 72 35 N Lisboa 2 1,72 80 35 S Porto 1 1,78 73 36 N Porto 0 1,82 89 37 S Lisboa 0 1,71 64 38 S Lisboa 0 1,70 66 38 S Santarém 0 1,73 78 38 S Braga 1 1,64 78 38 N Lisboa 0 1,63 72 39 N Porto 1 1,65 76 39 N Coimbra 0 1,66 58 39 N Porto 1 1,64 75 40 N Portalegre 4 1,68 76 40 S Castelo Branco 3 1,62 63 41 N Lisboa 2 1,65 52 41 N Lisboa 0 1,76 63 41 S Porto 1 1,59 71 41 N Lisboa 3 1,61 65 42 N Lisboa 0 1,67 61 42 N Coimbra 1 1,67 67 42 S Braga 0 1,65 52 42 N Bragança 0 1,58 47 43 N Lisboa 2 1,82 64 43 S Viseu 1 1,63 74 44 N Porto 0 1,73 75 45 N Santarém 0 1,75 89 45 S Coimbra 1 1,76 74 21 N Porto 0 1,77 78 32 S Porto 1 1,77 88 42 N Lisboa 0 1,75 98 33 S Leiria 0 1,71 64 33 N Braga 1 1,72 71
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
Satisfação Produto Boa Excelente Média Má Boa Boa Média Excelente Boa Boa Média Boa Péssima Boa Boa Média Má Boa Boa Boa Má Boa Boa Média Excelente Boa Média Média Boa Má Média Boa Boa Excelente Média Boa Boa Média Média Boa Média Boa Média Boa Má Excelente Boa Boa Média Boa
Página
Identificação 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50
77
Dados de base para os cálculos:
ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.5 – Estudos de caso – Medidas de localização e dispersão
Página
78
Acesso às funções estatísticas do Excel:
Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão
Lihat lebih banyak...
Comentários