Estatística para s Ciencias Sociais Vol 1

May 31, 2017 | Autor: Luis Panao | Categoria: Estatística, Iniciação
Share Embed


Descrição do Produto

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Capa

ESTATÍSTICA PARA AS CIÊNCIAS SOCIAIS

Vol 1

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS INDICE

Tema 1.1 – População e Amostra. Aquisição de Dados ……………………………………………………

1

Tema 1.2 – Elementos de Estatística Descritiva – Síntese de Definições ………………………….

5

Tema 1.3 – Elementos de Estatística Descritiva – Exercícios ………………………………………….. 15 Tema 1.4 – Elementos de Estatística Descritiva – Estudo de caso ………………………………….. 24 Tema 1.5 – Elementos de Estatística Descritiva – Estudo de caso em Gráficos ………………. 31 Tema 2.1 – Analise Representação e Redução de Dados ……………………………………………….. 36 Tema 3.1 – Características Amostrais. Medidas de Localização ……………………………………… 43 Tema 3.2 – Medidas de Localização – média …………………………………………………………………. 49 Tema 3.3 – Medidas de Localização – mediana, quartis e moda ……………………………………. 53 Tema 3.4– Medidas de Dispersão ou Variabilidade ……………………………………………………….. 59 Tema 3.5 – Estudos de caso – Medidas de localização e dispersão ………………………………… 66 Tema 4.1 – Dados Bivariados. Correlação e Regressão ………………………………………………….. 79 Tema 4.2 – Estudos de caso – Correlação e Regressão Linear ……………………………………….. 86 Tema 5.1 – Probabilidade ……………………………………………………………………………………………… 96 Tema 5.2 – Probabilidade – Noções ……………………………………………………………………………… 103 Tema 5.3 – Probabilidade – Experiencias aleatórias …………………………………………………….. 115

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 1.1 – População e Amostra. Aquisição de Dados INTRODUÇÃO Estatística como sendo um conjunto de técnicas para tratamento e análise de dados, como simultaneamente uma ciência e uma arte que permite obter conclusões sobre um conjunto de dados, e que a sua vertente mais abrangente realiza aquilo que se designa por Inferência Estatística.

POPULAÇÃO E AMOSTRA, OBTENÇÃO DE DADOS Amostra e população Os conceitos de amostra e de população aparecem em inúmeras situações onde se utilizam técnicas estatísticas envolvendo análises sobre conjuntos de indivíduos. População - é uma colecção de elementos individuais ou resultados experimentais que tenham uma ou mais características em comum e que se pretendam analisar. Exemplos: 

Estudantes da Universidade Aberta



Pessoas com mais de 18 anos residentes em Portugal Continental



Conjunto de escaravelhos na região de Trás os Montes



Conjunto dos acidentes num determinado dia na auto-estrada A1



Conjunto de golfinhos presos diariamente em redes de pesca em todo o mundo

Poderemos analisar as mais variadas características, consoante a natureza das mesmas e o objectivo do estudo. Exemplos: 

Idade (em cm) dos estudantes da Universidade Aberta



peso (em Kg) das pessoas residentes em Portugal continental com mais de 18 anos



numero de escaravelhos por hectare nos concelhos da Região de Trás os

número de acidentes provocados por excesso de álcool na A1



número de golfinhos presos em redes de pesca

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

Página



1

Montes

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 1.1 – População e Amostra. Aquisição de Dados Recenseamento e Sondagens Em situações onde é necessário estudar todos os elementos duma população procede-se habitualmente a um recenseamento ou censo. Num recenseamento é possível obter informação variada, respeitante a condições económicas e sociais dos habitantes, e pode contribuir para tomada de decisões importantes por parte do poder politico, podem ser analisados aspectos como, aspectos ligados à habitação, mas também pode envolver aspectos ligados ao funcionamento da agricultura e industria. Recenseamento, um processo em que para além da recolha de informação está também envolvida a análise de todos os elementos da população em estudo, tendo como objectivo não apenas a enumeração dos seus elementos mas também o estudo de características importantes. Sondagem, estudo baseado numa parte de uma população com intuito de inferir resultados para toda a população, têm como objectivo conhecer gostos ou preferências em relação a certos assuntos ou acontecimentos comuns a toda a população, podemos afirmar que este tipo de estudo começou a ter maior destaque a partir da segunda metade do seculo XX, período a partir do qual foi possível implementar um conjunto de métodos e técnicas estatísticas que lhe deram definitivamente um carácter científico. Amostragem aleatória simples A problemática envolvendo a recolha de amostras é sem dúvida bastante importante e merece destaque especial. Atendendo a factores vários, torna-se muitas vezes inviável a análise de todos os elementos de uma população, situações: 

CASO 1 - A população é infinita ou pode ser considerada como tal. Ex: Temperaturas nos pontos da superfície da Terra, num dado instante.



CASO 2 - A recolha da informação obrigaria à destruição total dos elementos

CASO 3 - A recolha de toda a informação ser muito dispendiosa ou ser muito demorada. Ex: Consulta de opinião pública sobre um candidato presidencial.

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

Página



2

em estudo. Ex: Tempo de vida de determinado tipo de lâmpada.

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 1.1 – População e Amostra. Aquisição de Dados Nos casos referidos o método por excelência de todo aconselhável recorrer à selecção de uma amostra, referimo-nos a um processo que consiste em considerar um certo número de elementos - amostra – do conjunto de elementos a estudar população. Esse processo deve ter em atenção critérios adequados, de tal forma que nos conduzam a conclusões válidas para toda a população. Uma amostra que pelo contrário não seja representativa da população, diz-se enviesada. Podemos enumerar os critérios, que no essencial nos orientam para a realização de uma amostragem adequada: 

Todos os indivíduos da população devem ter igual probabilidade de ser seleccionados



A População deve estar bem definida logo à partida, ou seja desde o início do estudo



Dimensão da amostragem deve ser adequada, ou seja nela devem figurar toda a variedade de subgrupos existentes na população.

Na amostra enviesada, podemos apontar como exemplos: 

Utilização de uma amostra, constituída por opiniões de 10 membros da Liga Protectora dos Animais, sobre a abolição das touradas;



Utilização de uma amostra de pluviosidades diárias verificadas nos meses de Junho, Julho e Agosto para tirar conclusões sobre um ano inteiro.

A amostragem aleatória simples, consiste num processo onde se extrai de uma população um número de elementos previamente fixado: 

ao acaso;



de forma a ter em conta a composição da população;



de forma que a escolha feita por um indivíduo não influencie a escolha de

Página

3

outro.

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 1.1 – População e Amostra. Aquisição de Dados Estatística descritiva e Estatística indutiva Numa análise estatística podem estar envolvidas fases distintas: uma análise descritiva dos dados, correspondente à obtenção, organização e tratamento dos dados de uma determinada amostra, e uma análise inferencial onde a partir do conhecimento descritivo dos dados se procura inferir conclusões para toda a população.

A estatística descritiva, ao estudo de uma amostra, onde o principal objectivo é a obtenção de algumas características amostrais e construção de tabelas e gráficos onde possa constar toda a informação na forma resumida. Exemplo onde numa turma se questionou cada um dos alunos acerca do número de irmãos que cada um tem. 0120024123211110001234221101010102112011

0 | *********** 1 | **************** 2 | ********* 3 | ** 4 | **

a situação que mais ocorre é ter um irmão, e que apenas uma pequena minoria tem três ou mais irmãos

A inferência estatística, dá-se quando num estudo estatístico, os objectivos vão habitualmente mais além duma descrição dos dados, quer seja em tabelas ou gráficos, muitas vezes queremos mesmo é estimar quantidades ou testar hipóteses utilizando técnicas estatísticas adequadas, que nos permitam tirar conclusões acerca

Página

4

de uma população.

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 1.2 – Elementos de Estatística Descritiva – Síntese de Definições DEFINIÇÕES

População – colecção de unidades individuais, que podem ser pessoas, animais, resultados experimentais, com uma ou mais características comuns que se pretendem analisar (objecto de estudo).

Parâmetro – é um número que descreve a população, embora seja fixo, normalmente é desconhecido.

Amostra – subconjunto da população, que se observa com o objectivo de tirar conclusões para a população de onde foi recolhida.

Estatística – é um número que descreve a amostra. Calcula-se o valor de uma estatística a partir dos valores observados na amostra, variando o valor da estatística de amostra para amostra. Usa-se a estatística para estimar um parâmetro desconhecido.

Variáveis em estatística: 

Quantitativas - são aquelas que são numericamente mensuráveis, por exemplo, a idade, a altura, o peso, subdividem-se em: - VARIÁVEL QUANTITATIVA CONTINUA: são aquelas que assumem valores dentro de um conjunto contínuo, tipicamente os números reais (PESO OU ALTURA DE UMA PESSOA).

- VARIÁVEL QUANTITATIVA DISCRETA: são aquelas que assumem valores dentro de um tempo finito ou enumerável, tipicamente números inteiros (NÚMERO DE FILHOS DE UMA PESSOA). - VARIÁVEL QUANTITATIVA DICOTÓMICA: são aquelas que apenas admitem

Página

5

duas opções (SIM/NÃO; VERDADEIRO/FALSO; MASCULINO/FEMININO, etc.)

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 1.2 – Elementos de Estatística Descritiva – Síntese de Definições



Qualitativas - são aquelas que se baseiam em qualidades e não podem ser mensuradas numericamente. Estas ainda se subdividem em: - VARIÁVEL QUALITATIVA ORDINAL: são aquelas que podem ser colocadas em ordem (a variável classe social: A;B;C;D; ou E, e a variável "Peso" medida em 3 níveis: pouco pesados; pesados; muito pesados). - VARIÁVEL QUALITATIVA NOMINAL: são aquelas que não podem ser hierarquizadas ou ordenadas (cor dos olhos; local de nascimento).

Enquadramento de variáveis: CASO - Foi elaborado um questionário a 1000 pessoas escolhidas aleatoriamente na zona de Braga, no qual eram formuladas várias questões; antes de se proceder à análise dos resultados é necessário classificar as variáveis. Pretende-se que classifique as seguintes variáveis: possui computador, possui cartão de crédito, plafond do cartão de crédito, quantos empregos teve até à data, sexo, idade, salário actual, categoria profissional, habilitações literárias, caso tenha sido avaliado no ano transacto qual a avaliação obtida. RESOLUÇÃO - Dados Qualitativos: possui computador, possui cartão de crédito, sexo, categoria profissional e as habilitações literárias. Dados Quantitativos: plafond do cartão de crédito, quantos empregos teve até à data, idade, salário actual, caso tenha sido avaliado no ano transacto qual a avaliação obtida. CASO - Número de e-mails enviados diariamente por uma empresa, considere-se como amostra o último mês de laboração. RESOLUÇÃO: Quantitativa Discreta – o número de e-mails enviados por uma empresa no último mês representa um conjunto de dados quantitativos, cada dia tem uma intensidade diferente, é uma característica susceptível de ser medida. A variável é discreta pois

Página

6

apresenta sempre um número finito (ou infinito numerável).

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 1.2 – Elementos de Estatística Descritiva – Síntese de Definições CASO - Valor mensal do custo da Electricidade numa determinada habitação na cidade de Aveiro. RESOLUÇÃO: Quantitativa Contínua - Valor mensal do custo da electricidade é um conjunto de dados quantitativos, é susceptível de ser medido, apresentando diferentes intensidades. É uma variável contínua pois pode assumir todos os valores numéricos compreendidos no seu intervalo de variação.

CASO - Resposta a um questionário: “Concorda com o número de livros existentes na biblioteca?”, o qual possui as seguintes opções: concorda plenamente, concorda, discorda, discorda totalmente. RESOLUÇÃO: Qualitativa - A resposta ao questionário tem um conjunto de alternativas, ou seja, a informação identifica uma qualidade não susceptível de medida, mas sim de classificação logo uma variável qualitativa.

Recenseamento – estudo científico de um universo de pessoas, instituições ou objectos físicos com o propósito de adquirir conhecimentos, observando todos os seus elementos, e fazer juízos quantitativos acerca de características importantes desse universo.

Sondagem – estudo científico de uma parte de uma população com o objectivo de estudar atitudes, hábitos e preferências da população relativamente a acontecimentos, circunstancias e assuntos de interesse comum.

Amostra aleatória simples – dada uma população, esta amostra de dimensão n é um

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

Página

teria igual probabilidade de ser seleccionado.

7

conjunto de n unidades da população, tal que qualquer outro conjunto n unidades

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 1.2 – Elementos de Estatística Descritiva – Síntese de Definições Amostra enviesada - uma amostra que pelo contrário não seja representativa da população (utilização de uma amostra, constituída por opiniões de 10 membros da Liga Protectora dos Animais, sobre a abolição das touradas).

Precisão – ao utilizar o valor de uma estatística para estimular um parâmetro, vimos que cada amostra fornece um valor para a estatística que se utiliza como estimativa desse parâmetro. Estas estimativas não são iguais devido à variabilidade presente na amostra. Se os diferentes valores obtidos para a estatística forem próximos, podemos ter confiança de que o valor calculado a partir da amostra recolhida (na prática recolhe-se uma única amostra) está próximo do parâmetro (desconhecido).

CASO – Atirador que aponta várias setas a um alvo, tendo por objectivo atingir o

Página

8

centro do alvo:

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 1.2 – Elementos de Estatística Descritiva – Síntese de Definições Etapas normalmente seguidas num procedimento estatístico:

CASO - Numa determinada fábrica procedeu-se ao registo do tempo de duração da deslocação casa -> fábrica no período da manhã, isto foi feito para todos os trabalhadores. O objectivo é escolher um novo horário de início de laboração para os funcionários. RESOLUÇÃO: População constituída por todos os funcionários da fábrica; Amostra constituída por todos os funcionários da fábrica; Variável, tempo de percurso entre a casa e a fábrica, variável quantitativa contínua. CASO - Havendo a suspeita que muitos dos alunos do diurno de determinada Universidade têm um emprego (mesmo que em part-time) foi realizado um inquérito a 2500 alunos dos 7000 inscritos no horário laboral. RESOLUÇÃO: População constituída por todos os Estudantes da Universidade, 7000;

Variável, qualitativa, dicotómica (porque só assume dois valores possíveis). Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

Página

Universidade;

9

Amostra de dimensão 2500, constituída por alguns dos estudantes do diurno da

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 1.2 – Elementos de Estatística Descritiva – Síntese de Definições CASO - Pretende-se efectuar um estudo sobre o número de pessoas dos agregados familiares de determinada cidade. Para tal efectuou-se um inquérito ao qual responderam 20 agregados familiares. RESOLUÇÃO: População constituída por todos os agregados familiares da cidade em estudo; Amostra de dimensão 20, constituída por alguns (20) dos agregados familiares da referida cidade; Variável, número de pessoas que constituem cada agregado familiar, quantitativa discreta.

CASO - Pretende-se efectuar um estudo sobre a escolaridade da população residente em Braga. Para tal foi efectuado um inquérito, cabendo a cada Junta de Freguesia garantir a recepção das respostas. Analisam-se todos os inquéritos recebidos. RESOLUÇÃO: População – Toda a população residente em Braga com mais de 18 anos. Amostra – Toda a população residente em Braga com mais de 18 anos. Variável – Escolaridade de cada habitante em Braga, variável qualitativa.

Aplicações da estatística: Estudos de mercado



Medicina



Controlo de qualidade



Política de ensino



Pedagogia

Página

10



Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 1.2 – Elementos de Estatística Descritiva – Síntese de Definições Dados qualitativos – representam a informação que identifica alguma qualidade, categoria ou características, não susceptível de medida, mas de classificação, assumindo várias modalidades. Estado Civil: 1-Solteiro; 2-Casado; 3-Divorciado; 4Viuvo.

Diagrama circular – é uma representação gráfica que tem por base o circulo, que se divide em vários sectores circulares, tantos quantas as classes consideradas para a variável de estudo. Os ângulos dos sectores são proporcionais às frequências das classes.

Diagrama de barras – é uma representação gráfica, que consiste em marcar num sistema de eixos coordenados, no eixo dos x, pontos que representem as classes e nesses pontos barras verticais de altura igual ou proporcional à frequência absoluta

Página

11

ou relativa

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 1.2 – Elementos de Estatística Descritiva – Síntese de Definições Dados quantitativos – representam a informação resultante de características susceptíveis de serem medidas, apresentando-se com diferentes intensidades, que podem ser de natureza discreta (dados discretos), ou contínua (dados contínuos).

Página

12

Dados discretos:

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 1.2 – Elementos de Estatística Descritiva – Síntese de Definições

Página

13

Dados contínuos:

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 1.2 – Elementos de Estatística Descritiva – Síntese de Definições Histograma – para a representação de dados contínuos, usa-se um diagrama de áreas ou histograma, formado por uma sucessão de rectângulos adjacentes, tendo

Página

14

cada um por base o intervalo de classe e por área a frequência relativa (ou absoluta)

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS

Página

15

Tema 1.3 – Elementos de Estatística Descritiva – Exercícios

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS

Página

16

Tema 1.3 – Elementos de Estatística Descritiva – Exercícios

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS

Página

17

Tema 1.3 – Elementos de Estatística Descritiva – Exercícios

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS

Página

18

Tema 1.3 – Elementos de Estatística Descritiva – Exercícios

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS

Página

19

Tema 1.3 – Elementos de Estatística Descritiva – Exercícios

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS

Página

20

Tema 1.3 – Elementos de Estatística Descritiva – Exercícios

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS

Página

21

Tema 1.3 – Elementos de Estatística Descritiva – Exercícios

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS

Página

22

Tema 1.3 – Elementos de Estatística Descritiva – Exercícios

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS

Página

23

Tema 1.3 – Elementos de Estatística Descritiva – Exercícios

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 1.4 – Elementos de Estatística Descritiva – Estudo de caso Inquérito a 50 pessoas recolhendo informações sobre a satisfação sobre um determinado produto: 

Identificação (contador de controle do inquirido, varia de 1 a 50)



Sexo (M/F)



Idade



Fumador (S/N)



Naturalidade



Nº de Filhos



Altura



Peso



Satisfação com Produto

Página

24

Primeiro passo será a caracterização das variáveis:

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 1.4 – Elementos de Estatística Descritiva – Estudo de caso As variáveis Qualitativas podem ser: 

Nominais – variáveis não ordenáveis sob o ponto de vista lógico, i é, não são logicamente ordenáveis e temos: Sexo; Fumador; Naturalidade.



Ordinais – variáveis ordenáveis logicamente, caso da Satisfação com Produto que podem ser gradativamente ordenadas de Excelente (índice mais elevado) a Péssima (índice mais baixo), ficando: Excelente; Boa; Média; Má; Péssima



Dicotómicas – variáveis que assumem apenas dois valores (SIM/NÃO)

Frequência Absoluta – número de incidências de cada caso da variável (SIM/NÃO). Frequência Relativa – obtém-se dividindo os valores de cada frequência absoluta, incidências de cada caso (SIM/NÃO), pelo total (somatório das incidências de cada frequência absoluta) Caso apresentado da variável Fumadores:

Frequência absoluta acumulada – representa o número de incidências até ao valor total do somatório da frequência absoluta simples (50) Frequência relativa acumulada – representa o acumulado dos valores da frequência

Página

25

relativa simples até ao total de 100%

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 1.4 – Elementos de Estatística Descritiva – Estudo de caso As variáveis Quantitativas, podem ser: 

Discretas – são aquelas que assumem valores fixos dentro de determinado intervalo (valores inteiros, p. ex. Nº de Filhos; Idade).



Contínuas – são aquelas que podem assumir todos os valores dentro do intervalo (valores medidos e logo fraccionados, p. ex. Altura; Peso). Para estas variáveis que no caso da altura implicará enumerar por exemplo desde 1,54m a 1,96m com intervalos de 1 décima (1,55; 1,56; […]; 1,97; 1,98). Neste caso utiliza-se o método de divisão por classes com intervalos fixos definidos ([1.55,1,60[; [1.60,1.65[ … [1.80,1.85[; [1.85,1.90[).

Determinação de classes: 

Determinação do número de classes segundo isto é



segundo o nosso caso

arredondado 7

Determinar a amplitude (âm) da classe, isso é o intervalo entre o valor menor e o maior de cada classe,

isto é

Página

ou seja, 5

26

o valor obtido deverá ser arredondado para o inteiro superior,

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 1.4 – Elementos de Estatística Descritiva – Estudo de caso 

Tendo o valor para o intervalo entre os elementos da classe, parte-se do valor inferior, adicionando 5 até obter o intervalo onde cabe o valor mais alto recolhido (valor inferior = 1,55; valor superior = 1,85), considerando o limite superior um intervalo aberto [, o valor como até, isto é 1,60 já não é considerado, pois é o primeiro elemento da classe que se lhe segue, assim: [1.55,1,60[ [1.60,1,65[ [1.65,1,70[ [1.70,1,75[ [1.75,1,80[ [1.80,1,85[ [1.85,1,90[

Tabelas e contingência - são usadas em estatística para registar e analisar o relacionamento entre duas ou mais variáveis, normalmente de escala nominal.

Suponhamos que temos duas variáveis, sexo (masculino ou feminino) e fumadores (fumador ou não fumador). Observamos os valores de ambas as variáveis de uma amostra casual de 50 pessoas. Uma tabela de contingência pode ser usada para

Página

27

expressar o relacionamento entre estas duas variáveis, como se segue:

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 1.4 – Elementos de Estatística Descritiva – Estudo de caso O mesmo tipo de tabelas também se pode aplicar para intervalos de classe (altura) e sexo (masculino ou feminino). Observemos as mesmas 50 pessoas em termos

Página

28

distribuição de altura relacionadas com o respectivo sexo:

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 1.4 – Elementos de Estatística Descritiva – Estudo de caso

Sexo M F F M M M M M F F F F F F M M M M M M M M M M F F F F F F F F F F F F F F F F F F M M M M M M M M

Idade Fumador Naturalidade Nº filhos Altura Peso 25 N Lisboa 1 1,76 93 25 S Porto 0 1,77 64 26 S Lisboa 3 1,55 53 27 S Setúbal 7 1,72 83 28 N Lisboa 0 1,68 65 28 S Lisboa 1 1,78 70 28 S Évora 2 1,70 84 28 S Beja 3 1,71 94 28 N Coimbra 0 1,60 59 28 S Braga 1 1,65 71 29 N Lisboa 0 1,61 65 29 N Lisboa 1 1,72 59 30 N Lisboa 1 1,67 73 32 N Porto 1 1,58 50 32 N Lisboa 0 1,73 78 33 S Faro 2 1,85 106 34 S Coimbra 1 1,75 67 35 N Beja 0 1,69 89 35 S Portalegre 1 1,73 72 35 N Lisboa 2 1,72 80 35 S Porto 1 1,78 73 36 N Porto 0 1,82 89 37 S Lisboa 0 1,71 64 38 S Lisboa 0 1,70 66 38 S Santarém 0 1,73 78 38 S Braga 1 1,64 78 38 N Lisboa 0 1,63 72 39 N Porto 1 1,65 76 39 N Coimbra 0 1,66 58 39 N Porto 1 1,64 75 40 N Portalegre 4 1,68 76 40 S Castelo Branco 3 1,62 63 41 N Lisboa 2 1,65 52 41 N Lisboa 0 1,76 63 41 S Porto 1 1,59 71 41 N Lisboa 3 1,61 65 42 N Lisboa 0 1,67 61 42 N Coimbra 1 1,67 67 42 S Braga 0 1,65 52 42 N Bragança 0 1,58 47 43 N Lisboa 2 1,82 64 43 S Viseu 1 1,63 74 44 N Porto 0 1,73 75 45 N Santarém 0 1,75 89 45 S Coimbra 1 1,76 74 21 N Porto 0 1,77 78 32 S Porto 1 1,77 88 42 N Lisboa 0 1,75 98 33 S Leiria 0 1,71 64 33 N Braga 1 1,72 71

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

Satisfação Produto Boa Excelente Média Má Boa Boa Média Excelente Boa Boa Média Boa Péssima Boa Boa Média Má Boa Boa Boa Má Boa Boa Média Excelente Boa Média Média Boa Má Média Boa Boa Excelente Média Boa Boa Média Média Boa Média Boa Média Boa Má Excelente Boa Boa Média Boa

Página

Identificação 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50

29

Dados de base para os cálculos:

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 1.4 – Elementos de Estatística Descritiva – Estudo de caso

Página

30

Função estatística em Excel:

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 1.5 – Elementos de Estatística Descritiva – Estudo de caso em Gráficos Inquérito a 50 pessoas recolhendo informações sobre a satisfação sobre um determinado produto: Identificação (contador de controle do inquirido, varia de 1 a 50); Sexo (M/F); Idade; Fumador (S/N); Naturalidade; Nº de Filhos; Altura; Peso; Satisfação com Produto

Página

31

Distribuição dos inquiridos por sexo:

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 1.5 – Elementos de Estatística Descritiva – Estudo de caso em Gráficos

Página

32

Fumadores e não fumadores por sexo:

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 1.5 – Elementos de Estatística Descritiva – Estudo de caso em Gráficos

Página

33

Gráfico de intervalo de classes (altura) entre Masculino/Feminino:

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 1.5 – Elementos de Estatística Descritiva – Estudo de caso em Gráficos

Sexo M F F M M M M M F F F F F F M M M M M M M M M M F F F F F F F F F F F F F F F F F F M M M M M M M M

Idade Fumador Naturalidade Nº filhos Altura Peso 25 N Lisboa 1 1,76 93 25 S Porto 0 1,77 64 26 S Lisboa 3 1,55 53 27 S Setúbal 7 1,72 83 28 N Lisboa 0 1,68 65 28 S Lisboa 1 1,78 70 28 S Évora 2 1,70 84 28 S Beja 3 1,71 94 28 N Coimbra 0 1,60 59 28 S Braga 1 1,65 71 29 N Lisboa 0 1,61 65 29 N Lisboa 1 1,72 59 30 N Lisboa 1 1,67 73 32 N Porto 1 1,58 50 32 N Lisboa 0 1,73 78 33 S Faro 2 1,85 106 34 S Coimbra 1 1,75 67 35 N Beja 0 1,69 89 35 S Portalegre 1 1,73 72 35 N Lisboa 2 1,72 80 35 S Porto 1 1,78 73 36 N Porto 0 1,82 89 37 S Lisboa 0 1,71 64 38 S Lisboa 0 1,70 66 38 S Santarém 0 1,73 78 38 S Braga 1 1,64 78 38 N Lisboa 0 1,63 72 39 N Porto 1 1,65 76 39 N Coimbra 0 1,66 58 39 N Porto 1 1,64 75 40 N Portalegre 4 1,68 76 40 S Castelo Branco 3 1,62 63 41 N Lisboa 2 1,65 52 41 N Lisboa 0 1,76 63 41 S Porto 1 1,59 71 41 N Lisboa 3 1,61 65 42 N Lisboa 0 1,67 61 42 N Coimbra 1 1,67 67 42 S Braga 0 1,65 52 42 N Bragança 0 1,58 47 43 N Lisboa 2 1,82 64 43 S Viseu 1 1,63 74 44 N Porto 0 1,73 75 45 N Santarém 0 1,75 89 45 S Coimbra 1 1,76 74 21 N Porto 0 1,77 78 32 S Porto 1 1,77 88 42 N Lisboa 0 1,75 98 33 S Leiria 0 1,71 64 33 N Braga 1 1,72 71

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

Satisfação Produto Boa Excelente Média Má Boa Boa Média Excelente Boa Boa Média Boa Péssima Boa Boa Média Má Boa Boa Boa Má Boa Boa Média Excelente Boa Média Média Boa Má Média Boa Boa Excelente Média Boa Boa Média Média Boa Média Boa Média Boa Má Excelente Boa Boa Média Boa

Página

Identificação 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50

34

Dados de base para os cálculos:

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 1.5 – Elementos de Estatística Descritiva – Estudo de caso em Gráficos

Página

35

Função Gráficos em Excel e diferentes tipos:

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 2.1 – Analise Representação e Redução de Dados Variável estatística discreta e variável estatística contínua Uma variável estatística que apenas assume valores numéricos isolados, denominase de variável discreta. Exemplos: 

Número de irmãos de um conjunto de alunos duma turma do 12o ano;



Número mensal de viagens de avião efectuadas por um executivo de uma empresa;



Número de golos marcados por uma equipa de futebol em cada jogo das 30 jornadas de um campeonato.

Quando uma varável toma qualquer valor num certo intervalo, designa-se por variável contínua. Exemplos: 

Peso dos alunos de uma escola do ensino básico;



Temperatura diária registada numa estação meteorológica;



Pressão arterial medida num grupo de 100 hipertensos.

Tabelas de frequências Uma das formas comuns de organizar os dados que estejamos a tratar, é através das tabelas de frequências, onde habitualmente figuram entre outros valores, aqueles que dizem respeito: 

Frequência absoluta simples - corresponde ao número de vezes que um determinado valor xi é observado na população ou amostra estudada, e designa-se por ni.



Frequência relativa simples - sendo ni a frequência absoluta do valor da variável xi e N a dimensão da população ou amostra estudada, designa-se por frequência relativa simples de xi o quociente, é comum a utilização das frequências relativas sob a forma de percentagem, que se obtêm calculando

𝒏𝒊 𝑵

Página

𝒇𝒊 =

36

fi x 100.

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 2.1 – Analise Representação e Redução de Dados 

Frequência absoluta acumulada - de índice i a soma das frequências absolutas correspondentes aos valores da variável desde o primeiro valor até ao de ordem i, e representa-se por Ni. Para k observações tem-se



Frequência relativa acumulada - de índice i à soma das frequências relativas correspondentes aos valores da variável desde o primeiro valor até ao de ordem i, e representa-se por Fi.

Página

37

Em termos genéricos, uma tabela de frequências será constituída da seguinte forma:

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 2.1 – Analise Representação e Redução de Dados 

Dados agrupados em classes (frequência absoluta e frequência relativa) numa distribuição com dados agrupados em classes, designa-se de frequência absoluta da classe (ni) ao número de casos que pertencem a essa classe e frequência relativa da classe (fi), ao quociente entre a frequência absoluta da classe e a dimensão da população (N). As FREQUÊNCIAS ABSOLUTAS ACUMULADAS (Ni) e as FREQUÊNCIAS RELATIVAS ACUMULADAS (Fi)

obtém-se fazendo a acumulação dos valores em cada classe

Centro de Classe - Em certos casos, torna-se necessário efectuar cálculos onde o valor central de cada classe deve ser conhecido. Esse valor central ou centro duma classe [li; li+1[ é calculado através de sendo li o extremo inferior da classe e li+1 o

Página

38

extremo superior da classe.

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 2.1 – Analise Representação e Redução de Dados Representações gráficas 

Histogramas – representação gráfica dos dados agrupados em classes, podendo ser desenhados tanto para as referências absolutas como para as ordinárias: o histograma de frequências simples e o histograma de frequências acumuladas. Como impacto visual transmitem uma importante informação relativamente à forma, à tendência central e à dispersão dos dados. Para elaboração dos histogramas é conveniente a construção prévia de tabelas de frequências.



Diagrama circular - uma representação gráfica que tem por base um círculo, que é dividido em tantos sectores circulares, quantas as classes existentes para a variável em estudo e onde os ângulos dos sectores são proporcionais às frequências das classes, após a construção da tabela de frequências.

Página

39

Exemplo: cores dos olhos dos alunos de uma turma.

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 2.1 – Analise Representação e Redução de Dados 

Diagrama de barras - representação gráfica, onde num sistema de eixos coordenados, associamos ao eixo das abcissas, marcas que representam as classes, e alinhadas com essas marcas colocamos barras verticais de altura igual ou proporcional à frequência da classe. Exemplo: para os dados anteriores aplicados ao diagrama de barras.



Diagrama de caule e folhas - este tipo de representação, pelo tipo de informação que contém, pode considerar-se como estando entre uma representação em tabela e um gráfico. Após um processo de contagem, organização e representação dos dados, obtém-se um diagrama com barras na horizontal. Em primeiro lugar deve-se traçar uma linha vertical, colocando à esquerda dessa linha o dígito (ou dígitos) da classe com maior grandeza, seguido dos restantes. Este tipo de representação é de fácil construção, sendo possível fazer a ordenação dos dados e muitas vezes também fazer a

Página

40

reconstituição da amostra.

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 2.1 – Analise Representação e Redução de Dados

Este tipo de representação de dados permite duma forma simples, destacar alguns aspectos particulares dos mesmos, como por exemplo, existência ou não de simetria, maior ou menor dispersão. 

Diagrama de extremos e quartis - ou caixa de bigodes (box-plot) é um tipo de representação gráfica também de fácil construção e que realça muito bem a informação sobre os dados. Para sua construção é necessária a obtenção de cinco medidas, valor mínimo, 1º Quartil (Q1), 2º Quartil (Q2), 3º Quartil (Q3) e valor máximo. Verifica-se que Q1 < Q2 < Q3, onde Q2 representa a

Página

41

mediana.

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 2.1 – Analise Representação e Redução de Dados Vejamos agora um exemplo do caso da representação dos dados do exemplo anterior em diagrama de extremos e quartis:

Cálculo: Determinar intervalo de quartil (Qint)



Determinar

=



Determinar

=



Determinar

=

=

Página

42



Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.1 – Características Amostrais. Medidas de Localização Estatísticas – medidas calculadas a partir dos dados e que pretendem dar informação sobre os parâmetros da população, normalmente a partir da recolha de dados dessas populações (amostras) e as suas características numéricas (parâmetros).

As medidas estatísticas que caracterizam os dados são as medidas de localização e as medidas de dispersão, estas devem ser convenientemente escolhidas, de modo a representarem o melhor possível o conjunto de dados que pretendem sumariar, de uma forma geral nenhuma é melhor que a outra, a sua utilização depende do contexto e da situação de serem calculadas e posteriormente usadas.

As medidas de localização ou tendência central são muito importantes pois permitem caracterizar uma distribuição identificando um valor que a tipifica.

Média aritmética A média aritmética de uma amostra

é a medida de localização obtida através do

quociente entre a soma de todos os valores observados nessa amostra e o número total de observações.

Página

43

Se representarmos as n observações por x1; x2; . . . ; xn virá:

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.1 – Características Amostrais. Medidas de Localização Caso os dados estejam agrupados podem ocorrer duas situações distintas:

Para dados de carácter quantitativo, a média aritmética, é uma das medidas de localização ou tendência central mais importantes. A média aritmética tem no entanto a desvantagem de não poder ser usada para dados de carácter qualitativo.

Mediana A mediana , é outra medida de localização cuja característica se traduz pela posição

Página

44

do meio que ocupa quando todos os dados estão ordenados por ordem crescente:

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS

Página

45

Tema 3.1 – Características Amostrais. Medidas de Localização

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS

Página

46

Tema 3.1 – Características Amostrais. Medidas de Localização

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.1 – Características Amostrais. Medidas de Localização Moda A moda

, define-se como sendo o valor que ocorre com maior frequência num

conjunto de dados, ou seja, uma vez conhecidas as frequências absolutas, a moda será o valor xi ao qual corresponde o maior valor de ni. Nas situações onde numa distribuição ocorrem dois valores apresentando a mesma e mais elevada frequência absoluta, diz-se que a distribuição é bimodal. Se uma distribuição estatística possui três ou mais modas, diz-se que a distribuição é plurimodal ou multimodal.

A classe modal é a classe com maior frequência ordinária, quer absoluta quer relativa.

onde li é o limite inferior da classe modal; d1 diferença entre a frequência da classe modal e a frequência da classe que lhe precede; d2 diferença entre a frequência da classe modal e a frequência da classe que lhe sucede; ai amplitude da classe modal.

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

Página

A classe modal é a classe [40; 50[.

47

Dado o histograma de frequências absolutas simples tem-se:

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.1 – Características Amostrais. Medidas de Localização Quantis São medidas de tendência central que permitem dividir uma amostra ou distribuição em partes iguais. Um caso particular dos quantis é a mediana, que permite dividir a distribuição em duas partes iguais.

Os quantis mais conhecidos são: os quartis, que dividem a distribuição em quatro partes iguais; os decis, que dividem a distribuição em dez partes iguais; os percentis, que dividem a distribuição em cem partes iguais.

O cálculo destes quantis e similar ao cálculo da mediana, uma vez que também subdividem a distribuição de medidas de acordo com a proporção das frequências observadas.

De um modo geral, para os restantes quantis, na expressão anterior em vez de aparece

e

para o 1º e 3º quartis,

e

para o 1º decil e 2º decil e assim

sucessivamente, sendo os Faci e F’aci as repetidas frequências acumuladas no limite

Página

48

inferior da respectiva classe e no limite superior da respectiva classe.

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.2 – Medidas de Localização - média A média - é a medida de localização do centro da amostra mais utilizada, e obtém-se somando os elementos da amostra e dividindo o resultado da soma pelo número desses elementos.

Em dados agrupados a média será calculada, segundo: 

Os dados serem discretos e as diferentes classes são os diferentes valores que surgem da amostra



Os dados serem discretos ou contínuos e as classes são intervalos, aqui obtém-se apenas um valor aproximado

Ao calcular a média a partir de dados agrupados, em que as classes são intervalos, não se obtém o verdadeiro valor da, média, mas sim um valor aproximado, para se

Página

49

obter o valor exacto terão de se considerar os dados originalmente recolhidos.

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS

Página

50

Tema 3.2 – Medidas de Localização - média

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.2 – Medidas de Localização - média A média é uma boa indicação do centro da amostra quando a distribuição dos dados for aproximadamente simétrica (o histograma tem aproximadamente a forma de um sino).

A Distribuição Normal, uma das mais importantes, surge mais frequentemente, esquematicamente:

No histograma do lado esquerdo temos uma figura simétrica, o centro está bem definido, já no do centro existe um enviesamento para a direita desloca a média para a direita e no da direita o deslocamento é para a esquerda.

A média goza de uma particularidade interessante e que consiste no seguinte, se calcularmos os desvios de todas as observações relativamente à média e somarmos esses desvios o resultado obtido é igual a zero.

Exemplo: Numa festa foram distribuídos, atirando para o ar berlindes, quem mais corria mais apanhava, efectuou-se seguidamente à contagem de berlindes por

Página

A média apurada foi de 5,5 berlindes/criança.

51

criança:

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.2 – Medidas de Localização - média Calculando os desvios relativamente à média temos:

O resultado anterior verifica-se porque a soma dos desvios positivos é igual à soma dos desvios negativos, graficamente:

Com dados de tipo qualitativo não tem sentido calcular a média, mesmo que os

Página

52

dados sejam números.

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.3 – Medidas de Localização – mediana, quartis e moda A mediana - é a medida do centro da distribuição dos dados e que surge intuitivamente como um valor que divide a amostra ao meio, metade dos elementos são menores ou iguais à mediana, enquanto que os restantes são superiores ou iguais.

A sua determinação faz-se partindo da amostra ordenada, onde se pode verificar: 

Se o número de observações n é impar, a mediana é o elemento médio.



Se o número de observações n é par, qualquer valor entre os dois elementos médios pode ser a mediana (semi-soma dos dois elementos médios).

Cálculo da mediana quando n é impar, 

:

Se este quociente for um número inteiro (n impar), toma-se por mediana essa posição.



Se este quociente terminar em 0,5, considera-se a sua parte inteira e faz-se a semi-soma do elemento a que correspondente essa ordem, com o elemento

Página

53

seguinte.

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.3 – Medidas de Localização – mediana, quartis e moda Dado um histograma é fácil de obter a posição da mediana, pois esta está na posição em que passando uma linha vertical por esses pontos o histograma fica dividido em duas partes com áreas iguais.

Como medida de localização, a mediana é mais resistente do que a média, pois não é tão sensível aos dados.

Como a média é influenciada por valores muito grandes, ou por valores muito pequenos, pode haver enviesamento na sua distribuição, para a direita se os valores forem grandes (a média tende a ser maior que a mediana), para a esquerda se os

Página

54

valores forem pequenos (a média tende a ser inferior à mediana).

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.3 – Medidas de Localização – mediana, quartis e moda Para dados de tipo qualitativo pode-se calcular a mediana desde que esteja subjacente uma hierarquia nas diferentes classes ou modalidades que a variável assumir.

Página

55

Caso:

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.3 – Medidas de Localização – mediana, quartis e moda Quartis – medidas de localização de alguns pontos de interesse sem ser o centro da distribuição de dados. A melhor metodologia para os calcular é: 

Ordenar as observações e calcular a mediana m



O 1º quartil é a mediana das observações que ficam para a esquerda de m



O 3º quartil é a mediana das observações que ficam para a direita de m

Página

56

Dada a seguinte amostra:

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.3 – Medidas de Localização – mediana, quartis e moda

Moda – valor que surge com mais frequência num conjunto de dados, se estes são discretos, ou a classe com maior frequência se os dados são contínuos ou estão agrupados.

Não sendo propriamente uma medida de localização, a única medida que é susceptível de ser calculada para os dados qualitativos, em que não se pode estabelecer uma hierarquia entre as diferentes modalidades ou classes que a variável possa assumir.

Para o caso de uma virose detectada num centro médico de uma dada região, recolheu-se de uma amostra de 35 pessoas, o dado idade, tendo sido apurada uma média de idade de 32 anos, distribuindo a mostra por um diagrama de caule-defolhas, apurou-se uma distribuição de dados que contraria as possíveis conclusões a

Página

57

retirar se se considerasse a média de idades.

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.3 – Medidas de Localização – mediana, quartis e moda Segundo o diagrama de caule-de-folhas a amostra apresenta a seguinte distribuição:

Efectivamente para este tipo de dados é enganador quer a medida de distribuição quer a medida de localização do centro de distribuição.

O que se verifica pela leitura do diagrama é que as ocorrências se situam em duas faixas etárias, de 1 a 8 anos de idade e de 68 aos 80 anos, de onde se conclui que o

Página

58

vírus ataca crianças e pessoas da 3ª idade.

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.4– Medidas de Dispersão ou Variabilidade Permitem avaliar o grau de variabilidade dos valores de uma distribuição. Amplitude total Normalmente denotada por R (range) é o valor da diferença entre o maior e o menor valor observados. No caso de dados agrupados a amplitude total será dada pela diferença entre o limite superior da classe mais alta e o limite inferior da classe mais baixa. Considera apenas os valores extremos da distribuição No que respeita aos valores intermédios não dá qualquer informação. R = valor máximo - valor mínimo

Amplitude inter-quartil É considerada uma medida resistente uma vez que é definida a partir de medidas resistentes, ou seja os quartis, é utilizada na construção do diagrama de extremos e quartis, fornece-nos informação acerca da amplitude do intervalo onde se encontram 50% das observações centrais. Amplitude inter-quartil = 3º Quartil – 1º Quartil

Observações: 

Quanto mais variabilidade houver entre os dados, maior será a amplitude

No caso de não haver variabilidade, ou seja todas as observações serem iguais, a amplitude inter-quartil terá valor nulo.

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

Página



59

inter-quartil.

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.4– Medidas de Dispersão ou Variabilidade

Variância Esta é uma importante medida de variabilidade que permite medir o grau de dispersão dos dados em relação à média. Considere-se x1; x2; . . . ; xn as n observações de uma distribuição estatística, de média

e seja di o desvio entre o valor xi e , ou seja di = xi -

. Então, dado que a

soma dos desvios é igual a zero, considera-se os quadrados dos desvios.

A variância s2 é a média dos quadrados dos desvios e fornece-nos a informação de quão distantes se encontram os dados relativamente à média.

Em algumas situações nomeadamente quando se faz inferência da amostra para a população utiliza-se a fórmula, que corresponde à variância corrigida, ou estimador

Página

60

não enviesado da variância:

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.4– Medidas de Dispersão ou Variabilidade Nesta fórmula o denominador n é substituído por n-1 sendo que para um número de dados suficientemente grande os resultados são muito próximos.

Desvio padrão É uma medida que permite avaliar o grau de dispersão dos valores da variável em relação à média, com a vantagem de que, contrariamente à variância, o desvio padrão aparece sempre nas mesmas unidades dos valores da variável. O desvio padrão s é simplesmente a raiz quadrada da variância s2 , esta é a medida de dispersão mais utilizada, uma vez que oferece simultaneamente o uso de todos os valores da variável envolvida e ao mesmo tempo é expressa nas mesmas unidades..

A expressão anterior pode aparecer sob outras formas, por exemplo para dados agrupados se recorremos às frequências absolutas dos k valores diferentes da variável.

Tal como vimos para o caso da variância, também poderemos ter necessidade de recorrer ao desvio padrão corrigido, nomeadamente no âmbito do Cálculo de Probabilidades ou em estudos de Inferência Estatística. Nessa situação recorremos a:

Propriedades do desvio padrão: 

O desvio padrão é sempre não negativo e será tanto maior quanto mais



Caso não haja variabilidade, o valor do desvio padrão é nulo.



Se o desvio padrão for nulo, então não existe variabilidade, e nesse caso os

Página

dados são todos iguais.

61

variabilidade houver entre os dados.

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.4– Medidas de Dispersão ou Variabilidade 

À semelhança da média, também o desvio padrão é uma medida pouco resistente, pois é muito influenciável por valores que sejam muito diferentes

Página

62

dos restantes, quer seja por excesso quer por defeito.

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS

Página

63

Tema 3.4– Medidas de Dispersão ou Variabilidade

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.4– Medidas de Dispersão ou Variabilidade Propriedades algébricas da média e do desvio padrão As propriedades que seguem pretendem ilustrar o que acontece se todas as

Página

64

observações de uma série estatística forem acrescidas na mesma quantidade.

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS

Página

65

Tema 3.4– Medidas de Dispersão ou Variabilidade

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.5 – Estudos de caso – Medidas de localização e dispersão Inquérito a 50 pessoas recolhendo informações sobre a satisfação sobre um determinado produto: Identificação (contador de controle do inquirido, varia de 1 a 50); Sexo (M/F); Idade; Fumador (S/N); Naturalidade; Nº de Filhos; Altura; Peso; Satisfação com Produto. Variáveis: 

Identificação (contador de controle do inquirido, varia de 1 a 50)



Sexo (M/F)



Idade



Fumador (S/N)



Naturalidade



Nº de Filhos



Altura



Peso



Satisfação com Produto

Página

66

Primeiro passo será a caracterização das variáveis:

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.5 – Estudos de caso – Medidas de localização e dispersão Variáveis nominais – o único valor possível de calcular para medidas de localização é a MODA, o valor da variável que tem maior frequência, na variável Sexo, que quer na frequência absoluta ni quer na frequência relativa fi, correspondendo os valores mais elevados os do sexo feminino.

Em variáveis do tipo da Naturalidade onde existem variadas hipóteses, teria de se observar qual a que possui os valores de frequência absoluta ni e relativa fi mais elevados, da amostra apresentada é Lisboa.

As medidas possíveis de observar dado que este tipo de variáveis não reúne as

Página

67

características que permitam efectuar cálculos.

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.5 – Estudos de caso – Medidas de localização e dispersão Varáveis qualitativas ordinais – temos as variáveis ordenadas por uma ordem gradativa como é o caso da satisfação do produto, onde os valores possuem uma ordem bem definida, o que já nos permite calcular medidas de localização (médias e desvios padrão), assim temos para a:

Para este tipo de variáveis apena contam os valores simples. Graficamente observa-se:



MODA – calculada a partir do valor mas elevado das frequências absoluta ni = 25 e relativa fi = 50%, assim a moda será a variável Boa.



MEDIANA – valor da variável que tem 50% inferiores ao valor absoluto e 50% superior a esse valor, usam-se agora as frequências relativas acumuladas, procurando o valor a que corresponde 50% + 1, é a Fi = 90%, correspondendo a mediana à variável Boa.



QUARTIL – divide a distribuição em 4 partes iguais, para percentagens em parcelas de 25%, logo o 1º quartil vai até aos 25% inferiores ao valor, e 75%

contida entre variável Má = 12% e a variável Média = 40%.

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

Página

(Q1) ficará então na variável que contem os 25%, a Média (40%) que está

68

superiores, tomando como base a frequência relativa acumulada. O 1º quartil

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.5 – Estudos de caso – Medidas de localização e dispersão

O 3º quartil (Q3) a variável onde estão contidos os 75%, logo estará entre a variável Média = 40% e a variável Boa = 90%, o Q# será então Boa. 

PERCENTIL - divide a distribuição em 100 partes iguais, correspondendo o P10 (referente a 10% de valores inferiores e 90% de valores superiores); P50 (referente a 50%); P90 (referente a 90%). Para P10 (10%), estará localizado entre a variável Péssima = 2% e Má = 12%, logo P10 será Má. Para P90 corresponde exactamente à variável Boa = 90%, que coincide com o limite superior do intervalo.

Página

69

Resumindo para os cálculos destas variáveis teríamos:

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.5 – Estudos de caso – Medidas de localização e dispersão Variáveis quantitativas – dados não agrupados, sejam do tipo contínuo ou discreto. Formulário utilizado, neste grupo de cálculos, para amostra de dimensão n:

Partindo da base de cálculo número de filhos, em primeiro ligar obter o somatório da amostra sobre os 50 inquiridos, que dá um total de 51 filhos.

Cálculos possíveis para este tipo de variável quantitativa discreta, para todos estes cálculos já se poderão aplicar as funcionalidades existentes no Excel: 

MODA – valor mais elevado da frequência absoluta, neste caso Moda = 0 (21 pessoas sem filhos).



MÉDIA – obtida a partir da soma dos valores a dividir pela dimensão da amostra

=

= 1,02, em Excel usaríamos

,a

Média = 1,02. 

MEDIANA – recorre-se à frequência relativa acumulada, procuramos os 50%, que se encontra no intervalo de 0 (42%) e 1 (78%), considerando o valor da variável que contem os 50%, a Mediana = 1. Em Excel



.

QUARTIS – apurado através da frequência relativa acumulada, para o mesmo tipo de raciocínio Q1 localiza-se o valor que contem os 25% e Q3 localiza-se o

Página

onde estão contidos os 25% e para Q3 a variável que contem os 75%,

70

valor que contem os 75%. Para os dados apurados teremos Q1 a variável

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.5 – Estudos de caso – Medidas de localização e dispersão respectivamente Q1 = 0 e Q3 = 1. Em Excel respectivamente Q1 e Q3 

.

PERCENTIL – dado que se divide a distribuição em 100 partes iguais, correspondendo o P10 (referente a 10% de valores inferiores e 90% de valores superiores); P90 (referente a 90%). Para a nossa amostra P10 corresponde à variável onde estão contidos os 10% e P90 a variável onde estão contidos os 90%. Respectivamente P10 = 0 e P90 = 3, dado que os 10% se encontram dentro da variável 0 (42%) e os 90% na variável 3 (96%). Em Excel,

P10

,

para

P90

.

Para os restantes cálculos seguir-se-á o formulário abaixo: Para a totalidade da população, dimensão N



Para a penas uma amostra, dimensão n ou n-1

Página

71



Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.5 – Estudos de caso – Medidas de localização e dispersão Cálculo de: 

VARANCIA – é calculado fazendo para cada variável, a variável menos o valor da média elevada ao quadrado

, a soma de todos os elementos de

verá ser dividida por N quando em presença da totalidade da população e por n-1 quando se está presente perante uma amostra que é o nossa base de trabalho. Em Excel os cálculos processar-se-ão por fases: 1. Calcular xi-média para cada elemento da amostra;

2. Elevar o valor calculado ao quadrado

(xi-media)^2 para cada elemento da amostra;

3. Efectuar a soma de todos os

elementos calculados em (2.) e dividir pela amostra menos 1, n-1. Em Excel . 

DESVIO PADRÃO – é calculado pela raiz quadrada do valor obtido no cálculo da variância. Para a totalidade da população amostra populacional

. Em Excel

Cálculo Manual Moda Média Mediana Q1 Q3 P10 P90 Desvio Padrão Variância

0 1,02 1 0 1 0 3 1,332329554 1,775102041

para uma .

Cálculo com Excel 21 50%

0 1,02 1 0 1 0 3 1,332329554 1,775102041

Da análise dos números calculados se podem fazer várias análises como verificar se existe assimetria entre a MÉDIA e a MEDIANA, bem como para os QUARTIS, que se são idênticos, apresenta-se uma grande concentração nos valores da MÉDIA e da MEDIANA.

encontrar-se-ão longe da média, havendo uma maior dispersão entre os valores recolhidos. Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

Página

torno da média existe entre a informação recolhida, se for o contrário os valores

72

Em relação ao DESVIO PADRÃO, quanto menor este for, maior concentração em

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.5 – Estudos de caso – Medidas de localização e dispersão Cálculos para dados agrupados em classes (de valores), caso considerado o dos dados referentes à altura.

O conjunto dos cálculos baseia-se no formulário seguinte:



MÉDIA – para apurar a média há que iniciar pelo cálculo do centro da classe que se obtém multiplicando a frequência absoluta de cada classe pelo seu centro, cuja soma será dividida por n. Assim: 1. Inicia-se pelo cálculo do centro da classe (Ci) que é efectuado pela média entre o limite inferior (1,55) e o limite superior (1,60), caso da primeira classe,

= 1,75 o que

determina um valor de 0,25, que se verifica nos restantes elementos das

Página

73

classes.

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.5 – Estudos de caso – Medidas de localização e dispersão 2. Efectuam-se seguidamente cálculos com a frequência absoluta (ni) vezes o Centro da Classe (Ci), para todas as classes, que somado constitui o numerador para a nossa fórmula de cálculo da média de classes, que será depois dividido pelo numero de elementos da amostra (50), obtendo o valor para a Média = 85,2/50 = 1,704:



VARIÂNCIA – para este cálculo há que saber se se trata da totalidade da população N ou apenas possuímos a amostra n-1. Ao cálculos a efectuar pela aplicação da fórmula, fazem-se apurando o valor da diferença entre o Centro da Classe e a Média (apurada anteriormente), elevando-a ao quadrado

e

finalmente multiplicando-a pela frequência absoluta de cada classe ni, ou seja, ni

os valores apurados para cada elemento da classe, serão somados e

divididos por n-1 (49), calculando-se assim a Variância, 0,24545 / 49 que será

Página

74

igual a 0,005009.

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.5 – Estudos de caso – Medidas de localização e dispersão 

DESVIO PADRÃO – obtém-se pela raiz quadrada da variância, √

=

0,070776

A conclusão que se pode tirar dos cálculos sobre os dados agregados, é de que existe um desvio médio padrão de 0,07 cm, logo a maior concentração estará à volta da média 1,70 cm 

0,07 cm.

CLASSE MODAL – calculada simplesmente, passa por ver a Classe que tem a frequência absoluta mais elevada, seria o intervalo que corresponde ao valor da média (1,704) e o seu valor superior ([1.70, 1.75[).



CLASSE MEDIANA – calcula-se a partir da frequência relativa acumulada, verificando onde são ultrapassados os 50%, o que se verifica na mesma classe, sendo a classe mediana sempre aproximada da classe modal



MEDIANA – para os dados agrupados é calculada a partir da expressão, . Aplicando a fórmula, ao limite inferior (li=1,70) mais

(50/2=25) menos a frequência acumulada até à classe

inferior da classe mediana (Fácil=23), sobre a frequência acumulada da classe mediana (Face=36) menos a frequência acumulada da classe mediana até à classe inferior (Fácil=23) vezes a amplitude da classe (ai=0,05), isto é, a diferença ente 1,70 e 1,75, apura-se como valor para a Mediana = 1,7076.

Conclui-se então que média e mediana são idênticas, numa distribuição simétrica à

Página

75

volta da média.

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.5 – Estudos de caso – Medidas de localização e dispersão 

QI (1º quartil) – para o calcular temos que a classe do 1º quartil, ou seja a classe compreendida nos 25%, será [1.65,1.70[, usando a mesma fórmula anteriormente

usada

para

calcular

a

mediana

, com a diferença de que como se trata de quartis se aplica

no lugar de

, calculando o

teríamos, limite inferior

(li=1,65), mais (50/4=12,5), menos a frequência acumulada até à classe inferior da classe mediana (F’aci=23), sobre a frequência acumulada da classe mediana (Faci=12) menos a frequência acumulada da classe mediana até à classe inferior (F’aci=23) vezes a amplitude da classe (ai=0,05), isto é, a diferença ente 1,65 e 1,70, apura-se como valor para o 1º quartil (Q1) = 1,6502

Concluindo, sempre que for possível calcular qualquer destas medidas, não recorrendo a dados agrupados fazendo a análise da tabela de frequências simples com a totalidade dos dados, tal como se calculou para as variáveis discretas (dados desagregados) será o método mais correcto e que fornecerá os dados mais próximos da realidade analisada, os dados agregados constituem uma solução que obriga ao recurso à tabela de frequências de classe, obtendo-se apenas valores estimativos e

Página

76

aproximados.

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.5 – Estudos de caso – Medidas de localização e dispersão

Sexo M F F M M M M M F F F F F F M M M M M M M M M M F F F F F F F F F F F F F F F F F F M M M M M M M M

Idade Fumador Naturalidade Nº filhos Altura Peso 25 N Lisboa 1 1,76 93 25 S Porto 0 1,77 64 26 S Lisboa 3 1,55 53 27 S Setúbal 7 1,72 83 28 N Lisboa 0 1,68 65 28 S Lisboa 1 1,78 70 28 S Évora 2 1,70 84 28 S Beja 3 1,71 94 28 N Coimbra 0 1,60 59 28 S Braga 1 1,65 71 29 N Lisboa 0 1,61 65 29 N Lisboa 1 1,72 59 30 N Lisboa 1 1,67 73 32 N Porto 1 1,58 50 32 N Lisboa 0 1,73 78 33 S Faro 2 1,85 106 34 S Coimbra 1 1,75 67 35 N Beja 0 1,69 89 35 S Portalegre 1 1,73 72 35 N Lisboa 2 1,72 80 35 S Porto 1 1,78 73 36 N Porto 0 1,82 89 37 S Lisboa 0 1,71 64 38 S Lisboa 0 1,70 66 38 S Santarém 0 1,73 78 38 S Braga 1 1,64 78 38 N Lisboa 0 1,63 72 39 N Porto 1 1,65 76 39 N Coimbra 0 1,66 58 39 N Porto 1 1,64 75 40 N Portalegre 4 1,68 76 40 S Castelo Branco 3 1,62 63 41 N Lisboa 2 1,65 52 41 N Lisboa 0 1,76 63 41 S Porto 1 1,59 71 41 N Lisboa 3 1,61 65 42 N Lisboa 0 1,67 61 42 N Coimbra 1 1,67 67 42 S Braga 0 1,65 52 42 N Bragança 0 1,58 47 43 N Lisboa 2 1,82 64 43 S Viseu 1 1,63 74 44 N Porto 0 1,73 75 45 N Santarém 0 1,75 89 45 S Coimbra 1 1,76 74 21 N Porto 0 1,77 78 32 S Porto 1 1,77 88 42 N Lisboa 0 1,75 98 33 S Leiria 0 1,71 64 33 N Braga 1 1,72 71

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

Satisfação Produto Boa Excelente Média Má Boa Boa Média Excelente Boa Boa Média Boa Péssima Boa Boa Média Má Boa Boa Boa Má Boa Boa Média Excelente Boa Média Média Boa Má Média Boa Boa Excelente Média Boa Boa Média Média Boa Média Boa Média Boa Má Excelente Boa Boa Média Boa

Página

Identificação 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50

77

Dados de base para os cálculos:

ESTATÍSTICA PARA AS CIÊCIAS SOCIAIS Tema 3.5 – Estudos de caso – Medidas de localização e dispersão

Página

78

Acesso às funções estatísticas do Excel:

Ciências da Informação e Documentação Aluno nº 903287 – Luis Alberto Gomes Panão

Lihat lebih banyak...

Comentários

Copyright © 2017 DADOSPDF Inc.