Estadistica Avanzadadiapo1

Share Embed


Descrição do Produto

Estadística Comercial Avanzada Inferencia Estadística Prof. Ricardo Subiabre S.

Introducción •

La inferencia estadística consiste en tomar datos de inferencia y concluir sobre estos datos para la población. En otras palabras, sacar conclusiones de una muestra sobre la realidad de la población.



La Estadística Inferencial se divide en algunas grandes áreas: Estimación, Pruebas de hipótesis, Modelación y Proyecciones. Para aplicar las metodologías más adecuadas al problema de interés en cada área, se puede optar por la Estadística Paramétrica o la Estadística No-Paramétrica.



Población:



Es el conjunto de todos los individuos bajo estudio, todos aquellos respecto de los cuales se quiere concluir, a los cuales se desea aplicar las conclusiones. Cuando se obtiene información proveniente de la totalidad de la Población, estamos frente a un censo.



Subconjunto de la Población que es analizado o medido.



Muestra:



Una Muestra representativa es un Subconjunto de la Población que la representa, de modo que las conclusiones obtenidas de la muestra se pueden extrapolar a la Población total.



Existen dos tipos de muestreo, el no probabilístico y el probabilístico.



El primero consiste en la elección por métodos no aleatorios de una muestra cuyas características sean similares a las de la población objetivo. En este tipo de muestreos la “representatividad" la determina el investigador de modo subjetivo, siendo este el mayor inconveniente del método ya que no podemos cuantificar la representatividad de la muestra. Salvo en situaciones muy concretas en la que los errores cometidos no son grandes, debido a la homogeneidad de la población.



En general, no es un tipo de muestreo riguroso y científico, dado que no todos los elementos de la población pueden formar parte de la muestra, presenta casi siempre sesgos y por tanto debe aplicarse únicamente cuando no existe alternativa.



En el muestreo probabilístico, en cambio, todos los individuos de la población pueden formar parte de la muestra, tienen probabilidad positiva de formar parte de la muestra. Por lo tanto es el tipo de muestreo que deberemos utilizar en nuestras investigaciones por ser riguroso y científico. Con este criterio de selección, se puede describir matemáticamente que tan objetivas son las estimaciones y la inferencia que se realiza con la muestra.



En el contexto de muestreo probabilístico, dependiendo del tipo de Población y de los objetivos del estudio, existen varias posibilidades de obtención de una muestra: 1.

Muestreo sistemático.

2.

Muestreo estratificado.

3.

Muestreo de racimo.

4.

Muestreo aleatorio simple.

Muestreo Sistemático



En el muestreo sistemático, los elementos son seleccionados de la población dentro de un intervalo uniforme que se mide con respecto al tiempo, al orden o al espacio. Si se tuviera que entrevistar a cada vigésimo estudiante de una universidad, escogerá un punto de inicio aleatorio entre los primeros 20 nombres del directorio estudiantil y luego se seleccionará cada veintavo nombre de ahí en adelante.



En resumen, se elige el primer individuo al azar y el resto viene condicionado por aquel. Este método es muy simple de aplicar en la práctica y tiene la ventaja de que no hace falta disponer de un marco de encuesta elaborado. Puede aplicarse en la mayoría de las situaciones.



Una precaución que debe tenerse en cuenta es comprobar que la característica que estudiamos no tenga una periodicidad que coincida con la del muestreo (por ejemplo elegir un día de la semana para tomar muestras en un matadero, ya que muchos ganaderos suelen sacrificar un día determinado).



Otro problema del muestreo sistemático es que cada muestra no tiene una probabilidad igual de ser seleccionada. Suponga que hay 100 empleados en una compañía y se desea entrevistar una muestra de 10 de ellos seleccionando cada décimo número. Si se hubiera seleccionado en forma aleatoria el valor inicial 5, entonces las muestras estaría compuestas por el valor empleado numerado con el 5, 15, 25, 35, etc. entonces, por ejemplo, los empleados numerados con 6, 7, 8 y 9 no tendrían ninguna probabilidad de ser seleccionado juntos, con lo cual no todas las muestras posibles tienen la misma probabilidad de ocurrencia.

𝑁



Para realizar el muestreo, se calcula el valor 𝐾 = 𝑛 y se escoge al azar una de los primeros K individuos en la lista. A este número le llamamos 𝑋0 . Esta elección determina la muestra completa, la cual constará de los individuos numerados:



𝑋0 , 𝑋0 + 𝐾, 𝑋0 + 2𝐾, 𝑋0 + 3𝐾, … , 𝑋0 + (𝑛 − 1)𝐾.



Los estimadores de la media y proporción poblacional corresponden a la media y proporción muestral.

Muestreo Estratificado



Es frecuente que cuando se realiza un estudio interese estudiar una serie de sub-poblaciones (estratos) en la población, siendo importante que en la muestra haya representación de todos y cada uno de los estratos considerados. El muestreo aleatorio simple no nos garantiza que tal cosa ocurra. Para evitar esto, se saca una muestra de cada uno de los estratos.



El muestreo estratificado tiene interés cuando la característica en cuestión puede estar relacionada con la variable que queremos estudiar.



Por ejemplo. Cuando se realiza un muestreo cuya unidad sean las granjas, la estratificación se aplica frecuentemente en relación al tamaño de granja o a la aptitud de los animales, ya que muchas enfermedades presentan prevalencias diferentes en función del tamaño de la granja o a si se trata por ejemplo de razas de aptitud lechera o cárnica. Si la unidad son los animales, se suele estratificar en función de la edad ya que ésta suele influir en muchas enfermedades.



Para utilizar el muestreo estratificado, se divide a la población en grupos relativamente homogéneos, llamados estratos. Después se utiliza uno de los siguientes planteamientos:

1.

Se selecciona en forma aleatoria elementos de cada estrato. La cantidad de elementos seleccionados sería proporcional al tamaño del estrato en la población, es decir que el estrato representa en la muestra el mismo tamaño proporcional que representa en la población.

2.

Se seleccionan en forma aleatoria igual cantidad de elementos en cada estrato y luego se ponderan los resultados según la importancia relativa de cada estrato en la población total.

3.

La ventaja de este procedimiento de muestreo, es que si es diseñado correctamente, representa mejor las características de la población de referencia que los otros procedimientos.



Sea N el tamaño de la Población y n el tamaño de la muestra, entonces:



𝑁 = 𝑁1 + … + 𝑁𝑘 , donde 𝑁𝑖 es el tamaño del estarto i-ésimo en la Población.



𝑛 = 𝑛1 + … + 𝑛𝑘 , donde 𝑛𝑖 es el número de individuos del Estrato iésimo en la muestra



Los estimadores de la media y la proporción poblacional son, respectivamente, la media y la proporción muestral ponderada, la cual corresponde también a la media y proporción muestral debido al muestreo proporcional realizado dentro de cada estrato.

Muestreo de Racimo o Conglomerado •

Se divide la población en varios grupos de características parecidas entre ellos y luego se analizan completamente algunos de los grupos, descartando los demás. Dentro de cada conglomerado existe una variación importante, pero los distintos conglomerados son parecidos. Requiere una muestra más grande, pero suele simplificar la recogida de muestras. Frecuentemente los conglomerados se aplican a zonas geográficas.



Estos grupos de la población, llamados CONGLOMERADOS, son homogéneos entre ellos, pero los individuos dentro de cada Conglomerado son heterogéneos.



Para recolectar la información se escogen algunos Conglomerados al azar del total de ellos y luego se realiza un m.a.s. dentro de ellos (o bien un censo).



Mientras que en el muestreo aleatorio estratificado cada estrato presenta cierta homogeneidad, un conglomerado o racimo se considera una agrupación de elementos que presentan características similares a toda la población.



La ventaja de este procedimiento de muestreo es que si es diseñado correctamente, puede representar la población muy bien a un costo menor que el de otros procedimientos.

Muestreo Aleatorio Simple (MAS)



Este método se aplica cuando los individuos en la Población no presentan agrupamiento respecto de algún atributo relevante para el estudio. La información es seleccionada mediante un sorteo.



El muestreo aleatorio simple (m.a.) selecciona muestras mediante métodos que permiten que cada posible muestra tenga igual probabilidad de ser seleccionada y que cada elemento de la población tenga una oportunidad igual de ser incluida en la muestra. Ilustremos esta idea con un ejemplo:



Suponga que tenemos 4 alumnos {A, B, C, D}, y se quieren tomar muestras de a dos, vemos que hay 6 posibles muestras de los 4 elementos de la población tomados de a 2,



MUESTRA Alumnos Muestra 1 AB Muestra 2 AC Muestra 3 AD Muestra 4 BC Muestra 5 BD Muestra 6 CD Luego, si asignamos la probabilidad 1/6 a cada una de las muestras, entonces estamos ante una m.a. Además, asignando igual probabilidad a cada muestra queda determinada la probabilidad de que cada elemento en la población sea seleccionado.



En particular, la probabilidad que un elemento sea seleccionado es igual para todos, e igual a:



𝑃 𝐴 = 𝑃 𝐴𝐵 + 𝑃 𝐴𝐶 + 𝑃 𝐴𝐷 = 3 ∙

=

1 2



𝑃 𝐵 = 𝑃 𝐴𝐵 + 𝑃 𝐵𝐶 + 𝑃(𝐵𝐷) = 3 ∙ =

1 6

1 2



𝑃 𝐶 = 𝑃 𝐴𝐶 + 𝑃 𝐵𝐶 + 𝑃 𝐶𝐷

1 6

1 2



𝑃 𝐷 = 𝑃 𝐴𝐷 + 𝑃 𝐵𝐷 + 𝑃(𝐶𝐷) = 3 ∙



Los estimadores de la media, varianza y proporción poblacional son, respectivamente, la media, varianza y proporción muestral.

1 6

= 3∙ = 1 6

=

1 2

Muetreo Multietápico M.M.



Se utiliza cuando el muestreo requiere varias etapas para acercarse a los individuos y en cada una de estas etapas se utiliza un método de muestreo que puede ser diferente en cada ocasión.



Desde ahora y en adelante cuando se diga que se ha seleccionado una o más muestras de una población se tomará en referencia el muestreo aleatorio simple. Esto es necesario porque los principios del muestreo aleatorio simple son la base de la inferencia estadística (al menos para este curso), es decir, del proceso de hacer inferencia acerca de poblaciones a partir de información contenida en la muestra.



Estadística o Estadígrafo: Es una función cualquiera de los datos que componen nuestra muestra aleatoria. Se denota habitualmente por 𝑇(𝑿) donde 𝑿 = (𝑥1 ; 𝑥2 ; 𝑥3 ; … ; 𝑥𝑛 ) es el vector que contiene a la muestra de tamaño n.



Ejemplos:



Sean 𝐗 = (𝑥1 , 𝑥2 , 𝑥3 , … , 𝑥𝑛 ) siguientes estadígrafos:





𝑇1 𝑿 =

𝑇2 𝑿 =

𝑛 𝑖=1 𝑥𝑖

𝑛 𝑛 𝑖=1

m. a. , se pueden definir los

, 𝑙𝑎 𝑚𝑒𝑑𝑖𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙.

𝑥𝑖 −𝑥 2

𝑛−1

,

𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙.



(Podemos inventar lo que queramos): 𝑇3 𝑿 =

𝑛 𝑖=1 𝑙𝑔

𝑥𝑖2



Parámetro: Es un valor que resume algunas características de la población.



Ejemplo:



Tales como media "𝜇" , varianza "𝜎 2 ", proporción "𝜌" etc… denotamos los parámetros con la letra "𝜃".



Espacio Paramétrico: es el conjunto de todos los valores posibles que puede tomar el parámetro "𝜃". Lo denotamos por "𝛩".



Ejemplo:



𝑆𝑖 𝑥~𝐸𝑥𝑝 𝜆 → 𝜃 = 𝜆 → 𝛩 = (0, ∞)



𝑆𝑖 𝑥~𝑁 𝜇, 𝜎 2 → 𝜃 = 𝜇, 𝜎 2 → 𝛩 = ℝ × (0, ∞)



Estimador de un Parámetro: Un estimador de un parámetro 𝜃(𝜃) nos muestra cómo utilizar los datos de la muestra para estimar el valor verdadero (parámetro poblacional).



La inferencia estadística intenta obtener conclusiones sobre los parámetros poblacionales utilizando una muestra de datos, esta se divide básicamente en dos áreas: •

Estimación Puntual.



Test de Hipótesis.



En general, si se tiene una v.a. X con f.d.p. dada por 𝑓𝑋 (𝑥) que está caracterizada por un parámetro 𝜃 y se obtiene una muestra 𝑥1 , 𝑥2 , 𝑥,3 … , 𝑥𝑛 . Entonces la estimación del parámetro 𝜃, denotada por 𝜃 = ℎ 𝑥1 , … , 𝑥𝑛 será una función de la muestra aleatoria. Luego 𝜃 es una v.a. por ser función de v. a. (una función de v. a. es una v. a.) luego tiene asociada una esperanza, una varianza, etc…

Propiedades de los Estimadores.



Estimadores y Estadísticos



El investigador o experimentador usa información de una muestra 𝑋1 , … , 𝑋𝑛 para hacer inferencia sobre un parámetro desconocido de la población 𝜃. Generalmente el investigador resume la información de la muestra mediante estadísticos, 𝑇(𝑿). Estos son funciones los datos para resumir su información. Luego un estimador de 𝜃, 𝜃 es un estadístico con rango en el espacio paramétrico "𝛩".



En la siguiente tabla aparecen algunos parámetros y sus estimadores habituales: Parámetro 𝜇

𝜎2

Estimador 𝑋= 𝑆2 = 𝜎 2 =

𝑛 𝑖=1 𝑥𝑖

𝑛 𝑛 𝑖=1

𝑥𝑖 − 𝑥 𝑛−1

2



Propiedades de los Estimadores



Es posible obtener muchos estimadores para un mismo parámetro, pero hay que decidir cuáles son buenos y cuáles son los mejores. Ahora, desde qué perspectiva uno decide que un estimador es mejor que otro. Vamos a ver varias perspectiva o propiedades para determinar si un estimador mejor que otro. Estas propiedades son las siguientes: • Insesgamiento. • Suficiencia. • Consistencia. • Estimadores de Varianza Mínima.

Insesgamiento



Sesgo de un parámetro estimado.



Se dice que 𝜃 es la estimación 𝜃 → 𝜃 si: 𝑠𝑒𝑠𝑔𝑜 𝜃 = 𝐸 𝜃 − 𝜃.



Insesgamiento



La estimación de un parámetro 𝜃 es insesgada si 𝐸 𝜃 = 𝜃, “propiedad deseable” luego, definiremos el sesgo de 𝜃 como:



𝑠𝑒𝑠𝑔𝑜 𝜃 = 𝐸 𝜃 − 𝜃, con lo que naturalmente diremos que si el 𝑠𝑒𝑠𝑔𝑜 𝜃 = 0 , el estimador de 𝜃 dado por 𝜃 , es insesgado, en caso contrario diremos que el estimador es sesgado.



Ejemplo:



Sea 𝑋𝑖 ~𝑖𝑖𝑑 𝑁 𝜇, 𝜎 2 ∀𝑖 = 1, … , 𝑛. (iid: variables independientes e idénticamente distribuidas) encuentre o determine si los siguientes estimadores son insesgados con respecto al parámetro:

I.

𝜃1 = 𝑥 = 𝜇1

II.

𝜃2 =

𝑛−2 𝑥𝑖 𝑖=1 𝑛−2

= 𝜇2



Solución: 𝑛 𝑖=1 𝑥𝑖

I.

𝐸 𝜇1 = 𝐸 𝑥 = 𝐸



∴ 𝜇1 𝑒𝑠 𝑖𝑛𝑠𝑒𝑠𝑔𝑎𝑑𝑜 𝑑𝑒 𝜇.

𝑛

=

𝑛 𝑖=1 𝐸

𝑛

𝑥𝑖

=

𝑛 𝑖=1 𝜇

𝑛

=

𝑛𝜇 𝑛

=𝜇

II.



𝐸 𝜇1 = 𝐸

𝑛−2 𝑖=1 𝑥𝑖

𝑛−2

=

∴ 𝜇2 𝑒𝑠 𝑖𝑛𝑠𝑒𝑠𝑔𝑎𝑑𝑜 𝑑𝑒 𝜇.

𝑛−2 𝑖=1 𝐸

𝑛−2

𝑥𝑖

=

𝑛−2 𝜇 𝑛−2

=𝜇

Práctico 1: Propiedades de los Estimadores (Insesgamiento) I.

2

Determine 𝑆 =

𝑛 𝑖=1

𝑥𝑖 −𝑥 2 𝑛−1

es un estimador insesgado de 𝜎2 (por el

momento asuma que X X ~ 𝑁 𝐸 𝑋𝑖 = 𝜇 , 𝑉 𝑋𝑖 = 𝜎

II.

2

𝜎2 , 𝑉[𝑋]= 𝑛 ).

Sea 𝑋1 , 𝑋2 , 𝑋3 𝑦 𝑋4 una muestra aleatoria de tamaño cuatro de una población cuya distribución es exponencial con parámetro 𝜃 desconocido. De las siguientes estadísticas, ¿Cuáles son estimadores 1 insesgados de 𝜃? (recuerde que 𝐸 𝑋𝑖 = λ ) 1

1

a.

𝑇1 = 6 𝑋1 + 𝑋2 + 3 𝑋3 + 𝑋4

b.

𝑇2 = 𝑋1 + 2𝑋2 + 3𝑋3 + 4𝑋4 /5

c.

𝑇3 = 𝑋1 + 𝑋2 + 𝑋3 + 𝑋4 /4

Lihat lebih banyak...

Comentários

Copyright © 2017 DADOSPDF Inc.