Pruebas de hipótesis con dos muestras y varias muestras de datos numéricos

June 1, 2017 | Autor: Giselle Aylin | Categoria: Estadistica, Estadística Inferencial, Estadistica descriptiva e inferencial
Share Embed


Descrição do Produto

1






TECNOLÓGICO NACIONAL DE MÉXICO
Instituto Tecnológico de Tijuana









"Pruebas de hipótesis con dos muestras y varias muestras de datos numéricos"












Tijuana, B.C., 5 de Abril de 2016

Índice
Pruebas de hipótesis con dos muestras y varias muestras de datos numéricos
4.1 Introducción 3
4.2 Distribuciones normal y t student 4
4.3 Pruebas de significancia 5
4.4 Comparación de dos muestras independientes pruebas t para las diferencias entre dos medias 5
4.5 Prueba de Fisher para varianzas y de igualdad de las varianzas de dos poblaciones normales 15
4.6 Comparaciones de dos muestras pareadas 18
4.7 Modelo totalmente aleatorio: análisis de varianza de un factor 21
4.8 Selección del tamaño de muestra para estimar la diferencia de dos medias 28
Conclusión 30
Bibliografía/Referencias 31


Introducción


Esta investigación se concentra en la prueba de hipótesis, otro aspecto de la estadística inferencial que al igual que la estimación del intervalo de confianza, se basa en la información de la muestra. Se desarrolla una metodología paso a paso que le permita hacer inferencias sobre un parámetro poblacional mediante el análisis diferencial entre los resultados observados (estadístico de la muestra)y los resultados de la muestra esperados si la hipótesis subyacente es realmente cierta. En el problema de estimación se trata de elegir el valor de un parámetro de la población, mientras que en las pruebas de hipótesis se trata de decidir entre aceptar o rechazar un valor especificado (por ejemplo, si el nivel de centra miento de un proceso es o no lo es).Prueba de hipótesis: Estadísticamente una prueba de hipótesis es cualquier afirmación acerca de una población y/o sus parámetros.

Una prueba de hipótesis consiste en contrastar dos hipótesis estadísticas. Tal contraste involucra la toma de decisión acerca de las hipótesis. La decisión consiste en rechazar o no una hipótesis en favor de la otra.
Por cada tipo de prueba de hipótesis se puede calcular una prueba estadística apropiada. Esta prueba estadística mide el acercamiento del calor de la muestra (como un promedio) a la hipótesis nula. La prueba estadística, sigue una distribución estadística bien conocida (normal, etc.) o se puede desarrollar una distribución para la prueba estadística particular.

La distribución apropiada de la prueba estadística se divide en dos regiones: una región de rechazo y una de no rechazo. Si la prueba estadística cae en esta última región no se puede rechazar la hipótesis nula y se llega a la conclusión de que el proceso funciona correctamente. Al tomar la decisión con respecto a la hipótesis nula, se debe determinar el valor crítico en la distribución estadística que divide la región del rechazo (en la cual la hipótesis nula no se puede rechazar) de la región de rechazo. A hora bien el valor crítico depende del tamaño de la región de rechazo.





















4.2 Distribuciones normal y t student

En estadística y probabilidad se llama distribución normal, distribución de Gauss o distribución gaussiana, a una de las distribuciones de probabilidad de variable continua que con más frecuencia aparece en fenómenos reales.

La gráfica de su función de densidad tiene una forma acampanada y es simétrica respecto de un determinado parámetro. Esta curva se conoce como campana de Gauss.

La importancia de esta distribución radica en que permite modelar numerosos fenómenos naturales, sociales y psicológicos. Mientras que los mecanismos que subyacen a gran parte de este tipo de fenómenos son desconocidos, por la enorme cantidad de variables incontrolables que en ellos intervienen, el uso del modelo normal puede justificarse asumiendo que cada observación se obtiene como la suma de unas pocas causas independientes.

De hecho, la estadística es un modelo matemático que sólo permite describir un fenómeno, sin explicación alguna. Para la explicación causal es preciso el diseño experimental, de ahí que al uso de la estadística en psicología y sociología sea conocido como método correlacional. La distribución normal también es importante por su relación con la estimación por mínimos cuadrados, uno de los métodos de estimación más simples y antiguos.

La distribución normal también aparece en muchas áreas de la propia estadística. Por ejemplo, la distribución muestral de las medias muéstrales es aproximadamente normal, cuando la distribución de la población de la cual se extrae la muestra no es normal. Además, la distribución normal maximiza la entropía entre todas las distribuciones con media y varianza conocidas, lo cual la convierte en la elección natural de la distribución subyacente a una lista de datos resumidos en términos de media muestral y varianza. La distribución normal es la más extendida en estadística y muchos tests estadísticos están basados en una supuesta "normalidad".

En probabilidad y estadística, la distribución t (de Student) es una distribución de probabilidad que surge del problema de estimar la media de una población normalmente distribuida cuando el tamaño de la muestra es pequeño. Aparece de manera natural al realizar la prueba t de Student para la determinación de las diferencias entre dos medias muestrales y para la construcción del intervalo de confianza para la diferencia entre las medias de dos poblaciones cuando se desconoce la desviación típica de una población y ésta debe ser estimada a partir de los datos de una muestra.

La distribución t de Student es la distribución de probabilidad del cociente

Dónde:
Z tiene una distribución normal de media nula y varianza 1
V tiene una distribución chicuadrado con V grados de libertad
Z y V son independientes





Si μ es una constane no nula, el cociente es una variable aleatoria que sigue la distribución t student no central con parámetro de no-centralidad μ.



4.3 Pruebas de significancia

Las pruebas de significancia estadística son un procedimiento que brinda un criterio objetivo para calificar las diferencias que presentan al comprar los resultados de dos muestras, con el objetivo de explicar si dichas diferencias se mantienen dentro de los limites previstos por el diseño estadístico (un error y una confianza esperados) o si, por el contrario, la diferencia entre ellas resulta lo suficiente grande como para inferir que ha ocurrido un cambio real en el indicador.




4.4 Comparación de dos muestras independientes para las diferencias entre dos medias

Cuando se conocen las varianzas de 2 poblaciones
Si se trata de muestras grandes e independientes y si se conocen las verdaderas varianzas de las poblaciones correspondientes, el estadístico de prueba es la ya conocida z estandarizada de la distribución normal que para 2 poblaciones se calcula como:


z=X1-X2-(μ1-μ2)σX1-X2

Pero como la hipótesis nula plantea que:
Ho: μ1-μ2=0

La expresión anterior se convierte en:
σX1-X2=σ21n1+σ22n2
Sin embargo el caso más común es que no se conozcan las varianzas, entonces se utilizan la de las muestras para estimarlas, y el procedimiento es exactamente igual.



Como se menciona en el párrafo anterior, la única diferencia entre las fórmulas para calcular el estadístico de prueba y el error estándar de la diferencia entre 2 medias, cuando se utilizan datos muestrales es que se sustituye S2 por σ2 y SX1-S2 por σX1-X2 de la siguiente manera:

z=X1-X2-(μ1-μ2)sX1-X2


SX1-X2=S21n1+S22n2


Cuando no se conocen las varianzas pero se asume que son iguales

En estas condiciones, el estadístico de prueba sigue siendo Z de la distribución normal estándar:

z=X1-X2sX1-X2
Pero ahora, como se supone que las varianzas de las 2 poblaciones son iguales, se combinan las varianzas muestrales de la siguiente manera:

Sc2=n1-1S12+n2-1S22n1+n2-2
Nótese que esta forma de combinar las varianzas muestrales es una forma de ponderación, en donde los pesos son los respectivos tamaños de muestra. Una vez realizada la combinación de varianzas, se calcula el error estándar de la diferencia de medias de la misma manera que se hizo antes pero ahora utilizando la varianza combinada Sc2

Sx1-x2=Sc2n1+Sc2n2












Cuando no se conocen las varianzas pero se asume que son iguales

En estos casos estas circunstancias, el estadístico de prueba apropiado es la t Student:

t=X1-X2-(μ1-μ2)Sx1-x2

Pero, de nuevo, como la hipótesis nula plantea que:

Ho: μ1-μ2=0

La expresión se convierte en:
t=(X1-X2)Sx1-x2
Con n1+n2-2 grados de libertad

Al igual que antes, cuando es asumido que las dos varianzas poblacionales son iguales, estas se combinan, como en la formula anterior:
Sc2=n1-1S12+n2-1S22n1+n2-2


El error estándar de la diferencia entre dos medias, que es la fórmula anterior:
Sx1-x2=Sc2n1+Sc2n2










Ejercicios
1. Un gerente de producción desea determinar si existe diferencia entre la productividad de los trabajadores del turno matutino y los del turno vespertino. Para ello, toma una muestra aleatoria de 30 trabajadores de cada turno y encuentra que produjeron un promedio de 68 artículos por turno, con una desviación estándar de 16, en tanto que los del turno vespertino produjeron 65.5 artículos en promedio con desviación estándar de 17. ¿Existe diferencia entre la productividad de los 2 turnos, a un nivel de significación de 0.01

Ho: μ1 =μ2
Ha: μ1 μ2

P-2.575 z 2.575=0.01
SX1-X2=S21n1+S22n2=16230+17230=4.2622

z=X1-X2-(μ1-μ2)sX1-X2=68-65.54.26=0.5868
Este valor observado del estadístico de prueba está dentro del rango critico de -2.575 a 2.575, así que no se tienen elementos para rechazar la hipótesis nula, por lo que se concluye que la producción promedio en los dos turnos es igual.

2. Un departamento de control de calidad desea evaluar dos máquinas que fabrican ciertas piezas circulares de plástico. Se desea saber si la maquina A la fábrica con un diámetro mayor que la maquina B. Para ello se toma una muestra de 12 piezas de la maquina A y se encuentra que su diámetro tiene una media de 1.061 cm con varianza de 0.000442. En tanto que una muestra aleatoria de 10 piezas de la maquina B arroja una media de 1.038 cm con una varianza de 0.000228. Si los diámetros de estas piezas se distribuyen de forma normal en las dos máquinas y se sabe que sus varianzas son iguales, compruebe la hipótesis de que la maquina A está fabricando piezas de mayor diámetro, con un nivel de significancia de 0.05.

Ho: μ1 >μ2
Ha: μ1 μ2
Pt 1.7247gl=20=0.05

Sc2=n1-1S12+n2-1S22n1+n2-2=12-1(0.000442)+10-1(0.000228)12+10-2=0.000347

Sx1-x2=Sc2n1+Sc2n2=0.000345712+0.00034710=0.00796

t=(X1-X2)Sx1-x2=(1.061-1.038)0.00796=2.89




Así que como el valor calculado de t, 2.89 es mayor que el valor critico determinado según el nivel de significancia, 1.7247 se rechaza la hipótesis nula para concluir que, efectivamente, la maquina A está fabricando piezas con mayor diámetro que las producidas por la maquina B.

3. En 2 ciudades en las que existen refinerías se tomó una muestra a cada persona de un grupo de 35, y se midió el nivel de plomo en la sangre. En la ciudad A s encontró que en promedio el nivel de plomo es de 74.9 microgramos con una desviación estándar de 8. En la ciudad B, el promedio es de 78 microgramos con una desviación estándar de 1. ¿Existe diferencia en el nivel de plomo en la sangre de los habitantes de cada ciudad, a un nivel de significancia de 0.01?
Ho: μ1 =μ2
Ha: μ1 μ2

P-2.575 z 2.575=0.99
SX1-X2=S21n1+S22n2=8235+1235=1.3627

z=X1-X2-(μ1-μ2)sX1-X2=74.9-781.3627=1.0273


El valor calculado de Z cae dentro de la región de aceptación, por lo que no se rechaza la hipótesis nula y se concluye que no existe diferencia entre el nivel promedio de plomo en la sangre de los habitantes de la ciudad A y la ciudad B

4. Para la fabricación de una pieza específica se emplean dos máquinas. Se toma una muestra 40 piezas elaboradas por ambos aparatos y se encuentra que las piezas que produjo la maquina A tienen una longitud promedio de 83mm con una desviación estándar de 5mm, mientras que las de la maquina B una longitud promedio de 82 mm con una desviación estándar de 2mm. Determine si existe diferencia entre la longitud de las piezas fabricadas por cada máquina, con un nivel de significancia de 5%.
Ho: μ1 μ2
Ha: μ1 >μ2
Pt 1.684gl=39=0.05

Sc2=n1-1S12+n2-1S22n1+n2-2=40-1(0.00025)+40-1(0.006724)40+40-2=0.0033745

Sx1-x2=Sc2n1+Sc2n2=0.003374540+0.003374540=0.0129

t=(X1-X2)Sx1-x2=(0.083-0.082)0.0129=0.7751




5. En una facultad se imparten dos licenciaturas, administración y contaduría. Se preguntó a 42 alumnos de administración cual es el número de veces que han consultado libros en la biblioteca durante el último mes, y se obtuvo que en promedio fueran 27 veces con una desviación estándar de 4, mientras que en la muestra de 37 alumnos de contaduría el promedio fue de 23 con una desviación estándar de 3. Compruebe si existe diferencia entre el promedio de consultas realizadas por los alumnos de cada licenciatura con un nivel de significa de 0.05.
Ho: μ1 =μ2
Ha: μ1 μ2
Pt 1.684gl=41=0.05

Sc2=n1-1S12+n2-1S22n1+n2-2=42-1(16)+42-1(9)42+42-2=12.5
Sx1-x2=Sc2n1+Sc2n2=12.542+12.542=0.2976

t=(X1-X2)Sx1-x2=(27-23)0.2976=13.4408

El valor calculado de Z cae dentro de la región de rechazo por lo que se rechaza la hipótesis nula y se concluye que existe una diferencia entre el promedio de veces que los alumnos de administración han consultado algún libro en la biblioteca y el promedio de los alumnos de contaduría.

6. Para probar la velocidad de combustión de 2 tipos de aceite automotriz se tomó una muestra de 50 botellas de dos marcas distintas. En la marca A se encontró que el tiempo promedio de combustión es de 47.5 seg con una desviación estándar de 3.2 seg y la marca B el tiempo promedio es de 49.4 seg con una desviación estándar de 3.7 seg. Compruebe si existe diferencia entre el tiempo de combustión de las dos marcas de aceite con un nivel de significancia de 0.01.

Ho: μ1 =μ2
Ha: μ1 μ2

P-2.575 z 2.575=0.01
SX1-X2=S21n1+S22n2=3.2250+3.7250=0.6918

z=X1-X2-(μ1-μ2)sX1-X2=47.5-49.40.6318=-3.0072








7. Una compañía telefónica brinda dos tipos de servicios, plan y prepago, y desea saber si existe diferencia entre el número de minutos utilizados mensualmente en cada servicio. En el caso de los usuarios del servicio de plan se tomó una muestra de 36 personas y se encontró que en promedio de minutos fue de 237 con una desviación estándar de 8.7. De los usuarios de prepago se tomó una muestra de 41 y en promedio fue de 248 con una desviación estándar de 10.4. Compruebe la hipótesis con un nivel de significancia de 0.01.

Se desea probar si el salario medio mensual de los empleados oficinistas de 2 empresas del ramo de servicios turísticos son iguales o no, con un nivel de significancia de 1%. Para ello, se toman muestras de ambas y los datos correspondientes se resumen en el siguiente cuadro:


Muestra empresa 1
Muestra empresa 2
Tamaño n
n1= 50
n2= 60
Media
X1=6000
X2=5850
2Desv. Estándar
S1=300
S2=214

Ho: μ1 =μ2
Ha: μ1 μ2

P-2.575 z 2.575=0.01
SX1-X2=S21n1+S22n2=300236+214236=61.4175

z=X1-X2-(μ1-μ2)sX1-X2=6000-585061.4175=2.4423


8. En una muestra aleatoria de n1=10 focos el promedio de vida de los focos es X1=4000 horas, con una desviación de S1=200 horas. Para otra marca de focos de cuya vida útil también se presume que sigue una distribución normal, una muestra aleatoria de n2= 8 focos tiene una media muestral de X2=4300 horas y una desviación estándar muestral de S2 = 250, pruebe la hipótesis de que no existe ninguna diferencia entre el ciclo medio de vida útil de las 2 marcas de focos con un nivel de significancia del 1%
Ho: μ1 =μ2
Ha: μ1 μ2
Pt 2.575gl=41=0.01

Sc2=n1-1S12+n2-1S22n1+n2-2=10-1(2002)+8-1(2502)10+8-2=49843.75



Sx1-x2=Sc2n1+Sc2n2=49843.7510+49843.758=105.90

t=(X1-X2)Sx1-x2=(4000-4300)105.90=-2.83

Como cae en la zona de aceptación se acepta con un nivel de significancia del 0.01, la hipótesis nula de que no existe diferencia entre las dos marcas de focos.

9. Un desarrollador considera dos ubicaciones alternativas para un centro comercial regional dado que el ingreso domestico de la comunidad es una consideración importante en la selección del sitio, él desea probar la hipótesis nula de que no existe ninguna diferencia entre los montos de ingreso domestico medio de las dos comunidades. Se supone que la desviación estándar del ingreso domestico también es igual en las dos comunidades. En una muestra de 1=30 hogares de la primera comunidad el ingreso anual promedio es de ̅1=45,500 con una desviación estándar 1=1,800. En una muestra de 2=40 hogares de la segunda comunidad ̅2=44,600 y 2=2,400. Pruebe la hipótesis nula al nivel de significancia de 5%.

Ho: μ1 =μ2
Ha: μ1 μ2
Pt 2.575gl=41=0.01

Sc2=n1-1S12+n2-1S22n1+n2-2=30-1(18002)+40-1(24002)30+40-2=5161764.706

Sx1-x2=Sc2n1+Sc2n2=5161764.70630+51667.70640=586.6154

t=(X1-X2)Sx1-x2=(45500-44600)586.6154=1.5342

10. Una muestra aleatoria de 1=12 estudiantes de Contaduría tiene un promedio de calificación media de 2.70 (donde A=4) con una desviación estándar de .40 en el caso de los estudiantes de ingeniería en sistemas una muestra aleatoria de n2 = 10 estudiantes tiene un promedio de calificación media de 2.90 con una desviación estándar de .30 se supone que los valores de calificación sigue una distribución normal ,pruebe la hipótesis nula de que el promedio de calificación de las 2 categorías de estimación no es diferente con un nivel de significancia de 5%

Ho: μ1 =μ2
Ha: μ1 μ2
Pt 2.921gl=41=0.05




Sc2=n1-1S12+n2-1S22n1+n2-2=12-1(.402)+10-1(.302)12+10-2=0.1285

Sx1-x2=Sc2n1+Sc2n2=0.128512+0.128510=0.1534

t=(X1-X2)Sx1-x2=(45500-44600)0.1534=5867.01


11. El salario medio diario de una muestra de n1=30 empleados de una gran empresa manufacturera es 1=280, por una distribución estándar de 14 pesos. En otra gran empresa una muestra aleatoria n2=40 empleados tiene un salario medio de 2 =270 pesos, con una desviación estándar de 10 pesos. Pruebe la hipótesis de que no existe diferencia entre los montos salariales semanales medio de las dos empresas con un nivel de significancia del 5%.

Ho: μ1 =μ2
Ha: μ1 μ2
Pt 2.921gl=41=0.05

Sc2=n1-1S12+n2-1S22n1+n2-2=30-1(142)+40-1(102)30+40-2=140.9411

Sx1-x2=Sc2n1+Sc2n2=140.941130+140.941140=2.8673

t=(X1-X2)Sx1-x2=(280-270)2.8673=3.4876

12. La altura promedio de 50 palmas que tomaron parte de un ensayo es de 78 cm. con una desviación estándar de 2.5 cm.; mientras que otras 50 palmas que no forman parte tienen media y desviación estándar igual a 77.3 y desviación estándar poblacional de2.8 cm. Se desea probar la hipótesis de que las palmas que participan en el ensayo son más altas que las otras. Con un nivel de significancia del 0.05
Ho: μ1 =μ2
Ha: μ1 μ2
Pt 2.921gl=41=0.05

Sc2=n1-1S12+n2-1S22n1+n2-2=50-1(2.52)+50-1(2.82)50+50-2=7.045
Sx1-x2=Sc2n1+Sc2n2=7.04550+7.04550=0.5308


t=(X1-X2)Sx1-x2=(78-77.3)0.5308=1.3187



13. Para una muestra aleatoria de n1=10 lámparas de gas, se encuentra que la vida promedio es x 1=6000 horas con s1=200. Para otra marca de lámparas, para los cuales se supone también que tiene una vida útil con distribución normal, una muestra aleatoria de n2=15 lámparas de gas tiene una media muestral de x 2 =5600 horas y una desviación estándar muestral de s2=250. Pruebe la hipótesis de que no existe diferencia entre la vida útil promedio de las dos marcas de lámparas de gas, utilizando un nivel de significancia del 1%

Ho: μ1 =μ2
Ha: μ1 μ2
Pt 2.475gl=41=0.05

Sc2=n1-1S12+n2-1S22n1+n2-2=10-1(2002)+15-1(2.502)10+15-2=53695.65
Sx1-x2=Sc2n1+Sc2n2=53695.6510+53695.6515=94.6006

t=(X1-X2)Sx1-x2=(6000-5600)94.6006=4.2283
























4.5 Prueba de Fisher para varianzas y de igualdad de las varianzas de dos poblaciones normales

Para probar si existe o no la diferencia entre las varianzas de dos poblaciones puede utilizarse como estadístico de prueba de F de la distribución de F de Fisher, llamada así en honor del destacado estadístico Ronald Aylmer Fisher, que se calcula como el cociente de las varianzas de dos poblaciones:

F=σ21σ22

Que sería la expresión teoría de F. Y el valor calculado de F a partir de las varianzas muestrales:

Fcal=S12S22

La prueba se lleva a cabo sobre la diferencia hipotética entre dos varianzas poblacionales: Ho=σ12-σ22=0; para realizarla se obtienen las varianzas de dos muestras tomadas de dos poblaciones diferentes. En otras palabras, esta prueba se realiza para las poblaciones independientes, las que suele identificarse como 1 y 2.
Las dos varianzas muestrales son las que se utilizan como base para hacer inferencias sobre sus correspondientes parámetros.

Si puede asumirse que las dos varianzas poblacionales son iguales, σ21=σ22, entonces se utiliza como estadístico de prueba, la distribución F con n1-1 grados de libertad para el numerador y n1-1 grados de libertad para el denominador; ya que el estadístico de prueba se calcula con los datos muestrales se construye un cociente.

La distribución F no es una distribución simétrica; esta sesgada a la derecha y su forma específica depende de los grados de libertad tanto del numerador como del denominador. A su vez cada tabla tiene como encabezados las columnas los grados de libertad del numerador y en los renglones los grados de libertad del denominador. Así, para un área de 0.05 en el extremo derecho de esta distribución con 10 grados de libertad en el numerador y 20 en el denominador, el valor de F es igual a 2.35. Este valor quiere decir que, dados esos grados de libertad, la probabilidad de que la F sea igual o mayor de 2.35 es de 0.05 o de 5%. Esto mismo en símbolos:
PF 2.35gl1=10,gl2=20=0.05



Tal como puede apreciarse, al tratarse de una distribución asimétrica, la tabla de distribución F no muestra valores de probabilidad para el lado izquierdo y estos se requieren cuando la

prueba que se está realizando es de dos extremos ( ) o cuando es de un extremo y la región de rechazo está en el lado izquierdo.


En estos casos para determinar los valores no mostrados, lo que se hace es utilizar el inverso del valor correspondiente de las talas, invirtiendo el orden de los grados de libertad en símbolos:

F1-a,gl2,gl1=1F1-a,gl2,gl1

Ejercicios
1. Se desea el grado de aprendizaje en matemáticas en 2 escuelas del mismo nivel que utilizan métodos de enseñanza diferentes. Para aplicar la prueba t para la diferencia entre dos medias, debe ser posible suponer que ambas poblaciones tienen la misma varianza. Por ello, antes de realizar la prueba sobre las medias, es conveniente realizar una prueba sobre igualdad de varianzas de las 2 poblaciones. Al hacer esta prueba, se toma una muestra aleatoria de 21 estudiantes en cada una de las 2 escuelas y se obtienen los siguientes resultados:
Escuela 1
Escuela 2
n1=21
n1=21
X=7.9
X=8.3
S1=1.1
S1=1.21


Ho=σ12-σ22=0
Ho=σ12-σ22=0

PF 2.46gl1=20,gl2=20=0.025

Fcal=S12S22=1.121.212=0.83

Ho: X1-X2=0
Ha: X1-X2 0

Sc2=n1-1S12+n2-1S22n1+n2-2=20(1.1)2+20(1.21)221+21-2=1.4641

Sx1-x2=Sc2n1+Sc2n2=1.464121+1.464121=0.1394

t=(X1-X2)Sx1-x2=(7.9-8.3)0.13946=-2.87

P-2.021 t 2.021gl=40=2.021 Se rechaza la hipótesis nula y se concluye que la diferencia entre las dos medias muestrales es diferente de 0.


2. Un fabricante de automóviles pone a prueba dos nuevos métodos de ensamblaje de motores respecto al tiempo en minutos. Los resultados se muestran en la tabla:


Construya un intervalo de confianza del 90%
F=σ21σ22=S12Fs22=50(0.530)(24)=3.9308

F=σ21σ22=S12Fs22=50(1.94)(24)=1.0738

Con un nivel de confianza del 90% se sabe que la relación de varianzas S12S22 esta entre 1.07 y 3.93. Esto supondría que la varianza de la población 1 es mayor a la varianza de la población 2 entre 1.07 y 3.93.

3. Una compañía fabrica propulsores para uso en motores de turbina. Al ingeniero de manufactura le gustaría seleccionar el proceso que tenga la menor variabilidad en la rugosidad de la superficie. Para ello toma una muestra de n1=16 partes del primer proceso, la cual tiene una desviación estándar s1 = 4.7 micro pulgadas, y una muestra aleatoria de n2=12 partes del segundo proceso, la cual tiene una desviación estándar s2 = 5.1micropulgadas. Se desea encontrar un intervalo de confianza del 90% para el cociente de las dos varianzas s12/s22. Suponga que los dos procesos son independientes y que la rugosidad de la superficie está distribuida de manera normal.
F=σ21σ22=S12Fs22=(0.368)(4.72)5.12=0.3125

F=σ21σ22=S12Fs22=(2.51)(4.72)5.12=2.1317
Estos resultados los podemos interpretar de la siguiente manera:

Puesto que este intervalo de confianza incluye a la unidad, no es posible afirmar que las desviaciones estándar de la rugosidad de la superficie de los dos procesos sean diferentes con un nivel de confianza del 90%.





4.6 Comparaciones de dos muestras pareadas

Pruebas para muestras pareadas cuando no se conocen las varianzas pero no se necesita asumir que sean iguales

Se analizó el caso de una prueba para la diferencia entre 2 medias provenientes de poblaciones independientes. Aquí se analizará el caso de la diferencia entre 2 medias provenientes de poblaciones pareadas o relacionadas. Es importante tener presentes las circunstancias de estos casos:
Se trata de muestras pareadas.
Los tamaños de muestras son pequeños.
La variable se distribuye de forma normal en la población.
En este caso, la prueba se convierte en una prueba sobre la diferencia entre las observaciones, ya que se calculan las diferencias entre:
1. Dos individuos de la misma especie sometidos a tratamientos diferentes (pareamiento de individuos según una característica de interés).
2. Dos mediciones hechas a los mismos individuos.

La media de la diferencia es:
D=Σ Din
Con el teorema del límite central, el promedio de las diferencias sigue una distribución normal cuando se conoce la varianza de las diferencias y n es grande. Pero generalmente no se conoce la varianza de las diferencias, entonces se estima:
S=i=1n(Di-D)2n-1

El error estándar de las diferencias pareadas es:
SD=Dn


Con muestras pequeñas, el estadístico de prueba es:
tn-1=DSD

Con n-1 grados de libertad. Nótese que aquí cambian los grados de libertad, al tratarse de muestras pareadas.



Ejercicios
1. Un fabricante de automóviles recolecta datos sobre millaje de = autos de diversas categorías de peso usando gasolina de calidad estándar con y sin cierto aditivo. Por supuesto, los motores 94 fueron ajustados a las mismas especificaciones antes de cada corrida, y los mismos conductores sirvieron para los dos casos de gasolina (aunque no se les hizo saber que gasolina se usaba en una corrida en particular). Dados los datos de millaje en la tabla, probamos la hipótesis de que no existe diferencia entre el millaje medio obtenido con y sin el aditivo, empleando el nivel de significancia del 5%

Promedio con aditivo 276.810=27.68 mpg
Promedio sin aditivo 275.110=27.51 mpg
Ho: μd =0
Ha: μd 0
t criticagl=9, α=0.05=2.262

D=Σ Din=1.710=0.17

S=i=1n(Di-D)2n-1=1.31-10(0.172)10-1=0.3368

SD=Dn=0.1710=0.0537

tn-1=DSD=0.170.3368=0.5047




















2. El director de la capacitación de una compañía desea comparar un nuevo método de capacitación técnica, que supone la combinación de diskettes instructivos de cómputo y resolución de problemas en el laboratorio con el método tradicional de impartición de clases. Se asocian así doce pares de aprendices de acuerdo con sus antecedentes y desempeño académico, en tanto que uno de los miembros de cada par asignado al curso tradicional y el otro al nuevo método. Al final del curso se determina el nivel de aprendizaje por medio de un examen sobre información básica y la capacidad de aplicarla. Dado que el director de capacitación desea conceder el beneficio de la duda ala sistema de instrucción establecido, se formula la hipótesis nula de que el desempeño medio del sistema establecido es igual o mayor que el nivel medio de desempeño del nuevo sistema. Pruebe esta hipótesis al nivel de significancia de 5%. Los datos muéstrales de desempeño se presentan en las tres primeras columnas de la siguiente tabla:

Par de aprendices
Método tradicional
Nuevo método
Diferencia
Di-D
Di-D2
1
89
94
5
0.1667
0.0277
2
87
91
4
-0.8333
0.6943
3
70
68
2
-2.8333
8.0275
4
83
88
5
0.1667
0.0277
5
67
75
8
3.1667
10.0279
6
71
66
5
0.1667
0.0277
7
92
94
2
-2.8333
8.0275
8
81
88
7
2.1667
4.6945
9
97
96
1
-3.8333
14.69
10
78
88
10
5.1667
26.6947
11
94
95
1
-3.8333
14.6941
12
79
87
8
3.1667
10.0279
Total
988
1030
58
0.0004
97.6615
Ho: μd =0
Ha: μd 2,87 rechazamos la hipótesis nula y concluimos que los resultados de los tratamientos son diferentes.










4.8 Selección del tamaño de muestra para estimar la diferencia de dos medias

Se puede utilizar un procedimiento similar para determinar el tamaño de la muestra n=n1=n2 que se requiere para una potencia específica de la prueba en que se comparan dos medias poblacionales. Por ejemplo, suponga que deseamos probar la hipótesis cuando se conocen σ12y σ22

H0: μ1-μ2=do,
Ha: μ1-μ2 do,

Para una alternativa específica, digamos, μ1-μ2=do+δ en la figura se muestra que la potencia de nuestra prueba es

1-β=P(X1-X2>α cuando μ1-μ2=do+δ
Por lo tanto,


n zα2+zβ2σ12+ σ22δ2
Para la prueba de una sola cola, la expresión para el tamaño requerido de la muestra cuando n=n1=n2 es

Elección del tamaño de la muestra: n=Za+Zβ2+σ12+ σ22δ2
Cuando se desconoce la varianza poblacional (o varianzas en la situación de dos muestra), la elección del tamaño de la muestra no es directa. Al probar la hipótesis μ=μ0+δ, el estadistco


X-(μ0+δ)S/n

no sigue una distribución t, como podría esperarse, sino que más bien sigue la distribución t no central para determinar el tamaño adecuado de la muestra, si dispone de alguna estimación de σ o si δ es un múltiplo de σ.
=δσ=μ-μ0σ

En el caso de la prueba t de dos muestras en la que se desconocen las varianzas, pero se suponen iguales, obtenemos los tamaños muestrales n = n1 = n2 necesarios para controlar los valores de α y β para diversos valores de
=δσ=μ1-μ2-doσ



1. De una población de 1,176 adolescentes de una ciudad se desea conocer la aceptación por los programas humorísticos televisivos y para ello se desea tomar una muestra por lo que se necesita saber la cantidad de adolescentes que deben entrevistar para tener para tener una información adecuada con error estándar menor de 0.015 al 90% de confiabilidad.
Solución:
Es decir, para realizar una investigación se necesita una muestra de al menos 298 adolescentes.















Conclusión

En esta investigación se estudió la metodología básica necesaria al realizar pruebas de hipótesis para las medias correspondientes a 2 poblaciones y se revisaron las pruebas para la diferencia entre 2 medias en diversas circunstancias:
Con muestras grandes e independientes, cuando se conocen y cuando no se conocen las varianzas correspondientes a las 2 poblaciones. Además se explican 2 casos para esta última circunstancia, cuando no se conocen las varianzas; podemos asumir que son iguales, y no puede asumirse que lo sean.
Las pruebas para 2 poblaciones con muestras pequeñas e independientes, variables distribuidas normalmente, cuando no se conocen las varianzas de las correspondientes poblaciones pueden asumirse que sean iguales, y no puede asegurarse que lo sean.



































Bibliografía

Díaz Mata, A. (2013). Estadística Aplicada a la Administración y la Economía. México, D.F: The McGraw Hill.
http://dta.utalca.cl/estadistica/ejercicios/interpretar/Metodos/resuelto%20anova.pdf
http://www.hrc.es/bioest/Anova_4.html
http://www.ugr.es/~jsalinas/weproble/T14res.PDF


Lihat lebih banyak...

Comentários

Copyright © 2017 DADOSPDF Inc.