Página anteriorPágina siguiente

DIFERENCIA DE MEDIAS POBLACIONALES

 

En ocasiones interesa definir un intervalo de valores tal que permita establecer cuales son los valores mínimo y máximo aceptables para la diferencia entre las medias de dos poblaciones. Pueden darse dos situaciones según las muestras sean o no independientes; siendo en ambos casos condición necesaria que las poblaciones de origen sean normales o aproximadamente normales:

  • MUESTRAS INDEPENDIENTES

Si puede suponerse que las varianzas de ambas poblaciones son iguales, el intervalo de confianza para la diferencia de medias poblacionales está centrado en la diferencia de las medias muestrales, siendo sus límites superior e inferior:

t/2 es el valor crítico correspondiente al grado de confianza 1-de la distribución t de Student con n1+ n2-2 grados de libertad y es una estimación de la desviación típica común a ambas poblaciones obtenida a partir de las varianzas de las dos muestras. En la práctica si n1 y n2 son moderadamente grandes, el valor crítico

t/2 se aproxima, como ya se ha visto anteriormente, a los valores de la distribución normal.

Si las varianzas poblacionales no pueden suponerse iguales los límites del intervalo de confianza son:

El valor crítico t/2 corresponde a una distribución t cuyos grados de libertad se calculan en base a ambos tamaños muestrales y a las desviaciones típicas de cada grupo según la corrección propuesta por Dixon y Massey:

 

Para obtener el intervalo de confianza en ambos casos la secuencia es:

Analizar

Comparar medias

Prueba T para muestras independientes

En el cuadro de diálogo hay que seleccionar en Contrastar variables la variable objeto de análisis e indicar la Variable de agrupación junto con el criterio para Definir grupos (las dos poblaciones).

Los grupos pueden definirse en función de una variable cuantitativa o de una cualitativa. Si la variable de agrupación presenta sólo dos valores o modalidades, entonces se debe seleccionar Usar valores especificados e indicar la modalidad que define el grupo 1 y la del grupo 2. Si la variable tiene más de 2 valores o modalidades se elige la opción Punto de corte indicando el valor de la variable que induce una partición en dos grupos, uno de los cuales estará formado por todos los casos con valores menores que el especificado y el otro por el resto de casos.

 

Al aceptar se obtienen:

- resultados de la prueba de Levene para contrastar la igualdad de varianzas *
- resultados de la prueba T para contrastar la igualdad de medias

- intervalo de confianza para la diferencia de medias al 95% por defecto.

Si se quiere cambiar el grado de confianza del intervalo, antes de aceptar hay que modificarlo con el botón Opciones.

  • MUESTRAS DEPENDIENTES. En este caso las muestras están formadas por parejas de valores, uno de cada población y el estadístico se obtiene a partir de las diferencias de los valores de las dos variables correspondientes a cada caso o di que se define como di= xi-yi.

Para contrastar la hipótesis de igualdad de medias y obtener el intervalo de confianza la secuencia es:

Analizar

Comparar medias

Prueba T para muestras independientes

Las variables se deben seleccionar por parejas. Haciendo clic sobre las variables de la lista aparecen sus nombres en el cuadro Selecciones actuales; una vez seleccionadas las dos variables se trasladan al recuadro Variables relacionadas de la forma habitual. En cada sesión se pueden seleccionar tantos pares de variables como medias se quieran comparar.

Al aceptar se obtienen para cada par de variables, los siguientes resultados:

- Media, desviación tipo y error típico de la media de las di.

- Intervalo de confianza, por defecto al 95%, para la diferencia de medias poblacionales que viene dado por:

es el valor de la distribución t de Student con n-1 grados de libertad que deja por encima una probabilidad de /2.

- Estadístico t del contraste (contraste de dos colas).

 

EJEMPLO

Ejemplo 1

Con los datos de la encuesta Enctran.sav obtener la estimación puntual y los intervalos de confianza del 95 y del 99% para la media de la población de la variable Coste.

En el cuadro de diálogo Explorar, que se obtiene con la secuencia Analizar > Estadísticos descriptivos > Explorar, se selecciona como variable dependiente la variable Coste. En Estadísticos comprobamos que está activada la opción Descriptivos y que el intervalo para la media definido es el del 95%.

Al aceptar se obtiene el siguiente cuadro de resultados:

La estimación puntual del valor esperado del coste es 5236,40 Pta. Esta estimación tiene un error típico de 365,97. Los límites inferior y superior del intervalo de confianza del 95% son 4511,34 y 5951,46, respectivamente. Este resultado se interpreta como que de los intervalos obtenidos con este método el 95% contendrán el verdadero valor esperado del coste. Una medida del grado de precisión con el que se está estimando el valor esperado es la amplitud del intervalo, que en este caso es igual a 1450,12 y la mitad de la amplitud, que es 725,06, es el error máximo de estimación que puede garantizarse con una probabilidad de 0,95. Este error máximo es igual a donde t/2 , es el valor crítico para =0,05 de la distribución t e Student, en este caso con 113 grados de libertad, y es el error típico de la estimación.

Para obtener el intervalo del 99% de confianza modificamos el valor del grado de confianza en el cuadro Explorar:Estadísticos
fijándolo en el 99%.

Los límites del intervalo de confianza del 99% son 4277,54 y 6195,27; la confianza de que este intervalo contenga el verdadero valor esperado del coste es 0,99. La amplitud de este intervalo es 2217,73 que es mayor que la amplitud del intervalo del 95%, por lo tanto, 1108,865, es el error máximo de estimación que puede garantizarse con una probabilidad de
0,99. Como puede verse, a medida que aumenta el grado de confianza del intervalo disminuye la precisión de la estimación.

Ejemplo 2.

Para la misma variable Coste verificar si se puede aceptar el supuesto de que el valor esperado del Coste es superior a 6000.

Con la secuencia Analizar > Comparar medias > Prueba T para una media se abre el cuadro de diálogo Prueba T para una muestra en el cual se selecciona la variable Coste y se indica como Valor de prueba 6000. Esto quiere decir que las hipótesis que se están contrastando son Se trata por tanto de un contraste a una sola cola.

El estadístico de prueba toma el valor t=-2,086, que en las tablas de la distribución t de Student con 113 grados de libertad deja por debajo un área de 0,0195. Esto quiere decir que se rechaza la hipótesis nula en favor de la alternativa para niveles de significación superiores a 0,0195. Obsérvese que 0,0195 es la mitad del nivel de significación para la prueba de dos colas que aparece en el cuadro de resultados.

Por otra parte si las hipótesis hubieran sido se rechazaría la hipótesis nula en favor de la alternativa para niveles de significación superiores a 0,039. El intervalo del 95% de confianza para la media calculado en el apartado anterior no contenía el valor 6000; lo que equivale a decir que para un nivel de significación del 5% se rechaza la hipótesis nula. Por el contrario, el intervalo del 99% contenía el valor 6000 y, por lo tanto, para un nivel de significación del 1% no se rechazaría la hipótesis nula.

Ejemplo 3.

Verificar si existe diferencia significativa entre el coste esperado en transporte de los alumnos que viven en Barcelona y el de los que viven fuera.

Con la secuencia Analizar> Comparar medias > Prueba T para muestras independientes se abre el cuadro de diálogo Prueba T para muestras independientes en el cual se selecciona la variable Coste y se indica como Variable de agrupación Resid. En la opción Definir grupos se asigna al Grupo 1 el valor 1 (vive en Barcelona) y al Grupo 2 el valor 2 (no vive en Barcelona). Aceptando se obtienen entre otros los siguientes resultados:

Las hipótesis que se están contrastando son frente Para realizar este contraste previamente se debe comprobar si es aceptable la hipótesis de varianzas poblacionales iguales para los dos grupos . El estadístico F de la prueba de Levene* no permite aceptar la igualdad de varianzas poblacionales, por lo cual el valor del estadístico de prueba es t=-3,750 que para cualquier nivel de significación lleva a rechazar la hipótesis de igualdad de medias. El signo negativo del estadístico t indica que el coste del transporte es significativamente superior para los que viven fuera de Barcelona.

Ejemplo 4.

Con los datos de la encuesta Encinf.sav contrastar si existe diferencia significativa entre las puntuaciones medias asignadas a las aulas de infornática en cuanto a la Dotación y Software.

Las puntuaciones que se quiere comparar han sido generadas dos a dos por los mismos individuos; se trata por tanto del caso de muestras relacionadas. Las hipótesis que se contrastan son

Con la secuencia Analizar > Comparar medias >Prueba T para muestras relacionadas se abre el cuadro de diálogo en el cual se selecciona la pareja de variables Dotacion-Software. Al aceptar se obtienen los siguientes resultados:

El análisis sólo ha considerado los casos que no presentan ningún valor missing en el par de puntuaciones, quedando únicamente 106 casos válidos de los 114.

El promedio de las diferencias entre las puntuaciones asignadas a la dotación y al software es de -1,12 con un error típico igual a 0,19. El estadístico de prueba t es igual a -5,93 y se distribuye según una t de Student con 105 grados de libertad. Con este valor de t se rechaza la hipótesis nula para cualquier nivel de significación. Los resultados proporcionan también el intervalo de confianza para la diferencia de las dos medias poblacionales con el 95% de nivel de confianza. Como puede observarse el intervalo no contiene el valor 0, de lo que se deduce también que no se puede aceptar que las puntuaciones medias sean significativamente iguales.

Página anteriorPágina siguiente