TEMA 9.INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA. INTERVALOS DE CONFIANZA Y CONTRASTE DE HIPÓTESIS
ESTADÍSTICA INFERENCIAL: conjunto de procedimientos que permiten pasar de la muestra a la población.
Sabemos de antemano que puede existir un error al inferenciar. Por ello la inferencia es probabilística y debemos reflejar el grado de error en los resultados del estudio.
Los resultados se darán en un 95% de los sujetos de la población.
Componentes:
A partir de este procedimiento podríamos calcular qué proporción de personas diabéticas hay en la provincia de Sevilla.
2. CONTRASTE DE HIPÓTESIS:
Siendo:
Para las variables cuantitativas: Sigma: desviación estándar de la población y Mu: media aritmética población
Para
las variables cualitativas: Pi: proporción poblacional
Dentro del contraste de hipótesis encontramos pruebas paramétricas y no paramétricas.
Las pruebas paramétricas, se basan en las leyes de distribución normal para analizar los elementos de una muestra. Generalmente, solo se aplican a variables numéricas y para su análisis debe mantener una población grande, ya que permite que el cálculo sea más exacto.
En ciencias de la salud se utiliza un nivel de confianza entre el 95 y 99%, asumiendo un nivel de error entre el 5% y 1%. (0.05 y 0.01 expresado como probabilidad)
Error estándar
Si queremos reducir el EEM tendremos que aumentar el tamaño de la muestra ya que al aumentarlo el error aleatorio disminuye.
¿CÓMO CALCULAR EL ERROR ESTÁNDAR?
Se obtiene dividiendo la desviación estándar del estadístico entre la raíz cuadrada del tamaño muestral.
EJERCICIO: calcular EEM
Seleccionamos una muestra de 25 sujetos de 100 estudiantes de enfermería (población). Estos 25 sujetos se someten a un examen de la convocatoria EIR. La media de las puntuaciones de la muestra ha sido 100 con una desviación típica de 10.
Si tomamos otra muestra la media podría ser 105 o 97. Esta fluctuación entre las medias de distintas muestras es el error estándar.
Si extrajéramos 40 muestras podríamos construir un polígono de frecuencias que seguiría una DN Sin embargo, esto es una distribución teórica ya que nunca se cogen tantas muestras de una población. Para conocer el grado de dispersión entre muestras se utiliza el EEM.
EEM: 10/5=2
¿CÓMO SE CALCULA EL ERROR ESTÁNDAR PARA UNA PROPORCIÓN?
Tras una hipotética repetición del estudio, cual es la dispersión del estadístico observado
Se utiliza cuando las variables del estudio son cualitativas o atributos, por lo tanto no podemos cuantificarlos para obtener su media aritmética. P es el porcentaje o proporción a estimar.
Los resultados seguirían una distribución binomial.
CÁLCULO DEL INTERVALO DE CONFIANZA
Para un nivel de confianza del 95% buscamos el valor de Z en la tabla inversa de la distribución normal tipificada para dos colas. Z=1,96
1+0,95/2=0,975
Buscamos 0,975 en la tabla y el valor de Z es 1,96.
EJERCICIO DE INTERVALO DE CONFIANZA
Estudio de mujeres embarazadas. El error estándar es de 4 y el valor medio de colesterol es de 180,48 en la muestra.
Construye el intervalo de confianza del 95%
IC 95%= 180,48+- (1,96x4)= 180,48+-7,84= (172.64>media <188.32)
Sería como decir que si repitiéramos el estudio en 100 muestras diferentes de esa población, en el 95% de las muestras que se tomaran de esa población, la media de colesterol obtenida no sería ni inferior a 172.64 ni superior a 188.32, y solo en el 5% de esas 100 muestras se obtendrían valores fuera de ese rango.
ESTADÍSTICA INFERENCIAL: conjunto de procedimientos que permiten pasar de la muestra a la población.
Sabemos de antemano que puede existir un error al inferenciar. Por ello la inferencia es probabilística y debemos reflejar el grado de error en los resultados del estudio.
Los resultados se darán en un 95% de los sujetos de la población.
No deben realizar cálculos de estadística inferencial si hemos realizado un muestreo no probabilístico ya que este no segura la representatividad de la población. En ese caso simplemente utilizaremos la estadística descriptiva.
Componentes:
•Población: Conjunto de personas, sujetos o unidades que presentan una
característica común. Puede ser finita o
infinita.
•Muestra: Subconjunto extraído y seleccionado de una población a la que
representa.
•Muestra
independiente: Está formada por datos
independientes, aquellos obtenidos tras una única observación.
•Muestra
apareada o dependiente: Está constituida por datos
apareados (también llamados dependientes o emparejados). Comparan el mismo
grupo de sujetos en dos tiempos diferentes (por ejemplo antes y después de una
intervención), o bien son grupos muy relacionados entre sí.
FORMAS DE INFERENCIA ESTADÍSTICA
1. PARÁMETRO-ESTIMADOR
- Puntual: se calcula un valor
- Intervalos:se calculan valores
A partir de este procedimiento podríamos calcular qué proporción de personas diabéticas hay en la provincia de Sevilla.
2. CONTRASTE DE HIPÓTESIS:
- Se formula la hipótesis nula
- Se contrastan los datos para ver si es verdadera o no
- Se acepta o se rechaza la hipótesis nula teniendo en cuenta cierto margen de error o nivel de confianza.
- Se rechaza si hay diferencias estadísticamente significativas
Podríamos conocer si la población adulta presenta una mayor concienciación sobre las automedicalización.
Siendo:
´X:
Media aritmética
S:
Desviación estándar
P:
valor de la probabilidad, nivel de significación
Para las variables cuantitativas: Sigma: desviación estándar de la población y Mu: media aritmética población
Dentro del contraste de hipótesis encontramos pruebas paramétricas y no paramétricas.
Las pruebas paramétricas, se basan en las leyes de distribución normal para analizar los elementos de una muestra. Generalmente, solo se aplican a variables numéricas y para su análisis debe mantener una población grande, ya que permite que el cálculo sea más exacto.
• La
prueba estadística para t de Student es el valor t.
Se utiliza para determinar si hay una diferencia significativa entre
las medias de dos grupos, es decir que se utiliza cuando
deseamos comparar dos medias. Se utiliza para la comparación de
dos medias de poblaciones independientes y normales. Asumimos que las variables
dependientes tienen una distribución normal.
• El
análisis de la varianza (o Anova: Analysis of variance) es un
método para comparar dos o más medias, que es
necesario porque cuando se quiere comparar más de dos medias es
incorrecto utilizar repetidamente el contraste basado en la t de Student.
• La prueba
de Fisher es el test exacto utilizado cuando se quiere estudiar si
existe asociación entre dos variables cualitativas, es decir, si las
proporciones de una variable son diferentes dependiendo del valor que adquiera
la otra variable.
• El coeficiente de
correlación de Pearson se utiliza para estudiar la relación
(o correlación) entre dos variables aleatorias cuantitativas (escala mínima
de intervalo); por ejemplo, la relación entre el peso y la altura. Es una
medida que nos da información acerca de la intensidad y la
dirección de la relación
Las pruebas no
paramétricas son aquellas que se encargan de analizar datos
que no tienen una distribución particular y se basan en una hipótesis, pero los
datos no están organizados de forma normal. Aunque tienen algunas limitaciones,
cuentan con resultados estadísticos ordenados que facilita su
comprensión.
• En
estadística la prueba U de Mann-Whitney (también
llamada de Mann-Whitney-Wilcoxon, prueba de suma de rangos
Wilcoxon, o prueba de Wilcoxon-Mann-Whitney) es una prueba no
paramétrica aplicada a dos muestras independientes. Es, de hecho, la versión
no paramétrica de la habitual prueba "t" de Student.
• La prueba
de Kruskal-Wallis (de William Kruskal y W. Allen Wallis) es un método no
paramétrico para probar si un grupo de datos proviene de la
misma población. Intuitivamente, es idéntico al ANOVA con los datos
reemplazados por categorías. Es una extensión de la prueba de la U de
Mann-Whitney para 3 o más grupos.
• En
estadística las tablas de contingencia se emplean para registrar y analizar
la relación entre dos o más variables, habitualmente de naturaleza cualitativa -nominales u
ordinales-.
•¿Cuál
es la ventaja de usar una prueba no paramétrica?
Las
pruebas no paramétricas son más robustas que
las paramétricas, son válidas en un rango más amplio de
situaciones (exigen menos condiciones de validez).
•¿Cuál
es la ventaja de usar una prueba paramétrica?
La
ventaja de usar una prueba paramétrica es que tiene más potencia estadística. En otras palabras, una
prueba paramétrica tiene mayor capacidad para conducir a un rechazo de H0. La
mayoría de las veces, el valor p asociado a una prueba paramétrica es menor que
el valor p asociado a su equivalente no paramétrica ejecutada sobre los mismos
datos.
En ciencias de la salud se utiliza un nivel de confianza entre el 95 y 99%, asumiendo un nivel de error entre el 5% y 1%. (0.05 y 0.01 expresado como probabilidad)
Error estándar
El
error estándar de la media (EEM) mide la dispersión hipotética que tendrían las medias de infinitas muestras
tomadas de una población determinada. El EEM responde, por
tanto a la pregunta: ¿En qué medida la media obtenida
en la muestra 1 tomada de la población
A sería
diferente si en lugar de haber tomado la muestra 1 hubiéramos
cogido la muestra 2, 3, 4,... de esa misma población
A?
Es el error de muestreo, la fluctuación que el valor de un estadístico puede tener entre distintas
muestras tomadas de una misma población, ya que cuantifica en qué medida
los valores de la muestra seleccionada pueden diferir de los que hallaríamos si los sujetos hubieran sido otros
que pertenecen a la misma población.
Si decimos que el EE es del 5% estamos asegurando que hay un 95% de probabilidad de que la población de estudio estará representada en la muestra.
Depende de la desviación típica de la población y el tamaño muestral.
Cuanto más pequeño es el error estándar más preciso es el estudio.
Si queremos reducir el EEM tendremos que aumentar el tamaño de la muestra ya que al aumentarlo el error aleatorio disminuye.
¿CÓMO CALCULAR EL ERROR ESTÁNDAR?
Se obtiene dividiendo la desviación estándar del estadístico entre la raíz cuadrada del tamaño muestral.
EJERCICIO: calcular EEM
Seleccionamos una muestra de 25 sujetos de 100 estudiantes de enfermería (población). Estos 25 sujetos se someten a un examen de la convocatoria EIR. La media de las puntuaciones de la muestra ha sido 100 con una desviación típica de 10.
Si tomamos otra muestra la media podría ser 105 o 97. Esta fluctuación entre las medias de distintas muestras es el error estándar.
Si extrajéramos 40 muestras podríamos construir un polígono de frecuencias que seguiría una DN Sin embargo, esto es una distribución teórica ya que nunca se cogen tantas muestras de una población. Para conocer el grado de dispersión entre muestras se utiliza el EEM.
EEM: 10/5=2
¿CÓMO SE CALCULA EL ERROR ESTÁNDAR PARA UNA PROPORCIÓN?
Tras una hipotética repetición del estudio, cual es la dispersión del estadístico observado
Se utiliza cuando las variables del estudio son cualitativas o atributos, por lo tanto no podemos cuantificarlos para obtener su media aritmética. P es el porcentaje o proporción a estimar.
Los resultados seguirían una distribución binomial.
TEOREMA CENTRAL DEL LÍMITE
CÁLCULO DEL INTERVALO DE CONFIANZA
Para un nivel de confianza del 95% buscamos el valor de Z en la tabla inversa de la distribución normal tipificada para dos colas. Z=1,96
1+0,95/2=0,975
Buscamos 0,975 en la tabla y el valor de Z es 1,96.
EJERCICIO DE INTERVALO DE CONFIANZA
Estudio de mujeres embarazadas. El error estándar es de 4 y el valor medio de colesterol es de 180,48 en la muestra.
Construye el intervalo de confianza del 95%
IC 95%= 180,48+- (1,96x4)= 180,48+-7,84= (172.64>media <188.32)
Sería como decir que si repitiéramos el estudio en 100 muestras diferentes de esa población, en el 95% de las muestras que se tomaran de esa población, la media de colesterol obtenida no sería ni inferior a 172.64 ni superior a 188.32, y solo en el 5% de esas 100 muestras se obtendrían valores fuera de ese rango.
No hay comentarios:
Publicar un comentario