¡Bienvenidos y bienvenidas a mi blog!

Entradas populares

martes, 26 de mayo de 2020

TEMA 9.INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA. INTERVALOS DE CONFIANZA Y CONTRASTE DE HIPÓTESIS

TEMA 9.INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA. INTERVALOS DE CONFIANZA Y CONTRASTE DE HIPÓTESIS


ESTADÍSTICA INFERENCIAL: conjunto de procedimientos que permiten pasar de la muestra  a la población.

Sabemos de antemano que puede existir un error al inferenciar. Por ello la inferencia es probabilística y debemos reflejar el grado de error en los resultados del estudio.

Los resultados se darán en un 95% de los sujetos de la población.




No deben realizar cálculos de estadística inferencial si hemos realizado un muestreo no probabilístico ya que este no segura la representatividad de la población. En ese caso simplemente utilizaremos la estadística descriptiva.



Componentes:

Población: Conjunto de personas, sujetos o unidades que presentan una característica común.  Puede ser finita o infinita.

Muestra: Subconjunto extraído y seleccionado de una población a la que representa.

Muestra independiente: Está formada por datos independientes, aquellos obtenidos tras una única observación.

Muestra apareada o dependiente: Está constituida por datos apareados (también llamados dependientes o emparejados). Comparan el mismo grupo de sujetos en dos tiempos diferentes (por ejemplo antes y después de una intervención), o bien son grupos muy relacionados entre sí.




                 FORMAS DE INFERENCIA ESTADÍSTICA
1. PARÁMETRO-ESTIMADOR
  •            Puntual: se calcula un valor
  •            Intervalos:se calculan valores
















A partir de este procedimiento podríamos calcular qué proporción de personas diabéticas hay en la provincia de Sevilla.



2. CONTRASTE DE HIPÓTESIS:

  1. Se formula la hipótesis nula
  2. Se contrastan los datos para ver si es verdadera o no
  3. Se acepta o se rechaza la hipótesis nula teniendo en cuenta cierto margen de error o nivel de confianza.

  • Se rechaza si hay diferencias estadísticamente significativas

Podríamos conocer si la población adulta presenta una mayor concienciación sobre las automedicalización.





Siendo:


´X: Media aritmética
 S: Desviación estándar
 P: valor de la probabilidad, nivel de significación

Para las variables cuantitativas: Sigma: desviación estándar de la población y Mu: media aritmética población
Para las variables cualitativas: Pi: proporción poblacional








Dentro del contraste de hipótesis encontramos pruebas paramétricas y no paramétricas.


Las pruebas paramétricas, se basan en las leyes de distribución normal para analizar los elementos de una muestra. Generalmente, solo se aplican a variables numéricas y para su análisis debe mantener una población grande, ya que permite que el cálculo sea más exacto.

       La prueba estadística para t de Student es el valor t. Se utiliza para determinar si hay una diferencia significativa entre las medias de dos grupos, es decir que se utiliza cuando deseamos comparar dos medias. Se utiliza para la comparación de dos medias de poblaciones independientes y normales. Asumimos que las variables dependientes tienen una distribución normal.

       El análisis de la varianza (o Anova: Analysis of variance) es un método para comparar dos o más medias, que es necesario porque cuando se quiere comparar más de dos medias es incorrecto utilizar repetidamente el contraste basado en la t de Student.

       La prueba de Fisher es el test exacto utilizado cuando se quiere estudiar si existe asociación entre dos variables cualitativas, es decir, si las proporciones de una variable son diferentes dependiendo del valor que adquiera la otra variable.

       El coeficiente de correlación de Pearson se utiliza para estudiar la relación (o correlación) entre dos variables aleatorias cuantitativas (escala mínima de intervalo); por ejemplo, la relación entre el peso y la altura. Es una medida que nos da información acerca de la intensidad y la dirección de la relación

Las pruebas no paramétricas son aquellas que se encargan de analizar datos que no tienen una distribución particular y se basan en una hipótesis, pero los datos no están organizados de forma normal. Aunque tienen algunas limitaciones, cuentan con resultados estadísticos ordenados que facilita su comprensión. 

       En estadística la prueba U de Mann-Whitney (también llamada de Mann-Whitney-Wilcoxon, prueba de suma de rangos Wilcoxon, o prueba de Wilcoxon-Mann-Whitney) es una prueba no paramétrica aplicada a dos muestras independientes. Es, de hecho, la versión no paramétrica de la habitual prueba "t" de Student.

       La prueba de Kruskal-Wallis (de William Kruskal y W. Allen Wallis) es un método no paramétrico para probar si un grupo de datos proviene de la misma población. Intuitivamente, es idéntico al ANOVA con los datos reemplazados por categorías. Es una extensión de la prueba de la U de Mann-Whitney para 3 o más grupos.

       En estadística las tablas de contingencia se emplean para registrar y analizar la relación entre dos o más variables, habitualmente de naturaleza cualitativa -nominales u ordinales-.




¿Cuál es la ventaja de usar una prueba no paramétrica?

Las pruebas no paramétricas son más robustas que las paramétricas, son válidas en un rango más amplio de situaciones (exigen menos condiciones de validez).

¿Cuál es la ventaja de usar una prueba paramétrica?


La ventaja de usar una prueba paramétrica es que  tiene más potencia estadística.  En otras palabras, una prueba paramétrica tiene mayor capacidad para conducir a un rechazo de H0. La mayoría de las veces, el valor p asociado a una prueba paramétrica es menor que el valor p asociado a su equivalente no paramétrica ejecutada sobre los mismos datos.







































En ciencias de la salud se utiliza un nivel de confianza entre el 95 y 99%, asumiendo un nivel de error entre el 5% y 1%. (0.05 y 0.01 expresado como probabilidad)






















Error estándar


El error estándar de la media (EEM) mide la dispersión hipotética que tendrían las medias de infinitas muestras tomadas de una población determinada. El EEM responde, por tanto a la pregunta: ¿En qué medida la media obtenida en la muestra 1 tomada de la población A sería diferente si en lugar de haber tomado la muestra 1 hubiéramos cogido la muestra 2, 3, 4,... de esa misma población A?

Es el error de muestreo, la fluctuación que el valor de un estadístico puede tener entre distintas muestras tomadas de una misma población, ya que cuantifica en qué medida los valores de la muestra seleccionada pueden diferir de los que hallaríamos si los sujetos hubieran sido otros que pertenecen a la misma población.

Si decimos que el EE es del 5% estamos asegurando que hay un 95% de probabilidad de que la población de estudio estará representada en la muestra.

Depende de la desviación típica de la población y el tamaño muestral.

Cuanto más pequeño es el error estándar más preciso es el estudio.

Si queremos reducir el EEM tendremos que aumentar el tamaño de la muestra ya que al aumentarlo el error aleatorio disminuye.



¿CÓMO CALCULAR EL ERROR ESTÁNDAR?

Se obtiene dividiendo la desviación estándar del estadístico entre la raíz cuadrada del tamaño muestral.



EJERCICIO: calcular EEM

Seleccionamos una muestra de 25 sujetos de 100 estudiantes de enfermería (población). Estos 25 sujetos se someten a un examen de la convocatoria EIR. La media de las puntuaciones de la muestra ha sido 100 con una desviación típica de 10.

Si tomamos otra muestra la media podría ser 105 o 97. Esta fluctuación entre las medias de distintas muestras es el error estándar.

Si extrajéramos 40 muestras podríamos construir un polígono de frecuencias que seguiría una DN Sin embargo, esto es una distribución teórica ya que nunca se cogen tantas muestras de una población. Para conocer el grado de dispersión entre muestras se utiliza el EEM.



EEM: 10/5=2


¿CÓMO SE CALCULA EL ERROR ESTÁNDAR PARA UNA PROPORCIÓN?



Tras una hipotética repetición del estudio, cual es la dispersión del estadístico observado

Se utiliza cuando las variables del estudio son cualitativas o atributos, por lo tanto no podemos cuantificarlos para obtener su media aritmética. P es el porcentaje o proporción a estimar.

Los resultados seguirían una distribución binomial.



TEOREMA CENTRAL DEL LÍMITE













CÁLCULO DEL INTERVALO DE CONFIANZA


Para un nivel de confianza del 95% buscamos el valor de Z en la tabla inversa de la distribución normal tipificada para dos colas. Z=1,96

1+0,95/2=0,975

Buscamos 0,975 en la tabla y el valor de Z es 1,96.





EJERCICIO DE INTERVALO DE CONFIANZA

Estudio de mujeres embarazadas. El error estándar es de 4 y el valor medio de colesterol es de 180,48 en la muestra.


Construye el intervalo de confianza del 95%

IC 95%= 180,48+- (1,96x4)= 180,48+-7,84= (172.64>media <188.32)

Sería como decir que si repitiéramos el estudio en 100 muestras diferentes de esa población, en el 95% de las muestras que se tomaran de esa población, la media de colesterol obtenida no sería ni inferior a 172.64 ni superior a 188.32, y solo   en el 5% de esas 100 muestras se obtendrían valores fuera de ese rango. 














No hay comentarios:

Publicar un comentario