Las medidas de dispersión son importantes porque nos hablan de la variabilidad que encontramos en una determinada muestra o población. Cuando hablamos de muestra, esta dispersión es importante porque condiciona el error que vamos a tener a la hora de hacer inferencias para medidas de tendencia central, como la media.
En una distribución de datos, las medidas de dispersión tienen un papel muy importante. Estas medidas complementan a las de posición central, caracterizando la variabilidad de los datos.
Así, las medidas de tendencia central indican valores con respecto a los que los datos parecen agruparse. Son recomendadas para inferir el comportamiento de variables en poblaciones y muestras. Algunos ejemplos de ellas son la media aritmética, la moda o la mediana (1).
Las medidas de dispersión complementan a estas medidas de tendencia central. Además, son esenciales en una distribución de datos. Esto es porque caracterizan la variabilidad de los datos. Su relevancia en la formación estadística ha sido señalada por Wild y Pfannkuch (1999).
En estas medidas, la percepción de la variabilidad de los datos es uno de los componentes básicos en el pensamiento estadístico. La percepción de la variabilidad de los datos nos da información sobre la dispersión de los datos con respecto a un promedio o media.
La media aritmética es muy usada en la práctica, pero muchas veces puede interpretarse mal. Esto pasará cuando los valores de la variable estén muy dispersos. En estas ocasiones es cuando hace falta acompañar la media de las medidas de dispersión (2).
En las medidas de dispersión, hay tres componentes importantes relacionados con la variabilidad aleatoria (2):
- La percepción de su ubicuidad en el mundo que nos rodea.
- La competencia para su explicación.
- La habilidad de cuentificarla (que implica comprender y saber aplicar el concepto de dispersión).
¿Para qué sirven las medidas de dispersión?
En un estudio estadístico, a la hora de generalizar los datos de una muestra de una población las medidas de dispersión son muy importantes ya que condicionan de manera directa el error con el que trabajemos. Así, cuanta más dispersión recojamos en una muestra, más tamaño necesitaremos para trabajar con el mismo error.
Por otro lado, estas medidas nos ayudan a determinar si nuestros datos se alejan mucho del valor central. Con ello, nos dan información de si este valor central es adecuado para representar la población de estudio. Esto es muy útil para comparar distribuciones y comprender los riesgos en la toma de decisiones (1).
Estas medidas son muy útiles para comparar distribuciones y comprender los riesgos en la toma de decisiones. A mayor dispersión, menos representativo es el valor central. Estas son las más utilizadas:
- Recorrido o rango.
- La desviación media.
- Varianza.
- La desviación típica o estándar.
- El coeficiente de variación.
Funciones de cada una de las medidas de dispersión
Rango
En primer lugar, el rango está recomendado para una comparación primaria. De esta manera, considera solo las dos observaciones extremas. Por eso se recomienda solo para muestras pequeñas (1). Se define como la diferencia entre el último valor de la variable y el primero (3).
Desviación estadística
Por su parte, la desviación media indica dónde estarían concentrados los datos si todos estuvieran a la misma distancia de la media aritmética (1). Consideramos la desviación de un valor de la variable como la diferencia en valor absoluto entre ese valor de la variable y la media aritmética de la serie. Así pues, se considera como la media aritmética de las desviaciones (3).
Varianza
La varianza es una función algebraica de todos los valores, apropiada para tareas de estadística inferencial (1). Se puede definir como las desviaciones al cuadrado (3).
Desviación estándar o típica
Para muestras extraídas de la misma población, la desviación estándar es de las más utilizadas (1). Se trata de la raíz cuadrada de la varianza (3).
Coeficiente de variación
Se trata de una medida utilizada principalmente para comparar la variación entre dos conjuntos de datos medidos en diferentes unidades. Por ejemplo, estatura y peso corporal de los alumnos de una muestra. Así, se utiliza para determinar en qué distribución están más agrupados los datos y la media es más representativa (1).
El coeficiente de variación es una medida de dispersión más representativa que las anteriores, porque es un número abstracto. Es decir, es independiente de las unidades en que figuren los valores de la variable. En general, este coeficiente de variación suele expresarse en tanto por ciento (3).
Así pues, estas medidas de dispersión indicarán por un lado el grado de variabilidad que hay en la muestra. Por el otro lado, indicarán la representatividad del valor central, ya que si se obtiene un valor pequeño, significará que los valores se concentran en torno a ese centro.
Esto significaría que hay poca variabilidad en los datos y el centro representa bien a todos. En cambio, si se obtiene un valor grande, significará que los valores no están concentrados, sino dispersos. Esto significará que hay mucha variabilidad y el centro no será muy representativo. Por otro lado, a la hora de hacer inferencias necesitaremos un tamaño de muestra más grande si queremos reducir el error, aumentado precisamente por el incremento de la variabilidad.
No hay comentarios:
Publicar un comentario