Revisión de estadísticas descriptivas

(27 de diciembre de 2020)

¿Qué es la estadística?

La estadística es la ciencia de recopilar datos y analizarlos para inferir proporciones representativas de la población. En otras palabras, la estadística es interpretar datos con el fin de hacer predicciones para la población.

Hay dos ramas de la estadística.

  • ESTADÍSTICA DESCRIPTIVA: La estadística descriptiva es una estadística o una medida que describe los datos.
  • ESTADÍSTICAS INFERENCIALES: El uso de una muestra aleatoria de datos tomados de una población para describir y hacer inferencias sobre la población se denomina Estadística inferencial.

Nos centraremos en las estadísticas descriptivas, ya que ayuda a comprender el conjunto de datos y es una parte importante del aprendizaje automático. Esto se debe a que el aprendizaje automático se trata de hacer predicciones que, a su vez, solo es posible después de una comprensión profunda del conjunto de datos en consideración.

Estadísticas descriptivas

Las estadísticas descriptivas están resumiendo los datos en pasar por ciertos números como media, mediana, etc. para facilitar la comprensión de los datos y, por lo tanto, es solo la representación de los datos disponibles.

Las medidas más comúnmente utilizadas son

  1. Medidas de tendencia central
  2. Medidas de dispersión

Medidas de tendencia central

Una medida de tendencia central es un resumen de un número de los datos que normalmente describe el centro de los datos. Estos resúmenes de un número son de tres tipos.

  1. Significa que se define como la relación entre la suma de todas las observaciones de los datos y el número total de observaciones. Esto también se conoce como Promedio.
  2. Mediana que es el punto que divide todos los datos en dos mitades iguales. La mitad de los datos es menor que la mediana y la otra mitad es mayor. La mediana se calcula ordenando primero los datos en orden ascendente o descendente.
  • Si el número de observaciones es impar, la mediana viene dada por la observación del medio en la forma ordenada.
  • Si el número de observaciones es par, la mediana viene dada por la media de las dos observaciones del medio en la forma ordenada.

3. Modo que es el número que tiene el máximo La frecuencia en todo el conjunto de datos, o en otras palabras, el modo es el número que aparece el número máximo de veces. Un dato puede tener uno o más de un modo.

  • Si solo hay un número que aparece el número máximo de veces, el dato tiene un modo y se llama Uni-modal .
  • Si hay dos números que aparecen el máximo número de veces, los datos tienen dos modos y se denominan Bi-modal .
  • Si hay más de dos números que aparecen el número máximo de veces, los datos tiene más de dos modos y se llama Multi-modal .

Unimodal significa que la distribución tiene solo un pico, lo que significa que solo tiene una puntuación frecuente, agrupada en la parte superior. Una distribución bimodal tiene dos valores que ocurren con frecuencia (dos picos) y una multimodal tiene dos o varios valores que ocurren con frecuencia.

Medidas de dispersión

Medidas de dispersión describe la distribución de los datos en torno a las Medidas de tendencia central.

  1. Desviación absoluta de la media también llamado Desviación Media Absoluta (MAD), describe la variación en el conjunto de datos.
  2. Varianza mide la distancia entre los puntos de datos y la media. Una variación alta indica que los puntos de datos se distribuyen ampliamente y una variación pequeña indica que los puntos de datos están más cerca de la media del conjunto de datos.
  3. Desviación estándar es la raíz cuadrada de la varianza.
  4. Rango es la diferencia entre el valor máximo y el valor mínimo en el conjunto de datos.
  5. 5. Los cuartiles son los puntos del conjunto de datos que lo dividen en cuatro partes iguales. Q1, Q2 y Q3 son el primer, segundo y tercer cuartil del conjunto de datos.
  • El 25\% de los puntos de datos se encuentran por debajo del Q1 y el 75\% por encima.
  • El 50\% de los puntos de datos se encuentran por debajo del segundo trimestre y el 50\% por encima. Q2 no es más que la mediana.
  • El 75\% de los puntos de datos están por debajo del tercer trimestre y el 25\% por encima.
Cuartiles [Imagen 14] (Imagen cortesía: https://statsmethods.wordpress.com/2013/05/09/iqr/)

6. Asimetría : la medida de asimetría en una distribución de probabilidad se define mediante la asimetría. Puede ser positivo o negativo.

  • Sesgo positivo: este es el caso cuando la cola del lado derecho de la curva es más grande que la del lado izquierdo. Para estas distribuciones, la media es mayor que la moda.
  • Desviación negativa: este es el caso cuando la cola del lado izquierdo de la curva es más grande que la del lado derecho. Para estas distribuciones, la media es menor que la moda.

Si la asimetría es cero, la distribución es simétrica. Si es negativa, la distribución está sesgada negativamente y si es positiva, está sesgada positivamente.

Skewness [Image 16] (Imagen cortesía: https://www.safaribooksonline.com/library/view/clojure-for-data/9781784397180/ch01s13.html)

7. Curtosis : la curtosis describe si los datos son de cola ligera (falta de valores atípicos) o de cola pesada (presencia de valores atípicos) en comparación con una distribución normal. Hay tres tipos de curtosis:

  • Mesocúrtica: este es el caso cuando la curtosis es cero, similar a las distribuciones normales.
  • Leptocurtica: esto es cuando la cola de la distribución es pesada (presente un valor atípico) y la curtosis es más alta que la de la distribución normal.
  • Platykurtic: esto es cuando la cola de la distribución es ligera (sin valores atípicos) y la curtosis es menor que la de la distribución distribución normal.
Curtosis [Imagen 19] (Imagen cortesía: https://mvpprograms.com/help/mvpstats/distributions/SkewnessKurtosis )

NOTA: La principal diferencia entre la asimetría y la curtosis es que la asimetría se refiere al grado de simetría, mientras que la curtosis se refiere al grado de presencia de valores atípicos en la distribución.