A Review of Descriptive Statistics (Italiano)

(27 dicembre 2020)

Che cosè la statistica?

La statistica è la scienza che raccoglie dati e li analizza per dedurre proporzioni rappresentative della popolazione. In altre parole, la statistica sta interpretando i dati al fine di fare previsioni per la popolazione.

Ci sono due rami della statistica.

  • STATISTICA DESCRITTIVA: la statistica descrittiva è una statistica o una misura che descrive i dati.
  • STATISTICHE INFERENZIALI: lutilizzo di un campione casuale di dati prelevati da una popolazione per descrivere e fare inferenze sulla popolazione è chiamato statistica inferenziale.

Ci concentreremo sulle statistiche descrittive in quanto aiutano a comprendere il set di dati ed è una parte importante del machine learning. Ciò è dovuto al fatto che lapprendimento automatico è incentrato sulla realizzazione di previsioni, che a sua volta è possibile solo dopo una conoscenza approfondita del set di dati in esame.

Statistiche descrittive

Statistiche descrittive riassume i dati in passare attraverso alcuni numeri come media, mediana ecc. in modo da rendere più facile la comprensione dei dati e quindi è solo la rappresentazione dei dati disponibili.

Le misure più comunemente utilizzate sono

  1. Misure di tendenza centrale
  2. Misure di dispersione

Misure di tendenza centrale

Una misura di tendenza centrale è un sommario numerico dei dati che in genere descrivono il centro dei dati. Questi un riepilogo numerico sono di tre tipi.

  1. Media che è definita come rapporto tra la somma di tutte le osservazioni nei dati e il numero totale di osservazioni. Questa è anche nota come Media.
  2. Mediana che è punto che divide tutti i dati in due metà uguali. La metà dei dati è inferiore alla mediana e laltra metà è maggiore. La mediana viene calcolata disponendo prima i dati in ordine crescente o decrescente.
  • Se il numero di osservazioni è dispari, la mediana è data dallosservazione centrale nella forma ordinata.
  • Se il numero di osservazioni è pari, la mediana è data dalla media delle due osservazioni centrali nella forma ordinata.

3. Modalità che è il numero massimo la frequenza nellintero set di dati, o in altre parole, la modalità è il numero che appare il numero massimo di volte. Un dato può avere una o più modalità.

  • Se è presente un solo numero che appare il numero massimo di volte, i dati hanno una modalità e si chiamano Uni-modal .
  • Se ci sono due numeri che compaiono il numero massimo di volte, i dati hanno due modalità e vengono chiamati Bi-modale .
  • Se sono presenti più di due numeri che vengono visualizzati il ​​numero massimo di volte, i dati ha più di due modalità e si chiama Multimodale .

Unimodal significa che la distribuzione ha un solo picco, il che significa che ha solo un punteggio che si verifica frequentemente, raggruppato nella parte superiore. Una distribuzione bimodale ha due valori che si verificano frequentemente (due picchi) e una multimodale ha due o più valori ricorrenti.

Misure di dispersione

Misure di dispersione descrive la diffusione dei dati attorno alle Misure di tendenza centrale.

  1. Deviazione assoluta dalla media chiamato anche Mean Absolute Deviation (MAD), descrive la variazione nel set di dati.
  2. Varianza misura la distanza tra i punti dati dalla media. Una varianza elevata indica che i punti dati sono ampiamente distribuiti e una piccola varianza indica che i punti dati sono più vicini alla media del set di dati.
  3. Deviazione standard è la radice quadrata della varianza.
  4. Intervallo è la differenza tra il valore massimo e il valore minimo nel set di dati.
  5. 5. I quartili sono i punti nel set di dati che divide il set di dati in quattro parti uguali. Q1, Q2 e Q3 sono il primo, secondo e terzo quartile del set di dati.
  • Il 25\% dei punti dati si trova al di sotto di Q1 e il 75\% al ​​di sopra di esso.
  • Il 50\% dei punti dati si trova al di sotto del secondo trimestre e il 50\% al di sopra. Q2 non è altro che mediana.
  • Il 75\% dei punti dati si trova al di sotto del terzo trimestre e il 25\% al ​​di sopra di esso.
Quartiles [Immagine 14] (Immagine per gentile concessione: https://statsmethods.wordpress.com/2013/05/09/iqr/)

6. Asimmetria – La misura dellasimmetria in una distribuzione di probabilità è definita da Asimmetria. Può essere positivo o negativo.

  • Inclinazione positiva: questo è il caso in cui la coda sul lato destro della curva è più grande di quella sul lato sinistro. Per queste distribuzioni, la media è maggiore della modalità.
  • Inclinazione negativa: questo è il caso in cui la coda sul lato sinistro della curva è più grande di quella sul lato destro. Per queste distribuzioni, la media è inferiore alla modalità.

Se lasimmetria è zero, la distribuzione è simmetrica. Se è negativo, la distribuzione è inclinata negativamente e se è positiva, è inclinata positivamente.

Asimmetria [Immagine 16] (Immagine gentilmente concessa da: https://www.safaribooksonline.com/library/view/clojure-for-data/9781784397180/ch01s13.html)

7. Curtosi – La curtosi descrive se i dati sono a coda leggera (mancanza di valori anomali) o a coda pesante (sono presenti valori anomali) rispetto a una distribuzione normale. Esistono tre tipi di curtosi:

  • Mesokurtic – Questo è il caso in cui la curtosi è zero, simile alle distribuzioni normali.
  • Leptokurtic – Questo è quando la coda di la distribuzione è pesante (outlier presente) e la curtosi è superiore a quella della distribuzione normale.
  • Platykurtic – Questo è quando la coda della distribuzione è leggera (nessun valore anomalo) e la curtosi è minore di quella del distribuzione normale.
Curtosi [Immagine 19] (Immagine per gentile concessione: https://mvpprograms.com/help/mvpstats/distributions/SkewnessKurtosis )

NOTA: La differenza principale tra asimmetria e curtosi è che lasimmetria si riferisce al grado di simmetria, mentre la curtosi si riferisce al grado di presenza di valori anomali nella distribuzione.