O revizuire a statisticilor descriptive

(27 dec. 2020)

Ce este Statistica?

Statistica este știința colectării datelor și analizarea acestora pentru a deduce proporții reprezentative pentru populație. Cu alte cuvinte, statisticile interpretează datele pentru a face predicții pentru populație.

Există două ramuri ale Statisticii.

  • STATISTICI DESCRIPTIVE: Statistica descriptivă este o statistică sau o măsură care descrie datele.
  • STATISTICI INFERENȚIALE: utilizarea unui eșantion aleatoriu de date preluate de la o populație pentru a descrie și a face inferențe despre populație se numește Statistici inferențiale.

Ne vom concentra pe Statistica descriptivă, deoarece ajută la înțelegerea setului de date și este o parte importantă a învățării automate. Acest lucru se datorează faptului că Machine Learning se referă la realizarea de predicții, care, la rândul lor, este posibilă doar după o înțelegere aprofundată a setului de date în cauză. transmiteți anumite numere, cum ar fi media, mediana etc., astfel încât să ușurați înțelegerea datelor și, prin urmare, este doar reprezentarea datelor disponibile.

Cele mai utilizate măsuri sunt

  1. Măsuri de tendință centrală
  2. Măsuri de dispersie

Măsuri de tendință centrală

O măsură de tendință centrală este un rezumat cu un număr a datelor care descriu de obicei centrul datelor. Acest rezumat cu un singur număr este de trei tipuri.

  1. Medie care este definită ca raport dintre suma tuturor observațiilor din date și numărul total de observații. Aceasta este, de asemenea, cunoscută sub numele de Media.
  2. Mediană care este punct care împarte toate datele în două jumătăți egale. Jumătate din date este mai mică decât mediana, iar cealaltă jumătate este mai mare. Mediana se calculează aranjând mai întâi datele în ordine crescătoare sau descendentă.
  • Dacă numărul de observații este impar, mediana este dată de observația de mijloc în formă sortată.
  • Dacă numărul de observații este par, media este dată de media celor două observații medii în formă sortată.

3. Mod care este numărul care are maximul frecvența în întregul set de date sau, cu alte cuvinte, modul este numărul care apare de numărul maxim de ori. O dată poate avea unul sau mai multe moduri.

  • Dacă există un singur număr care apare de maximum de ori, datele au un singur mod și se numește Uni-modal .
  • Dacă există două numere care apar de maximum de ori, datele au două moduri și se numesc Bi-modal .
  • Dacă există mai mult de două numere care apar de maximum de ori, datele are mai mult de două moduri și se numește Multi-modal .

Unimodal înseamnă că distribuția are un singur vârf, ceea ce înseamnă că are un singur scor frecvent, grupat în partea de sus. O distribuție bimodală are două valori care apar frecvent (două vârfuri), iar o multimodală are două sau mai multe valori care apar frecvent.

Măsuri de dispersie

Măsuri de dispersie descrie răspândirea datelor în jurul măsurilor de tendință centrală.

  1. Abaterea absolută de la medie numit și Deviația medie absolută (MAD), descrie variația din setul de date.
  2. Varianță măsoară cât de departe sunt distribuite punctele de date față de medie. O varianță ridicată indică faptul că punctele de date sunt răspândite pe scară largă și o mică varianță indică faptul că punctele de date sunt mai apropiate de media setului de date.
  3. Abaterea standard este rădăcina pătrată a varianței.
  4. Interval este diferența dintre valoarea maximă și valoarea minimă din setul de date.
  5. 5. Quartile sunt punctele din setul de date care împarte setul de date în patru părți egale. Q1, Q2 și Q3 sunt primul, al doilea și al treilea quartile din setul de date.
  • 25\% din punctele de date se află sub Q1 și 75\% se află deasupra acestuia.
  • 50\% din punctele de date se situează sub Q2 și 50\% se află deasupra acestuia. Q2 nu este altceva decât Median.
  • 75\% din punctele de date se află sub Q3 și 25\% se află deasupra acestuia.
Quartile [Image 14] (Image courtesy: https://statsmethods.wordpress.com/2013/05/09/iqr/)

6. Skewness – Măsura asimetriei într-o distribuție de probabilitate este definită de Skewness. Poate fi fie pozitiv, fie negativ.

  • Oblicitate pozitivă – Acesta este cazul când coada din partea dreaptă a curbei este mai mare decât cea din partea stângă. Pentru aceste distribuții, media este mai mare decât modul.
  • Înclinare negativă – Acesta este cazul când coada din partea stângă a curbei este mai mare decât cea din partea dreaptă. Pentru aceste distribuții, media este mai mică decât modul.

Dacă asimetria este zero, distribuția este simetrică. Dacă este negativă, distribuția este înclinată negativ și, dacă este pozitivă, este înclinată pozitiv.

Skewness [Image 16] (Image courtesy: https://www.safaribooksonline.com/library/view/clojure-for-data/9781784397180/ch01s13.html)

7. Kurtosis – Kurtosis descrie dacă datele sunt cu coadă ușoară (lipsă de valori aberante) sau cu coadă grea (valori aberante prezente) în comparație cu o distribuție normală. Există trei tipuri de Kurtosis:

  • Mesokurtic – Acesta este cazul când kurtosis este zero, similar cu distribuțiile normale.
  • Leptokurtic – Acesta este momentul în care coada distribuția este grea (prezentul outlier este prezent) și kurtosis este mai mare decât cea a distribuției normale.
  • Platykurtic – Aceasta este atunci când coada distribuției este ușoară (fără outlier) și kurtosis este mai mică decât cea a distribuție normală.
Kurtosis [Imagine 19] (Amabilitatea imaginii: https://mvpprograms.com/help/mvpstats/distributions/SkewnessKurtosis )

NOTĂ: Principala diferență între asimetrie și kurtoză este că asimetria se referă la gradul de simetrie, în timp ce kurtoză se referă la gradul de prezența valorilor aberante în distribuție.