En gennemgang af beskrivende statistik

(27. december 2020)

Hvad er statistik?

Statistik er videnskaben om at indsamle data og analysere dem for at udlede proportioner, der er repræsentative for befolkningen. Med andre ord fortolker statistik data for at forudsige befolkningen.

Der er to grene af statistik.

  • BESKRIVENDE STATISTIK: Beskrivende statistik er en statistik eller et mål, der beskriver dataene.
  • INFERENTIELLE STATISTIK: Brug af en tilfældig stikprøve af data taget fra en population til at beskrive og udlede konklusioner om populationen kaldes Inferential Statistics.

Vi vil fokusere på beskrivende statistik, da det hjælper med at forstå datasættet og er en vigtig del af Machine Learning. Dette skyldes, at Machine Learning handler om at komme med forudsigelser, hvilket igen kun er muligt efter en grundig forståelse af datasættet, der overvejes.

Beskrivende statistik

Beskrivende statistik opsummerer dataene hånd gennem bestemte tal som gennemsnit, median osv. for at gøre forståelsen af ​​data lettere og er derfor kun repræsentationen af ​​de tilgængelige data.

De mest anvendte mål er

  1. Mål for central tendens
  2. Dispersionsmål

Mål for central tendens

Et mål for central tendens er et resumé af et tal af de data, der typisk beskriver datacentret. Disse et taloversigter er af tre typer.

  1. Gennemsnit der er defineret som forholdet mellem summen af ​​alle observationer i dataene og det samlede antal observationer. Dette er også kendt som gennemsnit.
  2. Median som er punkt, der deler hele data i to lige store halvdele. Halvdelen af ​​dataene er mindre end medianen, og den anden halvdel er større. Median beregnes ved først at arrangere dataene i enten stigende eller faldende rækkefølge.
  • Hvis antallet af observationer er ulige, gives medianen af ​​den midterste observation i den sorterede form.
  • Hvis antallet af observationer er jævnt, gives medianen af ​​middelværdien af ​​de to midterste observationer i den sorterede form.

Mode som er det nummer, der har det maksimale frekvens i hele datasættet, eller med andre ord, tilstand er det antal, der vises det maksimale antal gange. En data kan have en eller flere tilstande.

  • Hvis der kun er et nummer, der vises maksimalt antal gange, har dataene en tilstand og kaldes Uni-modal .
  • Hvis der er to tal, der vises maksimalt antal gange, har dataene to tilstande og kaldes Bi-modal .
  • Hvis der er mere end to tal, der vises maksimalt antal gange, vises dataene har mere end to tilstande og kaldes Multi-modal .

Unimodal betyder, at fordelingen kun har en top, hvilket betyder, at den kun har en hyppigt forekommende score, grupperet øverst. En bimodal fordeling har to værdier, der forekommer ofte (to toppe), og en multimodal har to eller flere hyppigt forekommende værdier.

Dispersionsmål

Målinger af spredning beskriver spredningen af ​​dataene omkring målingerne af central tendens.

  1. Absolut afvigelse fra gennemsnit også kaldet Mean Absolute Deviation (MAD), beskriver variationen i datasættet.
  2. Varians måler, hvor langt er datapunkter spredt fra gennemsnittet. En høj varians indikerer, at datapunkter er spredt bredt, og en lille varians angiver, at datapunkterne er tættere på gennemsnittet af datasættet.
  3. Standardafvigelse er kvadratroden af ​​variansen.
  4. Område er forskellen mellem den maksimale værdi og den mindste værdi i datasættet.
  5. 5. Kvartiler er de punkter i datasættet, der deler datasættet i fire lige store dele. Q1, Q2 og Q3 er den første, anden og tredje kvartil i datasættet.
  • 25\% af datapunkterne ligger under Q1 og 75\% ligger over det.
  • 50\% af datapunkterne ligger under Q2 og 50\% ligger over det. Q2 er intet andet end median.
  • 75\% af datapunkterne ligger under Q3 og 25\% ligger over det.
Kvartiler [Billede 14] (Billede med tilladelse: https://statsmethods.wordpress.com/2013/05/09/iqr/)

6. Skævhed – Målingen på asymmetri i en sandsynlighedsfordeling er defineret af skævhed. Det kan enten være positivt eller negativt.

  • Positivt skævt – Dette er tilfældet, når halen på højre side af kurven er større end den på venstre side. For disse fordelinger er middelværdien større end tilstanden.
  • Negativ skævhed – Dette er tilfældet, når halen på venstre side af kurven er større end den på højre side. For disse fordelinger er middelværdien mindre end tilstanden.

Hvis skævheden er nul, er fordelingen symmetrisk. Hvis den er negativ, er fordelingen negativt skæv, og hvis den er positiv, er den skævt positivt.

Skævhed [Billede 16] (Billede med tilladelse: https://www.safaribooksonline.com/library/view/clojure-for-data/9781784397180/ch01s13.html)

7. Kurtosis – Kurtosis beskriver, om dataene er lette tailed (mangel på outliers) eller heavy tailed (outliers til stede) sammenlignet med en normalfordeling. Der er tre slags kurtose:

  • Mesokurtic – Dette er tilfældet, når kurtosen er nul, svarende til de normale fordelinger.
  • Leptokurtic – Dette er når halen på fordelingen er tung (outlier til stede) og kurtosis er højere end normalfordelingens.
  • Platykurtic – Dette er når distributionens hale er lys (ingen outlier) og kurtosis er mindre end den hos normalfordeling.
Kurtosis [Image 19] (Image courtesy: https://mvpprograms.com/help/mvpstats/distributions/SkewnessKurtosis )

BEMÆRK: Hovedforskellen mellem skævhed og kurtose er, at skævheden refererer til graden af ​​symmetri, mens kurtosen refererer til graden af tilstedeværelse af afvigende i distributionen.