En gjennomgang av beskrivende statistikk

(27. desember 2020)

Hva er statistikk?

Statistikk er vitenskapen om å samle inn data og analysere dem for å utlede proporsjoner som er representative for befolkningen. Med andre ord tolker statistikk data for å kunne forutsi befolkningen.

Det er to grener av statistikk.

  • BESKRIVELSE STATISTIKK: Beskrivende statistikk er en statistikk eller et mål som beskriver dataene.
  • INFERENTIELLE STATISTIKK: Ved å bruke et tilfeldig utvalg av data hentet fra en populasjon for å beskrive og gjøre slutninger om populasjonen kalles Inferential Statistics.

Vi vil fokusere på beskrivende statistikk, da det hjelper å forstå datasettet og er en viktig del av maskinlæring. Dette skyldes at maskinlæring handler om å lage spådommer, som igjen bare er mulig etter en grundig forståelse av datasettet som blir vurdert.

Beskrivende statistikk

Beskrivende statistikk oppsummerer dataene på hånd gjennom bestemte tall som gjennomsnitt, median osv. for å gjøre forståelsen av data lettere og er derfor bare representasjonen av tilgjengelige data.

De mest brukte tiltakene er

  1. Målinger av sentral tendens
  2. Målinger av spredning

Målinger av sentral tendens

Et mål for sentral tendens er et sammendrag av ett tall av dataene som vanligvis beskriver sentrum av dataene. Disse ett tallsammendragene er av tre typer.

  1. Gjennomsnitt som er definert som forholdet mellom summen av alle observasjonene i dataene og det totale antallet observasjoner. Dette kalles også gjennomsnitt.
  2. Median som er punkt som deler hele data i to like halvdeler. Halvparten av dataene er mindre enn medianen, og den andre halvparten er større. Median beregnes ved å først ordne dataene i enten stigende eller synkende rekkefølge.
  • Hvis antall observasjoner er merkelige, blir medianen gitt av den midterste observasjonen i sortert form.
  • Hvis antall observasjoner er jevne, blir medianen gitt av gjennomsnittet av de to midtre observasjonene i sortert form.

Mode som er tallet som har maksimum frekvens i hele datasettet, eller med andre ord, modus er antallet som vises maksimalt antall ganger. En data kan ha en eller flere moduser.

  • Hvis det bare er ett tall som vises maksimalt antall ganger, har dataene en modus og kalles Uni-modal .
  • Hvis det er to tall som vises maksimalt antall ganger, har dataene to modi, og kalles Bi-modal .
  • Hvis det er mer enn to tall som vises maksimalt antall ganger, blir dataene har mer enn to moduser, og kalles Multimodal .
Unimodal betyr at fordelingen bare har en topp, noe som betyr at den bare har en hyppig forekommende score, gruppert øverst. En bimodal fordeling har to verdier som forekommer ofte (to topper) og en multimodal har to eller flere hyppig forekommende verdier.

Dispersionsmåler

Målinger av spredning beskriver spredningen av dataene rundt målingene av sentral tendens.

  1. Absolutt avvik fra gjennomsnitt også kalt Mean Absolute Deviation (MAD), beskriver variasjonen i datasettet.
  2. Varians måler hvor langt er datapunkter spredt fra gjennomsnittet. En høy varians indikerer at datapunktene er spredt vidt, og en liten varians indikerer at datapunktene er nærmere gjennomsnittet av datasettet.
  3. Standardavvik er kvadratroten til variansen.
  4. Område er forskjellen mellom maksimumsverdien og minimumsverdien i datasettet.
  5. 5. Kvartiler er punktene i datasettet som deler datasettet i fire like deler. Q1, Q2 og Q3 er den første, andre og tredje kvartilen i datasettet.
  • 25\% av datapunktene ligger under Q1 og 75\% ligger over det.
  • 50\% av datapunktene ligger under Q2 og 50\% ligger over det. Q2 er bare Median.
  • 75\% av datapunktene ligger under Q3 og 25\% ligger over den.
Kvartiler [bilde 14] (bilde med tillatelse: https://statsmethods.wordpress.com/2013/05/09/iqr/)

6. Skjevhet – Tiltaket for asymmetri i en sannsynlighetsfordeling er definert av skjevhet. Det kan enten være positivt eller negativt.

  • Positiv skjevhet – Dette er tilfelle når halen på høyre side av kurven er større enn den på venstre side. For disse distribusjonene er gjennomsnittet større enn modusen.
  • Negativ skjevhet – Dette er tilfelle når halen på venstre side av kurven er større enn den på høyre side. For disse fordelingene er gjennomsnittet mindre enn modusen.

Hvis skjevheten er null, er fordelingen symmetrisk. Hvis den er negativ, er fordelingen negativt skjev, og hvis den er positiv, er den positivt skjev.

Skewness [Image 16] (Image courtesy: https://www.safaribooksonline.com/library/view/clojure-for-data/9781784397180/ch01s13.html)

7. Kurtosis – Kurtosis beskriver om dataene er lette tailed (mangel på outliers) eller heavy tailed (outliers til stede) sammenlignet med en normalfordeling. Det er tre typer kurtose:

  • Mesokurtic – Dette er tilfelle når kurtosen er null, ligner på normalfordelingene.
  • Leptokurtic – Dette er når halen på distribusjonen er tung (outlier tilstede) og kurtosis er høyere enn normalfordelingen.
  • Platykurtic – Dette er når distribusjonens hale er lett (ingen outlier) og kurtosis er mindre enn den til normalfordeling.
Kurtosis [Image 19] (Image courtesy: https://mvpprograms.com/help/mvpstats/distributions/SkewnessKurtosis )

MERK: Hovedforskjellen mellom skjevhet og kurtose er at skjevheten refererer til graden av symmetri, mens kurtosen refererer til graden av tilstedeværelse av avvikere i distribusjonen.