En genomgång av beskrivande statistik

(27 december 2020)

Vad är statistik?

Statistik är vetenskapen om att samla in data och analysera dem för att härleda proportioner som är representativa för befolkningen. Med andra ord tolkar statistik data för att kunna förutsäga befolkningen.

Det finns två grenar av statistik.

  • BESKRIVANDE STATISTIK: Beskrivande statistik är en statistik eller ett mått som beskriver data.
  • INFERENTIAL STATISTIK: Att använda ett slumpmässigt urval av data som tagits från en population för att beskriva och göra slutsatser om befolkningen kallas Inferential Statistics.

Vi kommer att fokusera på beskrivande statistik eftersom det hjälper till att förstå datamängden och är en viktig del av maskininlärning. Detta beror på att maskininlärning handlar om att göra förutsägelser, vilket i sin tur endast är möjligt efter en grundlig förståelse av datauppsättningen som övervägs.

Beskrivande statistik

Beskrivande statistik sammanfattar data på lämna igenom vissa siffror som medelvärde, median etc. för att underlätta förståelsen av uppgifterna och är därför bara representationen av tillgängliga data.

De vanligaste måtten är

  1. Åtgärder för centraltendens
  2. Åtgärder för spridning

Mått för centraltendens

Ett mått på centraltendens är en sammanfattning av ett nummer av de data som vanligtvis beskriver mitten av datan. Dessa en siffersammanfattning är av tre typer.

  1. Medel som definieras som förhållandet mellan summan av alla observationer i data och det totala antalet observationer. Detta kallas även genomsnitt.
  2. Median vilket är punkt som delar hela data i två lika stora halvor. Hälften av uppgifterna är mindre än medianen och den andra hälften är större. Median beräknas genom att först ordna data i antingen stigande eller fallande ordning.
  • Om antalet observationer är udda, ges medianen av den mellersta observationen i sorterad form.
  • Om antalet observationer är jämna ges medianen av medelvärdet av de två mellersta observationerna i sorterad form.

3. Läge vilket är det nummer som har högst frekvens i hela datasetet, eller med andra ord, läget är det antal som visas maximalt antal gånger. En data kan ha ett eller flera lägen.

  • Om det bara finns ett nummer som visas maximalt antal gånger har data ett läge och kallas Uni-modal .
  • Om det finns två nummer som visas maximalt antal gånger har data två lägen och kallas Bi-modal .
  • Om det finns mer än två nummer som visas maximalt antal gånger, kommer data har mer än två lägen och kallas Multi-modal .

Unimodal betyder att distributionen bara har en topp, vilket innebär att den bara har en ofta förekommande poäng, grupperad högst upp. En bimodal fördelning har två värden som förekommer ofta (två toppar) och en multimodal har två eller flera ofta förekommande värden.

Dispersionsmått

Dispersionsmått beskriver spridningen av data kring mätningar av central tendens.

  1. Absolut avvikelse från medelvärde kallas även Mean Absolute Deviation (MAD), beskriver variationen i datasetet.
  2. Varians mäter hur långt datapunkter är spridda från medelvärdet. En hög varians indikerar att datapunkter är spridda i stor utsträckning och en liten varians indikerar att datapunkterna är närmare medelvärdet för datamängden.
  3. Standardavvikelse är kvadratroten av variansen.
  4. Område är skillnaden mellan maximivärdet och minimivärdet i datasetet.
  5. 5. Kvartiler är punkterna i datamängden som delar datamängden i fyra lika delar. Q1, Q2 och Q3 är den första, andra och tredje kvartilen i datasetet.
  • 25\% av datapunkterna ligger under Q1 och 75\% ligger över den.
  • 50\% av datapunkterna ligger under Q2 och 50\% ligger över det. Q2 är inget annat än Median.
  • 75\% av datapunkterna ligger under Q3 och 25\% ligger ovanför den.
Kvartiler [Bild 14] (Bild med tillstånd: https://statsmethods.wordpress.com/2013/05/09/iqr/)

6. Skewness – Måttet på asymmetri i en sannolikhetsfördelning definieras av Skewness. Det kan antingen vara positivt eller negativt.

  • Positivt skevt – Detta är fallet när svansen på höger sida av kurvan är större än den på vänster sida. För dessa fördelningar är medelvärdet större än läget.
  • Negativ skevhet – Detta är fallet när svansen på vänster sida av kurvan är större än den på höger sida. För dessa fördelningar är medelvärdet mindre än läget.

Om snedställningen är noll är fördelningen symmetrisk. Om det är negativt är fördelningen negativt skev och om det är positivt är det positivt skevt.

Skewness [Image 16] (Bild med tillstånd: https://www.safaribooksonline.com/library/view/clojure-for-data/9781784397180/ch01s13.html)

7. Kurtosis – Kurtosis beskriver huruvida uppgifterna är lätta tailed (brist på outliers) eller tunga tailed (outliers närvarande) jämfört med en normal fördelning. Det finns tre typer av kurtos:

  • Mesokurtic – Detta är fallet när kurtosen är noll, liknande de normala fördelningarna.
  • Leptokurtic – Det här är när svansen på fördelningen är tung (outlier närvarande) och kurtos är högre än den för normalfördelningen.
  • Platykurtic – Detta är när distributionens svans är lätt (ingen outlier) och kurtosis är mindre än den hos normalfördelning.
Kurtosis [Bild 19] (Bild med tillstånd: https://mvpprograms.com/help/mvpstats/distributions/SkewnessKurtosis )

OBS: Huvudskillnaden mellan skevhet och kurtos är att skevheten hänvisar till graden av symmetri, medan kurtosen avser graden av förekomst av avvikare i distributionen.