Przegląd statystyk opisowych

(27 grudnia 2020 r.)

Co to są statystyki?

Statystyka to nauka o zbieraniu danych i analizowaniu ich w celu ustalenia proporcji reprezentatywnych dla populacji. Innymi słowy, statystyki interpretują dane w celu tworzenia prognoz dla populacji.

Istnieją dwie gałęzie statystyki.

  • STATYSTYKA OPISOWA: Statystyka opisowa to statystyka lub miara opisująca dane.
  • STATYSTYKA INFERENCYJNA: Używanie losowej próbki danych pobranych z populacji do opisu i wnioskowania na temat populacji nazywa się statystyką wnioskowania.

Skoncentrujemy się na statystykach opisowych, ponieważ pomagają one zrozumieć zbiór danych i są ważną częścią uczenia maszynowego. Wynika to z faktu, że uczenie maszynowe polega na tworzeniu prognoz, co z kolei jest możliwe tylko po dokładnym zrozumieniu rozważanego zbioru danych.

Statystyki opisowe

Statystyki opisowe podsumowują dane w przekazać pewne liczby, takie jak średnia, mediana itp., aby ułatwić zrozumienie danych i dlatego jest to tylko przedstawienie dostępnych danych.

Najczęściej używanymi miarami są

  1. Miary tendencji centralnej
  2. Miary dyspersji

Miary tendencji centralnej

Miarą tendencji centralnej jest podsumowanie jednowymiarowe danych, które zazwyczaj opisują środek danych. Te jedno podsumowanie liczb są trzech typów.

  1. Średnia , która jest zdefiniowana jako stosunek sumy wszystkich obserwacji w danych do całkowitej liczby obserwacji. Jest to również znane jako średnia.
  2. Mediana , czyli punkt, który dzieli całe dane na dwie równe połowy. Połowa danych jest mniejsza niż mediana, a druga połowa jest większa. Medianę oblicza się najpierw porządkując dane w porządku rosnącym lub malejącym.
  • Jeśli liczba obserwacji jest nieparzysta, medianę podaje się w postaci środkowej obserwacji w posortowanej formie.
  • Jeśli liczba obserwacji jest parzysta, mediana jest podana jako średnia z dwóch środkowych obserwacji w posortowanej formie.

3. Tryb czyli liczba, która ma maksimum częstotliwość w całym zbiorze danych, czyli innymi słowy, tryb to liczba, która pojawia się maksymalna liczba razy. Dane mogą mieć jeden lub więcej trybów.

  • Jeśli jest tylko jedna liczba, która pojawia się maksymalna liczba razy, dane mają jeden tryb i nazywa się Uni-modal .
  • Jeśli istnieją dwie liczby, które pojawiają się maksymalną liczbę razy, dane mają dwa tryby i są nazywane Bi-modal .
  • Jeśli istnieją więcej niż dwie liczby, które pojawiają się maksymalną liczbę razy, dane ma więcej niż dwa tryby i nazywa się Multimodalny .

Unimodal oznacza, że ​​dystrybucja ma tylko jeden szczyt, co oznacza, że ​​ma tylko jeden często występujący wynik, zgrupowany na górze. Rozkład bimodalny ma dwie wartości, które występują często (dwa piki), a multimodalny ma dwie lub kilka często występujących wartości.

Miary rozproszenia

Miary dyspersji opisują rozprzestrzenianie się danych wokół miar tendencji centralnej.

  1. Bezwzględne odchylenie od średniej zwany także Średnim odchyleniem bezwzględnym (MAD), opisuje odchylenie w zbiorze danych.
  2. Wariancja mierzy, jak bardzo punkty danych różnią się od średniej. Wysoka wariancja wskazuje, że punkty danych są szeroko rozproszone, a mała wariancja wskazuje, że punkty danych są bliżej średniej ze zbioru danych.
  3. Odchylenie standardowe to pierwiastek kwadratowy z wariancji.
  4. Zakres to różnica między wartością maksymalną a wartością minimalną w zbiorze danych.
  5. 5. Kwartyle to punkty w zbiorze danych, które dzielą zbiór danych na cztery równe części. Q1, Q2 i Q3 to pierwszy, drugi i trzeci kwartyl zbioru danych.
  • 25\% punktów danych znajduje się poniżej Q1, a 75\% powyżej niego.
  • 50\% punktów danych znajduje się poniżej Q2, a 50\% powyżej niego. Q2 to nic innego jak mediana.
  • 75\% punktów danych znajduje się poniżej trzeciego kwartału, a 25\% powyżej niego.
Kwartyle [Zdjęcie 14] (Zdjęcie dzięki uprzejmości: https://statsmethods.wordpress.com/2013/05/09/iqr/)

6. Skośność – miara asymetrii w rozkładzie prawdopodobieństwa jest definiowana przez Skośność. Może być dodatnia lub ujemna.

  • Pochylenie dodatnie – Dzieje się tak, gdy ogon po prawej stronie krzywej jest większy niż po lewej stronie. W przypadku tych rozkładów średnia jest większa niż tryb.
  • Ujemne pochylenie – Dzieje się tak, gdy ogon po lewej stronie krzywej jest większy niż po prawej stronie. W przypadku tych rozkładów średnia jest mniejsza niż tryb.

Jeśli skośność wynosi zero, rozkład jest symetryczny. Jeśli jest ujemny, rozkład jest ujemnie pochylony, a jeśli jest dodatni, jest dodatnio pochylony.

Skośność [Zdjęcie 16] (Zdjęcie dzięki uprzejmości: https://www.safaribooksonline.com/library/view/clojure-for-data/9781784397180/ch01s13.html)

7. Kurtoza – Kurtoza opisuje, czy dane są lekko ogonione (brak wartości odstających) czy mocno ogonione (obecne wartości odstające) w porównaniu z rozkładem normalnym. Istnieją trzy rodzaje kurtozy:

  • mezokurtyka – ma to miejsce, gdy kurtoza wynosi zero, podobnie do rozkładów normalnych.
  • leptokurtyczny – to wtedy ogon rozkład jest ciężki (występuje wartość odstająca), a kurtooza jest wyższa niż w rozkładzie normalnym.
  • Platykurtic – występuje wtedy, gdy ogon rozkładu jest lekki (bez wartości odstających), a kurtooza jest mniejsza niż normalna dystrybucja.
Kurtosis [Obraz 19] (Zdjęcie dzięki uprzejmości: https://mvpprograms.com/help/mvpstats/distributions/SkewnessKurtosis )

UWAGA: Główna różnica między skośnością a kurtoozą polega na tym, że skośność odnosi się do stopnia symetrii, podczas gdy kurtoza odnosi się do stopnia obecność wartości odstających w dystrybucji.