Přehled popisné statistiky

(27. prosince 2020)

Co je statistika?

Statistika je věda o sběru dat a jejich analýze k odvození rozměrů, které jsou reprezentativní pro populaci. Jinými slovy, statistika interpretuje data za účelem predikce populace.

Existují dvě větve Statistiky.

  • POPISOVÁ STATISTIKA: Popisná statistika je statistika nebo míra, která popisuje data.
  • INFERENTIÁLNÍ STATISTIKA: Použití náhodného vzorku dat odebraných z populace k popisu a vyvození závěrů o populaci se nazývá Inferenční statistika.

Zaměříme se na deskriptivní statistiku, která pomáhá porozumět datové sadě a je důležitou součástí strojového učení. To je způsobeno tím, že strojové učení je o vytváření předpovědí, které jsou zase možné pouze po důkladném pochopení uvažované datové sady.

Popisná statistika

Popisná statistika shrnuje data na předejte určitá čísla, jako je průměr, medián atd., abyste usnadnili porozumění údajům, a proto je to jen reprezentace dostupných údajů.

Nejčastěji používanými opatřeními jsou

  1. Míry centrální tendence
  2. Míry rozptylu

Míry centrální tendence

Míra centrální tendence je souhrn jednoho čísla dat, který obvykle popisuje střed dat. Toto shrnutí jednoho čísla má tři typy.

  1. Průměr , který je definován jako poměr součtu všech pozorování v datech k celkovému počtu pozorování. Toto se také nazývá průměr.
  2. Medián což je bod, který rozděluje všechna data na dvě stejné poloviny. Jedna polovina dat je menší než medián a druhá polovina je větší. Medián se vypočítá tak, že se nejdříve data seřadí vzestupně nebo sestupně.
  • Pokud je počet pozorování lichý, střední hodnota je dána prostředním pozorováním v seřazeném tvaru.
  • Pokud je počet pozorování sudý, střední hodnota je dána průměrem dvou středních pozorování v seřazeném tvaru.

3. Režim , což je číslo, které má maximum frekvence v celé datové sadě, nebo jinými slovy, režim je počet, který se zobrazí jako maximální počet opakování. Data mohou mít jeden nebo více než jeden režim.

  • Pokud existuje pouze jedno číslo, které se zobrazí maximálně několikrát, mají data jeden režim a nazývá se Uni-modal .
  • Pokud existují dvě čísla, která se zobrazují maximálně několikrát, mají data dva režimy a nazývají se Bimodální .
  • Pokud existují více než dvě čísla, která se zobrazí maximální počet opakování, data má více než dva režimy a nazývá se multimodální .
Unimodální znamená, že distribuce má pouze jeden vrchol, což znamená, že má pouze jedno často se vyskytující skóre, seskupené nahoře. Bimodální distribuce má dvě hodnoty, které se vyskytují často (dva vrcholy) a multimodální má dvě nebo několik často se vyskytujících hodnot.

Opatření disperze

Míra disperze popisuje šíření dat kolem Míra centrální tendence.

  1. Absolutní odchylka od průměru také nazývaná Střední absolutní odchylka (MAD), popisuje odchylku v datové sadě.
  2. Variance měří, jak daleko jsou datové body rozprostřeny od průměru. Velká odchylka znamená, že se datové body šíří široce a malá odchylka znamená, že se datové body blíží průměru datové sady.
  3. Standardní odchylka je druhá odmocnina rozptylu.
  4. Rozsah je rozdíl mezi maximální hodnotou a minimální hodnotou v datové sadě.
  5. 5. Kvartily jsou body v datové sadě, které rozdělují datovou sadu na čtyři stejné části. Q1, Q2 a Q3 jsou první, druhý a třetí kvartil datové sady.
  • 25\% datových bodů leží pod Q1 a 75\% nad ním.
  • 50\% datových bodů leží pod Q2 a 50\% nad ním. Q2 není nic jiného než Median.
  • 75\% datových bodů leží pod Q3 a 25\% nad ním.
Kvartily [Obrázek 14] (Obrázek se svolením: https://statsmethods.wordpress.com/2013/05/09/iqr/)

6. Skewness – Míra asymetrie v rozdělení pravděpodobnosti je definována Skewness. Může to být kladné nebo záporné.

  • Positive Skew – To je případ, kdy je ocas na pravé straně křivky větší než ocas na levé straně. U těchto distribucí je průměr větší než režim.
  • Negativní zkosení – Toto je případ, kdy je ocas na levé straně křivky větší než ocas na pravé straně. U těchto distribucí je průměr menší než režim.

Pokud je nerovnost nula, je distribuce symetrická. Pokud je záporná, distribuce je záporně zkosená a pokud je kladná, je kladně zkosená.

Šikmý [Obrázek 16] (Obrázek s laskavým svolením: https://www.safaribooksonline.com/library/view/clojure-for-data/9781784397180/ch01s13.html)

7. Kurtosis – Kurtosis popisuje, zda jsou data ve srovnání s normální distribucí lehce ohraničená (nedostatek odlehlých hodnot) nebo těžce ohraničená (jsou odlehlé hodnoty). Existují tři druhy kurtosy:

  • Mesokurtic – to je případ, kdy je kurtosis nula, podobně jako normální rozdělení.
  • Leptokurtic – to je, když je ocas distribuce je těžká (je odlehlá hodnota) a špičatost je vyšší než u normální distribuce.
  • Platykurtic – to je, když je ocas distribuce lehký (žádná odlehlá hodnota) a špičatost je menší než u normální distribuce.
Kurtosis [Obrázek 19] (Obrázek se svolením: https://mvpprograms.com/help/mvpstats/distribution/SkewnessKurtosis )

POZNÁMKA: Hlavní rozdíl mezi šikmostí a špičatostí spočívá v tom, že šikmost odkazuje na stupeň symetrie, zatímco špičatost odkazuje na stupeň přítomnost odlehlých hodnot v distribuci.