A leíró statisztikák áttekintése

(2020. december 27.)

Mi a statisztika?

A statisztika az adatok gyűjtésének és elemzésének tudománya, amely a lakosságra jellemző arányokra következtet. Más szavakkal, a statisztika az adatokat értelmezi, hogy előrejelzéseket tegyen a lakosság számára.

A statisztikának két ága van.

  • LEÍRÓ STATISZTIKA: A leíró statisztika statisztika vagy az adatokat leíró intézkedés.
  • INFERENTIÁLIS STATISZTIKA: A populációból vett adatok véletlenszerű mintájának felhasználását a populáció leírására és következtetéseinek levonására Inferenciális statisztikának hívják.

A leíró statisztikákra fogunk összpontosítani, mivel ezek segítenek megérteni az adatkészletet, és fontos részét képezik a gépi tanulásnak. Ez annak köszönhető, hogy a Gépi Tanulás előrejelzésekkel foglalkozik, ami viszont csak a szóban forgó adatkészlet alapos megértését követően lehetséges.

Leíró statisztika

A Leíró statisztika az adatokat itt foglalja össze: adjon át bizonyos számokat, mint az átlag, a medián stb., hogy megkönnyítse az adatok megértését, ezért csak a rendelkezésre álló adatok ábrázolása.

A leggyakrabban használt mérőszámok

  1. A középső hajlam mérőszámai
  2. A diszperzió mértékei

A középső hajlam mérőszámai

A középső hajlam mérőszáma egyszámos összefoglaló az adatok középpontját jellemzően leíró adatok közül. Ez az egy szám összegzés háromféle.

  1. Mean , amelyet mint az adatokban szereplő összes megfigyelés összegének és a megfigyelések teljes számának aránya. Ez más néven Átlag.
  2. Medián , amely a pont, amely a teljes adatot két egyenlő felére osztja. Az adatok fele kisebb, mint a medián, a másik fele pedig nagyobb. A medián kiszámításához először az adatokat növekvő vagy csökkenő sorrendbe kell rendezni.
  • Ha a megfigyelések száma páratlan, a mediánt a középső megfigyelés adja meg rendezett formában.
  • Ha a megfigyelések száma páros, a mediánt a két középső megfigyelés átlaga adja meg rendezett formában.

3. Mód amely a maximális szám a frekvencia az egész adathalmazban, vagy más szóval, az mode az a szám, amely a legtöbbször megjelenik. Egy adatnak egy vagy több módja lehet.

  • Ha csak egy szám jelenik meg a maximális számú alkalommal, akkor az adatoknak egy módja van, és a következőt hívják: Uni-modal .
  • Ha két olyan szám van, amely maximálisan többször jelenik meg, az adatoknak két módja van, és a div id = “b434f13ecf”> Bi-modális .
  • Ha kettőnél több szám jelenik meg maximálisan, akkor az adatok kettőnél több üzemmóddal rendelkezik, és úgy hívják: Multi-modal .

Az Unimodal azt jelenti, hogy az eloszlásnak csak egy csúcsa van, ami azt jelenti, hogy csak egy gyakran előforduló pontszám van, fürtözve a tetején. A bimodális eloszlásnak két gyakran előforduló értéke van (két csúcs), a multimodálisnak pedig két vagy több gyakran előforduló értéke van.

A diszperzió mértékei

A diszperzió mértéke az adatok terjedését írja le a központi tendencia mérései körül.

  1. Abszolút eltérés az átlagtól átlagos abszolút eltérés (MAD) néven is ismerteti az adatkészlet variációját.
  2. Variancia méri, hogy az adatpontok mennyire vannak elosztva az átlagtól. Nagy eltérés azt jelzi, hogy az adatpontok széles körben vannak elosztva, és kis eltérés azt jelzi, hogy az adatpontok közelebb vannak az adatkészlet átlagához.
  3. Szórás a variancia négyzetgyöke.
  4. Tartomány az adatkészlet maximális és minimális értéke közötti különbség.
  5. 5. A kvartilisek az adatállomány azon pontjai, amelyek az adatkészletet négy egyenlő részre osztják. A Q1, Q2 és Q3 az adatkészlet első, második és harmadik kvartilisa.
  • Az adatpontok 25\% -a Q1 alatt, 75\% pedig fölötte fekszik.
  • Az adatpontok 50\% -a Q2 alatt, 50\% -a fölött helyezkedik el. A Q2 nem más, mint Medián.
  • Az adatpontok 75\% -a Q3 alatt, 25\% pedig fölötte fekszik.
Kvartilisek [14. kép] (Kép jóvoltából: https://statsmethods.wordpress.com/2013/05/09/iqr/)

6. Ferdeség – A valószínűségi eloszlás aszimmetriájának mértékét a ferdeség határozza meg. Lehet pozitív vagy negatív is.

  • Pozitív ferdeség – Ez az eset áll fenn, amikor a görbe jobb oldalán a farok nagyobb, mint a bal oldalon. Ezen eloszlások esetén az átlag nagyobb, mint a mód.
  • Negatív ferdeség – Ez az eset áll fenn, amikor a görbe bal oldalán a farok nagyobb, mint a jobb oldalon. Ezen eloszlások esetén az átlag kisebb, mint a mód.

Ha a ferdeség nulla, akkor az eloszlás szimmetrikus. Ha negatív, akkor az eloszlás negatívan ferde, és ha pozitív, akkor pozitívan ferde.

Ferdeség [16. kép] (Kép: https://www.safaribooksonline.com/library/view/clojure-for-data/9781784397180/ch01s13.html)

7. Kurtosis – A Kurtosis azt írja le, hogy az adatok könnyű farkúak (a kiugró értékek hiánya) vagy nehéz farkúak (a kiugró értékek vannak jelen), összehasonlítva a normál eloszlással. Háromféle kurtosis létezik:

  • Mesokurtic – Ez az eset áll fenn, amikor a kurtosis nulla, hasonlóan a normális eloszlásokhoz.
  • Leptokurtic – Ez az, amikor a kurtosis az eloszlás nehéz (jelen van), és a kurtosis magasabb, mint a normál eloszlásé.
  • Platykurtic – Ekkor az eloszlás farka könnyű (nincs outlier), és a kurtosis kisebb, mint a normális eloszlás.
Kurtosis [19. kép] (Kép jóvoltából: https://mvpprograms.com/help/mvpstats/distributions/SkewnessKurtosis )

MEGJEGYZÉS: A ferdeség és a kurtosis közötti fő különbség az, hogy a ferdeség a szimmetria fokára, míg a kurtosis kiugró értékek jelenléte a disztribúcióban.