Katsaus kuvaileviin tilastoihin

(27. joulukuuta 2020)

Mikä on tilasto?

Tilastot ovat tieteen keräämisen ja analysoinnin tiede väestöä edustavien mittasuhteiden päättelemiseksi. Toisin sanoen tilastot tulkitsevat tietoja väestöennusteiden tekemiseksi.

Tilastoja on kaksi haaraa.

  • KUVAAVAT TILASTOT: Kuvailevat tilastot ovat tilastoja tai dataa kuvaava toimenpide.
  • INFERENTIAL STATISTICS: Satunnaisotannan käyttämistä populaatiosta otetuista tiedoista populaation kuvaamiseksi ja tekemiseen tehdään nimeltään Inferential Statistics.

Keskitymme kuvaileviin tilastoihin, koska se auttaa ymmärtämään tietoaineistoa ja on tärkeä osa koneoppimista. Tämä johtuu siitä, että koneoppimisessa on kyse ennusteiden tekemisestä, mikä puolestaan ​​on mahdollista vain tarkasteltavan tietojoukon perusteellisen ymmärtämisen jälkeen.

Kuvaava tilasto

Kuvaava tilasto on yhteenveto tiedoista osoitteessa käydä läpi tiettyjä lukuja, kuten keskiarvo, mediaani jne., jotta tietojen ymmärtäminen olisi helpompaa, ja näin ollen se on vain käytettävissä olevien tietojen esitys.

Yleisimmin käytetyt mittarit ovat

  1. Keskitetyn taipumuksen mittaukset
  2. Hajontamittaukset

Keskisen taipumuksen mittaukset

Keskitaipumuksen mitta on yhden numeron yhteenveto dataa, joka tyypillisesti kuvaa datan keskiosaa. Nämä yhden numeron yhteenvedot ovat kolmen tyyppisiä.

  1. Keskiarvo , joka on määritelty kaikkien tietojen havaintojen summan ja havaintojen kokonaismäärän välisenä suhteena. Tätä kutsutaan myös keskiarvoksi.
  2. Mediaani , joka on piste, joka jakaa koko datan kahteen yhtä suureen puolikkaaseen. Puolet tiedoista on pienempi kuin mediaani, ja toinen puoli on suurempi. Mediaani lasketaan järjestämällä tiedot ensin nousevaan tai laskevaan järjestykseen.
  • Jos havaintojen määrä on pariton, mediaani saadaan keskihavainnosta lajiteltuina.
  • Jos havaintojen määrä on tasainen, mediaani saadaan kahden keskihavainnon keskiarvosta lajiteltuina.

3. -tila , joka on enimmäismäärä taajuus koko tietojoukossa tai toisin sanoen tila on luku, joka näkyy enimmäismäärä kertoja. Datalla voi olla yksi tai useampi kuin yksi tila.

  • Jos vain yksi numero ilmestyy enimmäismäärä kertoja, datalla on yksi tila ja sitä kutsutaan nimellä Uni-modal .
  • Jos on olemassa kaksi numeroa, jotka näkyvät enimmäismäärä kertaa, tiedoilla on kaksi tilaa, ja niitä kutsutaan Kaksimodaali .
  • Jos on enemmän kuin kaksi numeroa, jotka näkyvät enimmäismäärä kertaa, tiedot on enemmän kuin kaksi tilaa, ja sitä kutsutaan nimellä Multi-modal .
Unimodal tarkoittaa, että jakelulla on vain yksi huippu, mikä tarkoittaa, että sillä on vain yksi usein esiintyvä piste, joka on ryhmitelty yläosaan. Bimodaalijakaumalla on kaksi usein esiintyvää arvoa (kaksi piikkiä) ja multimodaalisella on kaksi tai useampia usein esiintyviä arvoja.

Dispersiotoimenpiteet

Leviämismittaukset kuvaavat tietojen leviämistä keskitaipumuksen mittausten ympärillä.

  1. Absoluuttinen poikkeama keskiarvosta , jota kutsutaan myös keskimääräiseksi absoluuttiseksi poikkeamaksi (MAD), kuvaa muuttujan tietojoukossa.
  2. Varianssi mittaa kuinka kaukana datapisteet ovat keskiarvosta. Suuri varianssi osoittaa, että datapisteet ovat levinneet laajasti ja pieni varianssi osoittaa, että datapisteet ovat lähempänä tietojoukon keskiarvoa.
  3. Keskihajonta on Varianssin neliöjuuri.
  4. Alue on tietojoukon Suurimman ja pienimmän arvon välinen ero.
  5. 5. Kvartilit ovat tietojoukon pisteet, jotka jakavat tietojoukon neljään yhtä suureen osaan. Q1, Q2 ja Q3 ovat tietojoukon ensimmäinen, toinen ja kolmas kvartiili.
  • 25\% datapisteistä on Q1: n alapuolella ja 75\% sen yläpuolella.
  • 50\% datapisteistä on alle Q2 ja 50\% sen yläpuolella. Q2 on vain mediaani.
  • 75\% datapisteistä on alle Q3 ja 25\% sen yläpuolella.
Kvartilit [Kuva 14] (Kuva: https://statsmethods.wordpress.com/2013/05/09/iqr/)

6. Skewness – Epäsymmetrian todennäköisyysjakaumassa määritetään vinoutta. Se voi olla joko positiivinen tai negatiivinen.

  • Positiivinen vinous – Näin on silloin, kun käyrän oikealla puolella oleva pyrstö on suurempi kuin vasemmalla. Näiden jakaumien keskiarvo on suurempi kuin moodi.
  • Negatiivinen vinous – Tämä on tapaus, kun käyrän vasemmalla puolella oleva pyrstö on suurempi kuin oikealla puolella. Näiden jakaumien keskiarvo on pienempi kuin moodi.

Jos vinous on nolla, jakauma on symmetrinen. Jos se on negatiivinen, jakauma on negatiivisesti vinossa ja jos se on positiivinen, se on positiivisesti vinossa.

Skewness [Kuva 16] (Kuvaa: https://www.safaribooksonline.com/library/view/clojure-for-data/9781784397180/ch01s13.html)

7. Kurtosis – Kurtosis kuvaa, ovatko tiedot kevythäntäisiä (poikkeamien puuttuminen) vai raskaita pyrstöjä (poikkeamat ovat läsnä) verrattuna normaalijakaumaan. Kurtoosia on kolme erilaista:

  • Mesokurtic – Tämä on tapaus, kun kurtosis on nolla, samanlainen kuin normaalit jakaumat.
  • Leptokurtic – Tämä on silloin, kun kurtosis jakauma on raskas (poissuljettu) ja kurtoosi on korkeampi kuin normaalijakaumalla.
  • Platykurtic – Tällöin jakauman pyrstö on kevyt (ei syrjäytymistä) ja kurtosis on pienempi kuin normaalijakauma.
Kurtosis [Kuva 19] (Kuvan kohteliaisuus: https://mvpprograms.com/help/mvpstats/distributions/SkewnessKurtosis )

HUOMAUTUS: Tärkein ero vinouteen ja kurtoosiin on, että vinous viittaa symmetrian asteeseen, kun taas kurtoosi viittaa poikkeavien esiintyminen jakelussa.