Een overzicht van beschrijvende statistieken

(27 december 2020)

Wat is statistiek?

Statistiek is de wetenschap van het verzamelen van gegevens en deze analyseren om proporties af te leiden die representatief zijn voor de bevolking. Met andere woorden, statistieken interpreteren gegevens om voorspellingen te doen voor de bevolking.

Er zijn twee takken van statistieken.

  • BESCHRIJVING STATISTIEKEN: Beschrijvende statistieken zijn een statistiek of een maat die de gegevens beschrijft.
  • INFERENTIËLE STATISTIEKEN: het gebruik van een willekeurige steekproef van gegevens uit een populatie om de populatie te beschrijven en er conclusies over te trekken, wordt Inferentiële statistieken genoemd.

We zullen ons concentreren op beschrijvende statistieken omdat het helpt om de dataset te begrijpen en een belangrijk onderdeel is van machine learning. Dit komt doordat Machine Learning helemaal draait om het maken van voorspellingen, wat op zijn beurt alleen mogelijk is na een grondig begrip van de betreffende dataset.

Beschrijvende statistieken

Beschrijvende statistiek vat de gegevens samen op hand door bepaalde getallen zoals gemiddelde, mediaan enz. om het begrip van de gegevens gemakkelijker te maken en is daarom slechts de weergave van de beschikbare gegevens.

De meest gebruikte metingen zijn

  1. Maatregelen van centrale tendens
  2. Maatregelen van spreiding

Maatregelen van centrale tendens

Een maatstaf van centrale tendens is een samenvatting van één cijfer van de gegevens die doorgaans het midden van de gegevens beschrijven. Deze eencijferige samenvatting bestaat uit drie typen.

  1. Gemiddelde die is gedefinieerd als de verhouding tussen de som van alle waarnemingen in de gegevens en het totale aantal waarnemingen. Dit wordt ook wel gemiddeld genoemd.
  2. Mediaan wat de punt dat de volledige gegevens in twee gelijke helften verdeelt. De ene helft van de gegevens is minder dan de mediaan en de andere helft is groter. Mediaan wordt berekend door de gegevens eerst in oplopende of aflopende volgorde te rangschikken.
  • Als het aantal waarnemingen oneven is, wordt de mediaan gegeven door de middelste waarneming in de gesorteerde vorm.
  • Als het aantal waarnemingen even is, wordt mediaan gegeven door het gemiddelde van de twee middelste waarnemingen in de gesorteerde vorm.

3. Modus wat het nummer is met het maximum frequentie in de gehele dataset, of met andere woorden, modus is het aantal dat het maximum aantal keren voorkomt. Een gegevens kan een of meer modi hebben.

  • Als er slechts één nummer maximaal aantal keren voorkomt, hebben de gegevens één modus en worden ze Uni-modal .
  • Als er twee getallen maximaal aantal keren voorkomen, hebben de gegevens twee modi en worden ze Bi-modaal .
  • Als er meer dan twee getallen maximaal aantal keren voorkomen, worden de gegevens heeft meer dan twee modi en wordt Multimodaal genoemd.

Unimodaal betekent dat de distributie slechts één piek heeft, wat betekent dat er maar één vaak voorkomende score is, geclusterd bovenaan. Een bimodale distributie heeft twee waarden die vaak voorkomen (twee pieken) en een multimodale distributie heeft twee of meerdere vaak voorkomende waarden.

Maatregelen van verspreiding

Measures of Dispersion beschrijft de spreiding van de gegevens rond de Measures of Central Tendency.

  1. Absolute afwijking van gemiddelde ook wel Mean Absolute Deviation (MAD) genoemd, beschrijft de variatie in de dataset.
  2. Variance meet hoe ver de gegevenspunten zijn verspreid vanaf het gemiddelde. Een hoge variantie geeft aan dat de gegevenspunten wijd verspreid zijn en een kleine afwijking geeft aan dat de gegevenspunten dichter bij het gemiddelde van de gegevensset liggen.
  3. Standaarddeviatie is de vierkantswortel van de variantie.
  4. Bereik is het verschil tussen de maximale waarde en de minimale waarde in de dataset.
  5. 5. Kwartielen zijn de punten in de dataset die de dataset in vier gelijke delen verdeelt. Q1, Q2 en Q3 zijn het eerste, tweede en derde kwartiel van de dataset.
  • 25\% van de datapunten ligt onder Q1 en 75\% erboven.
  • 50\% van de datapunten ligt onder Q2 en 50\% erboven. Q2 is niets anders dan Mediaan.
  • 75\% van de datapunten ligt onder Q3 en 25\% erboven.
Quartiles [Afbeelding 14] (Bronvermelding: https://statsmethods.wordpress.com/2013/05/09/iqr/)

6. Skewness – De mate van asymmetrie in een kansverdeling wordt gedefinieerd door Skewness. Het kan positief of negatief zijn.

  • Positieve scheefheid – Dit is het geval wanneer de staart aan de rechterkant van de curve groter is dan die aan de linkerkant. Voor deze verdelingen is het gemiddelde groter dan de modus.
  • Negatieve scheeftrekking – Dit is het geval wanneer de staart aan de linkerkant van de curve groter is dan die aan de rechterkant. Voor deze verdelingen is het gemiddelde kleiner dan de modus.

Als de scheefheid nul is, is de verdeling symmetrisch. Als het negatief is, is de verdeling negatief scheef en als het positief is, is het positief scheef.

Skewness [Afbeelding 16] (Bronvermelding: https://www.safaribooksonline.com/library/view/clojure-for-data/9781784397180/ch01s13.html)

7. Kurtosis – Kurtosis beschrijft of de gegevens lichtstaartig (gebrek aan uitschieters) of zwaarstaartig (uitschieters aanwezig) zijn in vergelijking met een normale verdeling. Er zijn drie soorten Kurtosis:

  • Mesokurtic – Dit is het geval wanneer de kurtosis nul is, vergelijkbaar met de normale distributies.
  • Leptokurtic – Dit is wanneer de staart van de verdeling is zwaar (uitbijter aanwezig) en kurtosis is hoger dan die van de normale verdeling.
  • Platykurtisch – Dit is wanneer de staart van de verdeling licht is (geen uitbijter) en kurtosis minder is dan die van de normale distributie.
Kurtosis [Afbeelding 19] (Met dank aan: https://mvpprograms.com/help/mvpstats/distributions/SkewnessKurtosis )

OPMERKING: Het belangrijkste verschil tussen scheefheid en kurtosis is dat de scheefheid verwijst naar de mate van symmetrie, terwijl de kurtosis verwijst naar de mate van aanwezigheid van uitschieters in de distributie.