Eine Überprüfung der beschreibenden Statistik

(27. Dezember 2020)

Was ist Statistik?

Statistik ist die Wissenschaft, Daten zu sammeln und zu analysieren, um auf Proportionen zu schließen, die für die Bevölkerung repräsentativ sind. Mit anderen Worten, Statistiken interpretieren Daten, um Vorhersagen für die Bevölkerung zu treffen.

Es gibt zwei Zweige der Statistik.

  • BESCHREIBENDE STATISTIKEN: Beschreibende Statistik ist eine Statistik oder Eine Kennzahl, die die Daten beschreibt.
  • INFERENZIELLE STATISTIKEN: Die Verwendung einer Zufallsstichprobe von Daten aus einer Population zur Beschreibung und Schlussfolgerung der Population wird als Inferenzstatistik bezeichnet.

Wir werden uns auf deskriptive Statistiken konzentrieren, da diese das Verständnis des Datensatzes erleichtern und ein wichtiger Bestandteil des maschinellen Lernens sind. Dies ist darauf zurückzuführen, dass beim maschinellen Lernen Vorhersagen getroffen werden, die wiederum nur nach einem gründlichen Verständnis des betreffenden Datensatzes möglich sind.

Beschreibende Statistik

Beschreibende Statistik fasst die Daten unter zusammen Übergeben Sie bestimmte Zahlen wie Mittelwert, Median usw., um das Verständnis der Daten zu erleichtern, und stellen Sie daher nur die verfügbaren Daten dar.

Die am häufigsten verwendeten Kennzahlen sind

  1. Messungen der zentralen Tendenz
  2. Messungen der Dispersion

Messungen der zentralen Tendenz

Ein Maß der zentralen Tendenz ist eine Zusammenfassung mit einer Zahl der Daten, die typischerweise die Mitte der Daten beschreiben. Es gibt drei Arten von Zusammenfassungen mit einer Nummer:

  1. Mittelwert , der als als Verhältnis der Summe aller Beobachtungen in den Daten zur Gesamtzahl der Beobachtungen. Dies wird auch als Durchschnitt bezeichnet.
  2. Median ist die Punkt, der die gesamten Daten in zwei gleiche Hälften teilt. Die eine Hälfte der Daten ist kleiner als der Median und die andere Hälfte ist größer. Der Median wird berechnet, indem zuerst die Daten in aufsteigender oder absteigender Reihenfolge angeordnet werden.
  • Wenn die Anzahl der Beobachtungen ungerade ist, wird der Median durch die mittlere Beobachtung in sortierter Form angegeben / li>
  • Wenn die Anzahl der Beobachtungen gerade ist, wird der Median durch den Mittelwert der beiden mittleren Beobachtungen in sortierter Form angegeben.

3. Modus Dies ist die Zahl mit dem Maximum Die Häufigkeit im gesamten Datensatz oder mit anderen Worten der Modus ist die Zahl, die am häufigsten angezeigt wird. Daten können einen oder mehrere Modi haben.

  • Wenn nur eine Zahl maximal so oft vorkommt, haben die Daten einen Modus und heißen Unimodal .
  • Wenn zwei Zahlen maximal so oft vorkommen, haben die Daten zwei Modi und heißen Bimodal .
  • Wenn mehr als zwei Zahlen maximal so oft angezeigt werden, werden die Daten angezeigt hat mehr als zwei Modi und heißt multimodal .
Unimodal bedeutet, dass die Verteilung nur einen Peak hat, dh nur eine häufig vorkommende Punktzahl, die oben gruppiert ist. Eine bimodale Verteilung hat zwei Werte, die häufig auftreten (zwei Peaks), und eine multimodale Verteilung hat zwei oder mehrere häufig auftretende Werte.

Dispersionsmaße

Dispersionsmaße beschreiben die Verteilung der Daten um die Maße der zentralen Tendenz.

  1. Absolute Abweichung vom Mittelwert , auch Mean Absolute Deviation (MAD) genannt, beschreibt die Variation im Datensatz.
  2. Varianz misst, wie weit Datenpunkte vom Mittelwert entfernt sind. Eine hohe Varianz zeigt an, dass Datenpunkte weit verbreitet sind, und eine kleine Varianz zeigt an, dass die Datenpunkte näher am Mittelwert des Datensatzes liegen.
  3. Standardabweichung ist die Quadratwurzel der Varianz.
  4. Bereich ist die Differenz zwischen dem Maximalwert und dem Minimalwert im Datensatz.
  5. 5. Quartile sind die Punkte im Datensatz, die den Datensatz in vier gleiche Teile teilen. Q1, Q2 und Q3 sind das erste, zweite und dritte Quartil des Datensatzes.
  • 25\% der Datenpunkte liegen unter Q1 und 75\% liegen darüber.
  • 50\% der Datenpunkte liegen unter Q2 und 50\% darüber. Q2 ist nichts als Median.
  • 75\% der Datenpunkte liegen unter Q3 und 25\% darüber.
Quartile [Bild 14] (Mit freundlicher Genehmigung von https://statsmethods.wordpress.com/2013/05/09/iqr/)

6. Schiefe – Das Maß für die Asymmetrie in einer Wahrscheinlichkeitsverteilung wird durch Schiefe definiert. Es kann entweder positiv oder negativ sein.

  • Positiver Versatz – Dies ist der Fall, wenn der Schwanz auf der rechten Seite der Kurve größer ist als der auf der linken Seite. Für diese Verteilungen ist der Mittelwert größer als der Modus.
  • Negativer Versatz – Dies ist der Fall, wenn der Schwanz auf der linken Seite der Kurve größer als der auf der rechten Seite ist. Für diese Verteilungen ist der Mittelwert kleiner als der Modus.

Wenn die Schiefe Null ist, ist die Verteilung symmetrisch. Wenn es negativ ist, ist die Verteilung negativ verzerrt und wenn es positiv ist, ist es positiv verzerrt.

Skewness [Bild 16] (Mit freundlicher Genehmigung von https://www.safaribooksonline.com/library/view/clojure-for-data/9781784397180/ch01s13.html)

7. Kurtosis – Kurtosis beschreibt, ob die Daten im Vergleich zu einer Normalverteilung leicht (Ausreißer fehlen) oder stark (Ausreißer vorhanden) sind. Es gibt drei Arten von Kurtosis:

  • Mesokurtic – Dies ist der Fall, wenn die Kurtosis Null ist, ähnlich wie bei den Normalverteilungen.
  • Leptokurtic – Dies ist, wenn der Schwanz von Die Verteilung ist schwer (Ausreißer vorhanden) und die Kurtosis ist höher als die der Normalverteilung.
  • Platykurtic – Dies ist der Fall, wenn der Schwanz der Verteilung leicht ist (kein Ausreißer) und die Kurtosis geringer ist als die der Normalverteilung.
Kurtosis [Bild 19] (Bild mit freundlicher Genehmigung: https://mvpprograms.com/help/mvpstats/distributions/SkewnessKurtosis )

HINWEIS: Der Hauptunterschied zwischen Schiefe und Kurtosis besteht darin, dass sich die Schiefe auf den Grad der Symmetrie bezieht, während sich die Kurtosis auf den Grad von bezieht Vorhandensein von Ausreißern in der Verteilung.