A Review of Descriptive Statistics

(27 décembre 2020)

Quest-ce que la statistique?

La statistique est la science qui consiste à collecter des données et à les analyser pour en déduire des proportions représentatives de la population. En dautres termes, les statistiques interprètent les données afin de faire des prédictions pour la population.

Il existe deux branches des statistiques.

  • STATISTIQUES DESCRIPTIVES: Les statistiques descriptives sont des statistiques ou une mesure qui décrit les données.
  • STATISTIQUES INFÉRENTIELLES: Lutilisation dun échantillon aléatoire de données prélevées sur une population pour décrire et faire des inférences sur la population sappelle Statistiques inférentielles.

Nous nous concentrerons sur les statistiques descriptives car elles aident à comprendre lensemble de données et constituent une partie importante de lapprentissage automatique. Cela est dû au fait que lapprentissage automatique consiste uniquement à faire des prédictions, ce qui nest possible quaprès une compréhension approfondie de lensemble de données considéré.

Statistiques descriptives

Les statistiques descriptives résument les données sur passez en revue certains nombres comme la moyenne, la médiane, etc. afin de faciliter la compréhension des données et ne constitue donc que la représentation des données disponibles.

Les mesures les plus couramment utilisées sont

  1. Mesures de la tendance centrale
  2. Mesures de la dispersion

Mesures de la tendance centrale

Une mesure de la tendance centrale est un résumé à un chiffre des données qui décrivent généralement le centre des données. Ce résumé numérique est de trois types.

  1. Mean qui est défini comme le rapport de la somme de toutes les observations dans les données au nombre total dobservations. Ceci est également appelé Moyenne.
  2. Médiane qui est le point qui divise lensemble des données en deux moitiés égales. La moitié des données est inférieure à la médiane et lautre moitié est supérieure. La médiane est calculée en organisant dabord les données dans lordre croissant ou décroissant.
  • Si le nombre dobservations est impair, la médiane est donnée par lobservation du milieu sous forme triée.
  • Si le nombre dobservations est pair, la médiane est donnée par la moyenne des deux observations du milieu sous la forme triée.

3. Mode qui est le nombre qui a le maximum fréquence dans lensemble de données, ou en dautres termes, mode est le nombre qui apparaît le nombre maximum de fois. Une donnée peut avoir un ou plusieurs modes.

  • Sil ny a quun seul nombre qui apparaît le nombre maximum de fois, les données ont un mode et sont appelées Uni-modal .
  • Sil y a deux nombres qui apparaissent le nombre maximum de fois, les données ont deux modes, et sappellent Bi-modal .
  • Sil y a plus de deux nombres qui apparaissent le nombre maximum de fois, les données a plus de deux modes et sappelle Multi-modal .
Unimodal signifie que la distribution na quun seul pic, ce qui signifie quelle na quun seul score fréquent, regroupé en haut. Une distribution bimodale a deux valeurs qui se produisent fréquemment (deux pics) et une multimodale a deux ou plusieurs valeurs fréquentes.

Mesures de dispersion

Les mesures de dispersion décrivent la répartition des données autour des mesures de la tendance centrale.

  1. Écart absolu par rapport à la moyenne également appelé écart moyen absolu (MAD), décrit la variation de lensemble de données.
  2. Variance mesure la distance entre les points de données et la moyenne. Une variance élevée indique que les points de données sont largement dispersés et une petite variance indique que les points de données sont plus proches de la moyenne de lensemble de données.
  3. Écart type est la racine carrée de la variance.
  4. Range est la différence entre la valeur maximale et la valeur minimale dans lensemble de données.
  5. 5. Les quartiles sont les points de lensemble de données qui divisent lensemble de données en quatre parties égales. Q1, Q2 et Q3 sont les premier, deuxième et troisième quartile de lensemble de données.
  • 25\% des points de données se trouvent en dessous de Q1 et 75\% au-dessus.
  • 50\% des points de données se trouvent en dessous de Q2 et 50\% au-dessus. Q2 nest rien dautre que la médiane.
  • 75\% des points de données se trouvent en dessous de Q3 et 25\% au-dessus.
Quartiles [Image 14] (Image courtoisie: https://statsmethods.wordpress.com/2013/05/09/iqr/)

6. Skewness – La mesure de lasymétrie dans une distribution de probabilité est définie par Skewness. Elle peut être positive ou négative.

  • Inclinaison positive – Cest le cas lorsque la queue du côté droit de la courbe est plus grande que celle du côté gauche. Pour ces distributions, la moyenne est supérieure au mode.
  • Inclinaison négative – Cest le cas lorsque la queue du côté gauche de la courbe est plus grande que celle du côté droit. Pour ces distributions, la moyenne est plus petite que le mode.

Si lasymétrie est nulle, la distribution est symétrique. Sil est négatif, la distribution est biaisée négativement et si elle est positive, elle lest positivement.

Skewness [Image 16] (Image courtoisie: https://www.safaribooksonline.com/library/view/clojure-for-data/9781784397180/ch01s13.html)

7. Kurtosis – Kurtosis décrit si les données sont à queue légère (absence de valeurs aberrantes) ou à queue lourde (valeurs aberrantes présentes) par rapport à une distribution normale. Il existe trois types de Kurtosis:

  • Mesokurtic – Cest le cas lorsque le kurtosis est nul, similaire aux distributions normales.
  • Leptokurtic – Cest alors que la queue de la distribution est lourde (valeur aberrante présente) et laplatissement est supérieur à celui de la distribution normale.
  • Platykurtic – Cest lorsque la queue de la distribution est légère (pas daberration) et laplatissement est inférieur à celui de la distribution distribution normale.
Kurtosis [Image 19] (Image courtoisie: https://mvpprograms.com/help/mvpstats/distributions/SkewnessKurtosis )

REMARQUE: La principale différence entre lasymétrie et laplatissement est que lasymétrie fait référence au degré de symétrie, tandis que laplatissement se réfère au degré présence de valeurs aberrantes dans la distribution.