記述統計のレビュー

2020年12月27日)

統計とは何ですか?

統計とは、データを収集して分析し、人口を表す比率を推測する科学です。言い換えれば、統計は人口の予測を行うためにデータを解釈しています。

統計には2つのブランチがあります。

  • 記述統計:記述統計は統計またはデータを説明する尺度。
  • 推測統計:人口から取得したデータのランダムなサンプルを使用して、人口を説明し、推測を行うことを推測統計と呼びます。

データセットを理解するのに役立ち、機械学習の重要な部分である記述統計に焦点を当てます。これは、機械学習がすべて予測を行うことであり、それは検討中のデータセットを完全に理解した後にのみ可能になるためです。

記述統計

記述統計は次の場所でデータを要約しています。データの理解を容易にするために、平均、中央値などの特定の数値を渡します。したがって、これは利用可能なデータの単なる表現です。

最も一般的に使用される測定値は

  1. 中心傾向の測定値
  2. 分散の測定値

中心傾向の測定値

中心傾向の測定値は1つの数値の要約です通常、データの中心を表すデータの。これらの1つの数値の要約には3つのタイプがあります。

  1. 定義されている平均 データ内のすべての観測値の合計と観測値の総数の比率。これは平均とも呼ばれます。
  2. 中央値 データ全体を2つの等しい半分に分割するポイント。データの半分は中央値よりも小さく、残りの半分は中央値よりも大きくなっています。中央値は、最初にデータを昇順または降順で並べることによって計算されます。
  • 観測数が奇数の場合、中央値は並べ替えられた形式で中央の観測値によって示されます。
  • 観測数が偶数の場合、中央値は、並べ替えられた形式の2つの中央の観測値の平均によって与えられます。

3. モードこれは最大の数ですデータセット全体の頻度、つまりモードは、最大回数表示される数です。データには1つまたは複数のモードを設定できます。

  • 最大回数表示される数値が1つしかない場合、データには1つのモードがあり、ユニモーダル。
  • 最大回数表示される数値が2つある場合、データには2つのモードがあり、バイモーダル
  • 最大回数表示される数値が3つ以上ある場合、データ3つ以上のモードがあり、マルチモーダルと呼ばれます。
単峰性とは、分布にピークが1つしかないことを意味します。つまり、頻繁に発生するスコアが1つだけで、上部にクラスター化されています。バイモーダル分布には頻繁に発生する2つの値(2つのピーク)があり、マルチモーダルには2つまたは複数の頻繁に発生する値があります。

分散の測定

分散の測定値は、中心傾向の測定値周辺のデータの広がりを表します。

  1. 平均からの絶対偏差平均絶対偏差(MAD)とも呼ばれ、データセットの変動を表します。
  2. 分散は、データポイントが平均からどれだけ離れているかを測定します。分散が大きい場合は、データポイントが広く分散していることを示し、分散が小さい場合は、データポイントがデータセットの平均に近いことを示します。
  3. 標準偏差は分散の平方根です。
  4. 範囲は、データセットの最大値と最小値の差です。
  5. 5。四分位数は、データセットを4つの等しい部分に分割するデータセット内のポイントです。 Q1、Q2、Q3は、データセットの1番目、2番目、3番目の四分位数です。
  • データポイントの25%がQ1の下にあり、75%がQ1の上にあります。
  • データポイントの50%はQ2の下にあり、50%はQ2の上にあります。 Q2は中央値に他なりません。
  • データポイントの75%が第3四半期より下にあり、25%がその上にあります。
四分位数[画像14](画像提供: https://statsmethods.wordpress.com/2013/05/09/iqr/

6。歪度 —度数分布の非対称性の尺度は歪度によって定義されます。正または負のいずれかになります。

  • 正のスキュー—これは、曲線の右側のテールが左側のテールよりも大きい場合です。これらの分布では、平均は最頻値よりも大きくなります。
  • 負のスキュー—これは、曲線の左側のテールが右側のテールよりも大きい場合です。これらの分布の場合、平均は最頻値よりも小さくなります。

歪度がゼロの場合、分布は対称です。負の場合、分布は負に歪んでおり、正の場合、正に歪んでいます。

歪度[画像16](画像提供: https://www.safaribooksonline.com/library/view/clojure-for-data/9781784397180/ch01s13.html

7。尖度 —尖度は、正規分布と比較した場合に、データが裾が軽い(外れ値がない)か裾が重い(外れ値が存在する)かを示します。尖度には次の3種類があります。

  • 尖度—正規分布と同様に、尖度がゼロの場合です。
  • 尖度—これは尖度の尾が分布が重く(異常が存在する)、尖度が正規分布よりも高い。
  • 尖度—分布の裾が軽く(異常がない)、尖度が正規分布よりも小さい場合。正規分布。
尖度[画像19](画像提供: https://mvpprograms.com/help/mvpstats/distributions/SkewnessKurtosis

注:尖度と尖度の主な違いは、尖度は対称度を表すのに対し、尖度は対称度を表すことです。分布に異常値が存在します。