기술 통계 검토

(2020 년 12 월 27 일)

통계 란 무엇입니까?

통계는 데이터를 수집하고 분석하여 인구를 대표하는 비율을 추론하는 과학입니다. 즉, 통계는 인구를 예측하기 위해 데이터를 해석합니다.

통계에는 두 가지 분기가 있습니다.

  • 설명 통계 : 기술 통계는 통계 또는 데이터를 설명하는 측정 값입니다.
  • INFERENTIAL STATISTICS : 모집단에서 가져온 데이터의 무작위 샘플을 사용하여 모집단에 대해 설명하고 추론하는 것을 추론 통계라고합니다.

데이터 세트를 이해하는 데 도움이되고 기계 학습의 중요한 부분 인 기술 통계에 중점을 둘 것입니다. 이는 머신 러닝이 모든 예측을 수행하는 것이기 때문이며, 이는 고려중인 데이터 세트를 철저히 이해 한 후에 만 ​​가능합니다.

기술 통계

기술 통계는 다음 위치에 데이터를 요약합니다. 평균, 중앙값 등과 같은 특정 숫자를 전달하여 데이터를 더 쉽게 이해할 수 있으므로 사용 가능한 데이터의 표현 일뿐입니다.

가장 일반적으로 사용되는 측정 값은 다음과 같습니다.

  1. 중심 성향 측정
  2. 분산 측정

중심 성향 측정

중심 성향 측정은 하나의 숫자 요약입니다. 일반적으로 데이터의 중심을 설명하는 데이터의 이러한 하나의 숫자 요약은 세 가지 유형으로 구성됩니다.

  1. 정의 된 총 관측치 수에 대한 데이터의 모든 관측치 합계 비율입니다. 평균이라고도합니다.
  2. 중앙값 전체 데이터를 두 개의 동일한 절반으로 나누는 지점입니다. 데이터의 절반은 중앙값보다 작고 나머지 절반은 더 큽니다. 중앙값은 먼저 데이터를 오름차순 또는 내림차순으로 정렬하여 계산합니다.
  • 관측치 수가 홀수이면 정렬 된 형식의 중간 관측치로 중앙값이 지정됩니다.
  • 관측치 수가 짝수이면 정렬 된 형식의 두 중간 관측치의 평균으로 중앙값이 제공됩니다.

3. 모드 전체 데이터 세트의 빈도, 즉 모드는 최대 횟수로 나타나는 숫자입니다. 데이터는 하나 이상의 모드를 가질 수 있습니다.

  • 최대 횟수로 나타나는 숫자가 하나만있는 경우 데이터는 하나의 모드를 가지며 유니모 달 .
  • 최대 횟수로 표시되는 숫자가 두 개인 경우 데이터에는 두 가지 모드가 있으며 바이 모달 .
  • 최대 횟수로 표시되는 숫자가 세 개 이상인 경우 데이터 두 개 이상의 모드가 있으며 멀티 모달 이라고합니다.
Unimodal은 분포에 피크가 하나만 있음을 의미합니다. 즉, 자주 발생하는 점수가 상단에 클러스터링되어 있음을 의미합니다. 바이 모달 분포에는 자주 발생하는 두 값 (피크 2 개)이 있고 멀티 모달 분포에는 자주 발생하는 값이 두 개 또는 여러 개 있습니다.

분산 측정

분산 측정은 중심 경향 측정 주변의 데이터 확산을 설명합니다.

  1. 평균으로부터의 절대 편차 평균 절대 편차 (MAD)라고도하며 데이터 세트의 변형을 설명합니다.
  2. 분산 는 데이터 포인트가 평균에서 얼마나 멀리 떨어져 있는지 측정합니다. 높은 분산은 데이터 포인트가 넓게 퍼져 있음을 나타내고 작은 분산은 데이터 포인트가 데이터 세트의 평균에 더 가깝다는 것을 나타냅니다.
  3. 표준 편차 는 분산의 제곱근입니다.
  4. 범위 는 데이터 세트에서 최대 값과 최소값의 차이입니다.
  5. 5. 사 분위수 는 데이터 세트를 4 개의 동일한 부분으로 나누는 데이터 세트의 점입니다. Q1, Q2 및 Q3은 데이터 세트의 1 사 분위, 2 사 분위수 및 3 분위수입니다.
  • 데이터 포인트의 25 \%는 Q1 아래에 있고 75 \%는 그 위에 있습니다.
  • 데이터 포인트의 50 \%는 Q2 아래에 있고 50 \%는 그 위에 있습니다. Q2는 중앙값에 불과합니다.
  • 데이터 포인트의 75 \%가 Q3 아래에 있고 25 \%가 그 위에 있습니다.
사 분위수 [이미지 14] (이미지 제공 : https://statsmethods.wordpress.com/2013/05/09/iqr/ )

6. 왜도 — 확률 분포의 비대칭 측정은 왜도에 의해 정의됩니다. 양수 또는 음수 일 수 있습니다.

  • 양수 기울이기 — 커브 오른쪽의 꼬리가 왼쪽의 꼬리보다 큰 경우입니다. 이러한 분포의 경우 평균이 최빈값보다 큽니다.
  • 음의 기울기 — 곡선 왼쪽의 꼬리가 오른쪽의 꼬리보다 큰 경우입니다. 이러한 분포의 경우 평균이 최빈값보다 작습니다.

왜도가 0이면 분포는 대칭입니다. 음수이면 음으로 치우친 분포이고 양수이면 양으로 치우친 것입니다.

Skewness [이미지 16] (이미지 제공 : https://www.safaribooksonline.com/library/view/clojure-for-data/9781784397180/ch01s13.html )

7. 첨도 — 첨도는 정규 분포와 비교할 때 데이터가 밝은 꼬리 (이상치 부족)인지 두꺼운 꼬리 (이상치 존재)인지를 나타냅니다. 첨도에는 세 가지 종류가 있습니다.

  • Mesokurtic — 정규 분포와 유사하게 첨도가 0 인 경우입니다.
  • Leptokurtic — 꼬리가 분포가 무겁고 (이상 치가 있음) 첨도가 정규 분포의 분포보다 높습니다.
  • Platykurtic — 분포의 꼬리가 가볍고 (이상 치가 없음) 첨도가 분포의 꼬리보다 작은 경우입니다. 정규 분포.
첨도 [이미지 19] (이미지 제공 : https://mvpprograms.com/help/mvpstats/distributions/SkewnessKurtosis )

참고 : 왜 도와 첨도의 주요 차이점은 왜도는 대칭 정도를 나타내며 첨도는 분포에 이상 치가 있습니다.