변수 구성 및 시각화

(Mradul Dwivedi) (2020 년 12 월 25 일)

비즈니스 사례 : 일부 은퇴 자금에 대한 데이터를 다음과 같은 방식으로 정의, 수집, 구성 및 시각화하라는 요청을 받았습니다. 잠재 고객이 투자 할 자금에 대한 결정을 내리는 데 도움을 줄 수 있습니다.

데이터 : 귀하 분석을 위해 361 개의 퇴직 기금이 제공되었습니다.

시작 : 다음의 주요 특성에 대한 변수를 정의하는 것으로 시작합니다. 각 펀드의 과거 실적, 펀드가 관리하는 자산 금액, 펀드의 목표가 향후 수익이 크게 증가 할 것으로 예상되는 기업 (성장 펀드)에 투자하는 것인지 아니면 주가가 저평가되어 있습니다 (가치 펀드).

소스의 데이터를 처리하고 데이터를 구성합니다. 이제 고객에게 361 행 시트를 보여주는 것은 그리 좋은 생각이 아닙니다. 따라서 이제 데이터를 요약하고 고객이 정보에 입각 한 결정을 내리는 데 도움이되는 통찰력을 가져와야합니다.

이 기사에는 읽을 자료가 많지 않습니다. 키워드 만 포함되어있어 익숙하지 않은 Google 검색을 할 수 있습니다.

사진 : Clay Banks on Unsplash

범주 형 변수 구성 :

요약 표 :

백분율, 빈도 또는 금액 측면에서 각 카테고리의 집계보기를 확인하는 데 도움이됩니다.

비 상표 :

교차는 행 합계 백분율, 열 합계 백분율, 전체 합계 백분율, 빈도 또는 양과 관련하여 2 개 이상의 범주 형 변수 값을 표로 만듭니다.

숫자 변수 구성 :

순서있는 배열 :

오름차순 또는 내림차순으로 숫자 데이터 정렬

빈도 분포 :

숫자로 정렬 된 클래스 세트, 각 클래스 그룹에는 상호 배타적 인 값 범위가있는 클래스 간격이 있습니다.

빈도 열의 합계는 항상 값의 수와 같아야합니다.

클래스 경계 및 클래스 중간 점

간격 너비 = (가장 높은 값-가장 낮은 값) / (클래스 수)

상대 빈도 분포 및 백분율 분포 :

둘 이상의 그룹을 비교할 때 각 그룹의 총계 비율을 아는 것이 각 그룹의 빈도를 아는 것보다 더 유용합니다.

비율 = 상대 빈도 = (각 클래스의 값 없음) ) / (값의 총 수)

누적 분포 :

각 하위 클래스와 그 이전 클래스의 누계입니다.

범주 형 변수 시각화 :

막대 차트

파이 차트

파레토 차트

병렬 막대 차트

수치 변수 시각화 :

줄기 및 잎 표시

히스토그램

백분율 다각형

누적 백분율 ge Polygon

두 개의 숫자 변수 시각화 :

분산도

시계열도

변수 집합 구성 및 시각화 :

다차원 우발 점 표

데이터 검색