Organisering og visualisering af variabler

(Mradul Dwivedi) (25. december 2020)

Business Case: Du er blevet bedt om at definere, indsamle, organisere og visualisere data om nogle pensionskasser på måder, der kunne hjælpe potentielle kunder med at træffe beslutninger om de fonde, de vil investere i.

Data: Dig har fået 361 pensionskasser til analyse

Begyndelse: Du begynder med at definere variabler for nøgleegenskaber for hver fond, såsom tidligere afkast for hver fond, mængden af ​​aktiver, som en fond forvalter, og om fondens mål er at investere i virksomheder, hvis indtjening forventes at vokse betydeligt i fremtiden (vækstfond) eller investere i virksomheder, hvis aktiekurs er undervurderet (værdifond).

Du koll ect data fra kilder og organisere data. At vise et 361 række ark til en klient ville ikke være sådan en god idé. Så du vil nu opsummere dataene og få indsigt for at hjælpe klienten med at træffe en informeret beslutning.

Denne artikel indeholder ikke meget materiale at læse om. Det indeholder bare nøgleordene, så man kan google-søgning af ikke kendt.

Foto af Clay Banks Uplash

Organisering af kategoriske variabler:

Oversigtstabellen:

Hjælper med at se en samlet visning af hver kategori udtrykt i procent eller frekvenser eller beløb.

Beredskabstabellen:

Kryds tabulerer værdier på 2 eller flere kategoriske variabler udtrykt i procent af række i alt, procent af kolonnetotal, procentdel af samlet total, frekvenser eller beløb.

Organisering af numeriske variabler:

The Ordered Array:

Arranger numeriske data i stigende eller faldende rækkefølge.

Frekvensfordelingen:

Sæt med numerisk ordnede klasser, hver klasse gruppen har et klasseinterval med et gensidigt eksklusivt værdiområde.

Summen af ​​frekvenssøjlen skal altid være lig med antallet af værdier.

Klassegrænser og klasse midtpunkter.

Intervalbredde = (højeste værdi – laveste værdi) / (antal klasser)

Den relative frekvensfordeling og procentfordelingen:

Når du sammenligner to eller flere grupper, er det mere nyttigt at kende andelen af ​​det samlede antal for hver gruppe end at kende frekvensen for hver gruppe.

Andel = relativ frekvens = (antal værdier i hver klasse ) / (samlet antal værdier)

Den kumulative fordeling:

Det er den løbende total for hver underklasse og klasse før den.

Visualisering af kategoriske variabler:

Søjlediagram

Sirkeldiagram

Pareto-diagram

Søjlediagram side om side

Visualisering af numeriske variabler:

Visning af stilk og blade

Histogram

Procent polygon

Kumulativ procent ge Polygon

Visualisering af to numeriske variabler:

Scatter plot

Time Series Plot

Organisering og visualisering af et sæt variabler:

Flerdimensionel beredskabstabel

Data Discovery