Organisering og visualisering av variabler

(Mradul Dwivedi) (25. des 2020)

Business Case: Du er blitt bedt om å definere, samle inn, organisere og visualisere data om noen pensjonsmidler på måter som kan hjelpe potensielle kunder med å ta beslutninger om midlene de vil investere i.

Data: Du har fått 361 pensjonsfond til å analysere

Begynnelse: Du begynner med å definere variabler for nøkkelegenskapene til hvert fond, som for eksempel resultatene til hvert fond, mengden eiendeler som et fond forvalter, og om fondets mål er å investere i selskaper hvis inntjening forventes å vokse betydelig i fremtiden (vekstfond) eller investere i selskaper som har aksjekursen er undervurdert (verdifond).

Du koll ect data fra kilder og organisere data. Å vise et ark med 361 rad til en klient ville ikke være så god idé. Så du vil nå oppsummere dataene og få frem innsikt for å hjelpe klienten med å ta en informert beslutning.

Denne artikkelen inneholder ikke mye materiale å lese om. Den inneholder bare stikkordene slik at man kan google-søk av ikke kjent.

Foto av Clay Banks Unsplash

Organisering av kategoriske variabler:

Sammendragstabellen:

Hjelper med å se en samlet visning av hver kategori når det gjelder prosent eller frekvenser eller mengde.

Beredskapstabellen:

Kryss tabulerer verdier på 2 eller flere kategoriske variabler når det gjelder prosentandel av rad totalt, prosentandel av kolonnetotal, prosentandel av total total, frekvenser eller mengde. p>

Organisering av numeriske variabler:

The Ordered Array:

Ordne numeriske data i stigende eller synkende rekkefølge.

Frekvensfordelingen:

Sett med numerisk ordnede klasser, hver klasse gruppen har et klasseintervall med et gjensidig utelukkende verdiområde.

Totalen for frekvenskolonnen må alltid være lik antall verdier.

Klassegrenser og klassens midtpunkter.

Intervallbredde = (høyeste verdi – laveste verdi) / (antall klasser)

Den relative frekvensfordelingen og prosentfordelingen:

Når du sammenligner to eller flere grupper, er det mer nyttig å kjenne andelen av totalen for hver gruppe enn å kjenne frekvensen til hver gruppe.

Andel = relativ frekvens = (antall verdier i hver klasse ) / (totalt antall verdier)

Den kumulative fordelingen:

Det er den løpende summen av hver underklasse og klasse før den.

Visualisering av kategoriske variabler:

Søylediagram

Sirkeldiagram

Pareto-diagram

Søylediagram side om side

Visualisering av numeriske variabler:

Stam-and-leaf Display

Histogram

Prosent polygon

Kumulativ prosent ge Polygon

Visualisering av to numeriske variabler:

Spredningsdiagram

Tidsserieplott

Organisering og visualisering av et sett med variabler:

Flerdimensjonal beredskapstabell

Data Discovery