Organisera och visualisera variabler

(Mradul Dwivedi) (25 dec 2020)

Business Case: Du har blivit ombedd att definiera, samla in, organisera och visualisera data om vissa pensionsfonder på sätt som kan hjälpa potentiella kunder att fatta beslut om de fonder de investerar i.

Data: Du har fått 361 pensionsfonder att analysera

Början: Du börjar med att definiera variabler för viktiga egenskaper hos varje fond, såsom tidigare fonder för varje fond, beloppet på tillgångar som en fond förvaltar, och om fondens mål är att investera i företag vars intäkter förväntas växa kraftigt i framtiden (tillväxtfond) eller investera i företag vars aktiekursen är undervärderad (värdefond).

Du koll ect data från källor och organisera data. Att visa ett 361 radark för en klient skulle inte vara så bra. Så du vill nu sammanfatta uppgifterna och ta fram insikter som hjälper klienten att fatta ett välgrundat beslut.

Denna artikel innehåller inte mycket material att läsa om. Den innehåller bara nyckelorden så att man kan söka på Google om inte bekant.

Foto av Clay Banks Unsplash

Organisera kategoriska variabler:

Sammanfattningstabellen:

Hjälper till att se en sammanställd vy av varje kategori i termer av procent eller frekvenser eller belopp.

Beredskapstabellen:

Tvärtabellvärden för 2 eller fler kategoriska variabler i termer av procent av rad totalt, procent av kolumn totalt, procent av totalt totalt, frekvenser eller belopp.

Organisera numeriska variabler:

The Ordered Array:

Ordna numeriska data i stigande eller fallande ordning.

Frekvensfördelningen:

Uppsättning av numeriskt ordnade klasser, varje klass gruppen har ett klassintervall med ett ömsesidigt uteslutande värdeintervall.

Den totala frekvenskolumnen måste alltid vara lika med antalet värden.

Klassgränser och klassens mittpunkter.

Intervallbredd = (högsta värde – lägsta värde) / (antal klasser)

Relativ frekvensfördelning och procentuell fördelning:

När du jämför två eller flera grupper är det mer användbart att känna till andelen av summan för varje grupp än att veta frekvensen för varje grupp.

Andel = relativ frekvens = (antal värden i varje klass ) / (totalt antal värden)

Den kumulativa fördelningen:

Det är den löpande summan av varje underklass och klass före den.

Visualisering av kategoriska variabler:

Stapeldiagram

Cirkeldiagram

Pareto-diagram

Stapeldiagram sida vid sida

Visualisering av numeriska variabler:

Visning av stam och blad

Histogram

Procent polygon

Kumulativ procent ge polygon

Visualisering av två numeriska variabler:

Spridningsdiagram

Tidsserieplott

Organisera och visualisera en uppsättning variabler:

Flerdimensionell beredskapstabell

Data Discovery