Uma revisão das estatísticas descritivas

(27 de dezembro de 2020)

O que é estatística?

Estatística é a ciência de coletar dados e analisá-los para inferir proporções representativas da população. Em outras palavras, a estatística é a interpretação de dados para fazer previsões para a população.

Existem dois ramos da Estatística.

  • ESTATÍSTICAS DESCRITIVAS: Estatística Descritiva é uma estatística ou uma medida que descreve os dados.
  • ESTATÍSTICAS INFERENCIAIS: O uso de uma amostra aleatória de dados retirados de uma população para descrever e fazer inferências sobre a população é chamado de Estatística inferencial.

Focaremos na estatística descritiva, pois ela ajuda a entender o conjunto de dados e é uma parte importante do aprendizado de máquina. Isso se deve ao fato de o aprendizado de máquina ser totalmente voltado para fazer previsões que, por sua vez, só são possíveis após uma compreensão completa do conjunto de dados em consideração.

Estatísticas descritivas

As estatísticas descritivas resumem os dados em passe certos números como média, mediana etc. de modo a tornar a compreensão dos dados mais fácil e, portanto, é apenas a representação dos dados disponíveis.

As medidas mais comumente usadas são

  1. Medidas de tendência central
  2. Medidas de dispersão

Medidas de tendência central

Uma medida de tendência central é um resumo de um número dos dados que normalmente descrevem o centro dos dados. Esses resumos de um número são de três tipos.

  1. Média que é definida como a razão entre a soma de todas as observações nos dados e o número total de observações. Isso também é conhecido como Média.
  2. Mediana que é a ponto que divide todos os dados em duas metades iguais. Metade dos dados é menor que a mediana e a outra metade é maior. A mediana é calculada primeiro organizando os dados em ordem crescente ou decrescente.
  • Se o número de observações for ímpar, a mediana é dada pela observação do meio na forma classificada.
  • Se o número de observações for par, a mediana é dada pela média das duas observações do meio na forma classificada.

3. Modo que é o número que tem o máximo frequência em todo o conjunto de dados, ou em outras palavras, modo é o número que aparece o número máximo de vezes. Os dados podem ter um ou mais de um modo.

  • Se houver apenas um número que aparece no máximo de vezes, os dados têm um modo e é chamado de Unimodal .
  • Se houver dois números que aparecem número máximo de vezes, os dados têm dois modos e são chamados de Bi-modal .
  • Se houver mais de dois números que aparecem no máximo número de vezes, os dados tem mais de dois modos e é chamado de Multimodal .

Unimodal significa que a distribuição tem apenas um pico, o que significa que tem apenas uma pontuação de ocorrência frequente, agrupada no topo. Uma distribuição bimodal tem dois valores que ocorrem com frequência (dois picos) e uma multimodal tem dois ou vários valores que ocorrem frequentemente.

Medidas de dispersão

Medidas de dispersão descreve a distribuição dos dados em torno das medidas de tendência central.

  1. Desvio absoluto da média também chamado de Desvio Médio Absoluto (MAD), descreve a variação no conjunto de dados.
  2. Variância mede a distância que os pontos de dados estão espalhados da média. Uma alta variação indica que os pontos de dados estão amplamente espalhados e uma pequena variação indica que os pontos de dados estão mais próximos da média do conjunto de dados.
  3. Desvio padrão é a raiz quadrada da variância.
  4. Intervalo é a diferença entre o valor máximo e o valor mínimo no conjunto de dados.
  5. 5. Quartis são os pontos no conjunto de dados que dividem o conjunto de dados em quatro partes iguais. Q1, Q2 e Q3 são o primeiro, segundo e terceiro quartil do conjunto de dados.
  • 25\% dos pontos de dados estão abaixo do Q1 e 75\% acima dele.
  • 50\% dos pontos de dados estão abaixo do 2º trimestre e 50\% acima dele. Q2 nada mais é do que mediana.
  • 75\% dos pontos de dados estão abaixo do terceiro trimestre e 25\% acima dele.
Quartis [Imagem 14] (Imagem cortesia: https://statsmethods.wordpress.com/2013/05/09/iqr/)

6. Skewness – A medida de assimetria em uma distribuição de probabilidade é definida por Skewness. Pode ser positivo ou negativo.

  • Inclinação positiva – Este é o caso quando a cauda no lado direito da curva é maior do que no lado esquerdo. Para essas distribuições, a média é maior que a moda.
  • Inclinação negativa – É o caso quando a cauda no lado esquerdo da curva é maior do que no lado direito. Para essas distribuições, a média é menor que o modo.

Se a assimetria for zero, a distribuição é simétrica. Se for negativa, a distribuição é Desviada Negativamente e se for positiva, é Desviada Positivamente.

Skewness [Imagem 16] (Imagem cortesia: https://www.safaribooksonline.com/library/view/clojure-for-data/9781784397180/ch01s13.html)

7. Curtose – A curtose descreve se os dados são de cauda leve (falta de outliers) ou de cauda pesada (outliers presentes) quando comparados a uma distribuição Normal. Existem três tipos de curtose:

  • Mesocúrtica – É o caso quando a curtose é zero, semelhante às distribuições normais.
  • Leptocúrtica – É quando a cauda de a distribuição é pesada (presença de valores discrepantes) e a curtose é maior do que a distribuição normal.
  • Platicúrtico – ocorre quando a cauda da distribuição é leve (sem valores discrepantes) e a curtose é menor que a do distribuição normal.
Curtose [Imagem 19] (Imagem cortesia: https://mvpprograms.com/help/mvpstats/distributions/SkewnessKurtosis )

NOTA: A principal diferença entre assimetria e curtose é que a assimetria se refere ao grau de simetria, enquanto a curtose se refere ao grau de presença de outliers na distribuição.