Nauka o danych — wariancja statystyk


Zmienność

Wariancja to kolejna liczba, która wskazuje, jak rozłożone są wartości.

W rzeczywistości, jeśli wyciągniesz pierwiastek kwadratowy z wariancji, otrzymasz odchylenie standardowe. Lub odwrotnie, jeśli pomnożysz odchylenie standardowe przez samo, otrzymasz wariancję!

Najpierw użyjemy zestawu danych z 10 obserwacjami, aby podać przykład, jak możemy obliczyć wariancję:

Czas trwania Średnia_impuls Max_Puls Kalorie_spalanie Godziny_Praca Godziny_Snu
30 80 120 240 10 7
30 85 120 250 10 7
45 90 130 260 8 7
45 95 130 270 8 7
45 100 140 280 0 7
60 105 140 290 7 8
60 110 145 300 7 8
60 115 145 310 8 8
75 120 150 320 0 8
75 125 150 330 8 8

Wariancja jest często reprezentowana przez symbol Sigma Square: σ^2


Krok 1, aby obliczyć wariancję: Znajdź średnią

Chcemy znaleźć wariancję Average_Pulse.

1. Znajdź średnią:

(80+85+90+95+100+105+110+115+120+125) / 10 = 102.5

Średnia to 102,5


Krok 2: Dla każdej wartości — znajdź różnicę od średniej

2. Znajdź różnicę od średniej dla każdej wartości:

80 - 102.5 = -22.5
85 - 102.5 = -17.5
90 - 102.5 = -12.5
95 - 102.5 = -7.5
100 - 102.5 = -2.5
105 - 102.5 = 2.5
110 - 102.5 = 7.5
115 - 102.5 = 12.5
120 - 102.5 = 17.5
125 - 102.5 = 22.5

Krok 3: Dla każdej różnicy — znajdź wartość kwadratową

3. Znajdź wartość kwadratową dla każdej różnicy:

(-22.5)^2 = 506.25
(-17.5)^2 = 306.25
(-12.5)^2 = 156.25
(-7.5)^2 = 56.25
(-2.5)^2 = 6.25
2.5^2 = 6.25
7.5^2 = 56.25
12.5^2 = 156.25
17.5^2 = 306.25
22.5^2 = 506.25

Uwaga: Aby uzyskać całkowity spread, musimy podnieść te wartości do kwadratu.



Krok 4: Wariancja to średnia liczba tych podniesionych do kwadratu wartości

4. Zsumuj kwadraty wartości i znajdź średnią:

(506.25 + 306.25 + 156.25 + 56.25 + 6.25 + 6.25 + 56.25 + 156.25 + 306.25 + 506.25) / 10 = 206.25

Wariancja wynosi 206,25.


Użyj Pythona, aby znaleźć wariancję health_data

Możemy użyć var()funkcji z Numpy, aby znaleźć wariancję (pamiętaj, że teraz używamy pierwszego zestawu danych z 10 obserwacjami):

Przykład

import numpy as np

var = np.var(health_data)
print(var)

Wyjście:

Zmienność

Użyj Pythona, aby znaleźć wariancję pełnego zbioru danych

Tutaj obliczamy wariancję dla każdej kolumny dla pełnego zestawu danych:

Przykład

import numpy as np

var_full = np.var(full_health_data)
print(var_full)

Wyjście:

Zmienność