Nauka o danych — wariancja statystyk
Zmienność
Wariancja to kolejna liczba, która wskazuje, jak rozłożone są wartości.
W rzeczywistości, jeśli wyciągniesz pierwiastek kwadratowy z wariancji, otrzymasz odchylenie standardowe. Lub odwrotnie, jeśli pomnożysz odchylenie standardowe przez samo, otrzymasz wariancję!
Najpierw użyjemy zestawu danych z 10 obserwacjami, aby podać przykład, jak możemy obliczyć wariancję:
Czas trwania | Średnia_impuls | Max_Puls | Kalorie_spalanie | Godziny_Praca | Godziny_Snu |
---|---|---|---|---|---|
30 | 80 | 120 | 240 | 10 | 7 |
30 | 85 | 120 | 250 | 10 | 7 |
45 | 90 | 130 | 260 | 8 | 7 |
45 | 95 | 130 | 270 | 8 | 7 |
45 | 100 | 140 | 280 | 0 | 7 |
60 | 105 | 140 | 290 | 7 | 8 |
60 | 110 | 145 | 300 | 7 | 8 |
60 | 115 | 145 | 310 | 8 | 8 |
75 | 120 | 150 | 320 | 0 | 8 |
75 | 125 | 150 | 330 | 8 | 8 |
Wariancja jest często reprezentowana przez symbol Sigma Square: σ^2
Krok 1, aby obliczyć wariancję: Znajdź średnią
Chcemy znaleźć wariancję Average_Pulse.
1. Znajdź średnią:
(80+85+90+95+100+105+110+115+120+125) / 10 = 102.5
Średnia to 102,5
Krok 2: Dla każdej wartości — znajdź różnicę od średniej
2. Znajdź różnicę od średniej dla każdej wartości:
80 - 102.5 = -22.5
85 - 102.5 = -17.5
90 - 102.5 = -12.5
95 - 102.5 =
-7.5
100 - 102.5 = -2.5
105 - 102.5 = 2.5
110 - 102.5 = 7.5
115 -
102.5 = 12.5
120 - 102.5 = 17.5
125 - 102.5 = 22.5
Krok 3: Dla każdej różnicy — znajdź wartość kwadratową
3. Znajdź wartość kwadratową dla każdej różnicy:
(-22.5)^2 = 506.25
(-17.5)^2 = 306.25
(-12.5)^2 = 156.25
(-7.5)^2 =
56.25
(-2.5)^2 = 6.25
2.5^2 = 6.25
7.5^2 = 56.25
12.5^2 = 156.25
17.5^2 = 306.25
22.5^2 = 506.25
Uwaga: Aby uzyskać całkowity spread, musimy podnieść te wartości do kwadratu.
Krok 4: Wariancja to średnia liczba tych podniesionych do kwadratu wartości
4. Zsumuj kwadraty wartości i znajdź średnią:
(506.25 + 306.25 + 156.25 + 56.25 + 6.25 + 6.25 + 56.25 + 156.25 + 306.25 +
506.25) / 10 = 206.25
Wariancja wynosi 206,25.
Użyj Pythona, aby znaleźć wariancję health_data
Możemy użyć var()
funkcji z Numpy, aby znaleźć wariancję (pamiętaj, że teraz używamy pierwszego zestawu danych z 10 obserwacjami):
Przykład
import numpy as np
var = np.var(health_data)
print(var)
Wyjście:
Użyj Pythona, aby znaleźć wariancję pełnego zbioru danych
Tutaj obliczamy wariancję dla każdej kolumny dla pełnego zestawu danych:
Przykład
import numpy as np
var_full = np.var(full_health_data)
print(var_full)
Wyjście: