Pandy - korelacje danych
Znajdowanie relacji
Świetnym aspektem modułu Pandy jest corr()
metoda.
Metoda corr()
oblicza relację między każdą kolumną w zestawie danych.
W przykładach na tej stronie wykorzystano plik CSV o nazwie: „data.csv”.
Pobierz data.csv . lub Otwórz data.csv
Przykład
Pokaż relację między kolumnami:
df.corr()
Wynik
Duration Pulse Maxpulse Calories Duration 1.000000 -0.155408 0.009403 0.922721 Pulse -0.155408 1.000000 0.786535 0.025120 Maxpulse 0.009403 0.786535 1.000000 0.203814 Calories 0.922721 0.025120 0.203814 1.000000
Uwaga:
Metoda corr()
ignoruje kolumny „nienumeryczne”.
Wyjaśnienie wyniku
Wynikiem corr()
metody jest tabela z dużą liczbą liczb, która reprezentuje, jak dobrze jest relacja między dwiema kolumnami.
Liczba waha się od -1 do 1.
1 oznacza, że istnieje relacja 1 do 1 (doskonała korelacja), a dla tego zestawu danych, za każdym razem, gdy wartość w pierwszej kolumnie rosła, zwiększała się również druga.
0.9 to również dobra relacja, a jeśli zwiększysz jedną wartość, prawdopodobnie wzrośnie również druga.
-0,9 byłoby tak samo dobrą relacją jak 0,9, ale jeśli zwiększysz jedną wartość, druga prawdopodobnie spadnie.
0,2 oznacza NIE dobry związek, co oznacza, że jeśli jedna wartość wzrośnie, nie oznacza to, że druga będzie.
Jaka jest dobra korelacja?
Zależy to od zastosowania, ale myślę, że można bezpiecznie powiedzieć, że musisz mieć przynajmniej 0.6
(lub -0.6
), aby nazwać to dobrą korelacją.
Idealna korelacja:
Widzimy, że „Czas trwania” i „Czas trwania” otrzymały liczbę 1.000000
, co ma sens, każda kolumna zawsze ma ze sobą idealną relację.
Dobra korelacja:
„Czas trwania” i „Kalorie” uzyskały 0.922721
korelację, co jest bardzo dobrą korelacją, i możemy przewidzieć, że im dłużej ćwiczysz, tym więcej spalasz kalorii, i na odwrót: jeśli spaliłeś dużo kalorii, prawdopodobnie miał długą pracę.
Zła korelacja:
„Duration” i „Maxpulse” uzyskały 0.009403
korelację, co jest bardzo złą korelacją, co oznacza, że nie możemy przewidzieć maksymalnego tętna na podstawie samego czasu trwania treningu i na odwrót.
Zostać certyfikowanym!
ZAPISZ 10 USD