Pandy - korelacje danych


Znajdowanie relacji

Świetnym aspektem modułu Pandy jest corr()metoda.

Metoda corr()oblicza relację między każdą kolumną w zestawie danych.

W przykładach na tej stronie wykorzystano plik CSV o nazwie: „data.csv”.

Pobierz data.csv . lub Otwórz data.csv

Przykład

Pokaż relację między kolumnami:

df.corr()

Wynik

            Duration     Pulse  Maxpulse  Calories
  Duration  1.000000 -0.155408  0.009403  0.922721
  Pulse    -0.155408  1.000000  0.786535  0.025120
  Maxpulse  0.009403  0.786535  1.000000  0.203814
  Calories  0.922721  0.025120  0.203814  1.000000

Uwaga: Metoda corr()ignoruje kolumny „nienumeryczne”.

Wyjaśnienie wyniku

Wynikiem corr()metody jest tabela z dużą liczbą liczb, która reprezentuje, jak dobrze jest relacja między dwiema kolumnami.

Liczba waha się od -1 do 1.

1 oznacza, że ​​istnieje relacja 1 do 1 (doskonała korelacja), a dla tego zestawu danych, za każdym razem, gdy wartość w pierwszej kolumnie rosła, zwiększała się również druga.

0.9 to również dobra relacja, a jeśli zwiększysz jedną wartość, prawdopodobnie wzrośnie również druga.

-0,9 byłoby tak samo dobrą relacją jak 0,9, ale jeśli zwiększysz jedną wartość, druga prawdopodobnie spadnie.

0,2 oznacza NIE dobry związek, co oznacza, że ​​jeśli jedna wartość wzrośnie, nie oznacza to, że druga będzie.

Jaka jest dobra korelacja? Zależy to od zastosowania, ale myślę, że można bezpiecznie powiedzieć, że musisz mieć przynajmniej 0.6(lub -0.6), aby nazwać to dobrą korelacją.

Idealna korelacja:

Widzimy, że „Czas trwania” i „Czas trwania” otrzymały liczbę 1.000000, co ma sens, każda kolumna zawsze ma ze sobą idealną relację.

Dobra korelacja:

„Czas trwania” i „Kalorie” uzyskały 0.922721korelację, co jest bardzo dobrą korelacją, i możemy przewidzieć, że im dłużej ćwiczysz, tym więcej spalasz kalorii, i na odwrót: jeśli spaliłeś dużo kalorii, prawdopodobnie miał długą pracę.

Zła korelacja:

„Duration” i „Maxpulse” uzyskały 0.009403korelację, co jest bardzo złą korelacją, co oznacza, że ​​nie możemy przewidzieć maksymalnego tętna na podstawie samego czasu trwania treningu i na odwrót.


Sprawdź się za pomocą ćwiczeń

Ćwiczenie:

Wstaw poprawną składnię do znajdowania relacji między kolumnami w DataFrame.

df.()


w3schools CERTIFIED . 2021

Zostać certyfikowanym!

Wypełnij moduły Pandy, wykonaj ćwiczenia, podejdź do egzaminu, a uzyskasz certyfikat w3schools!

ZAPISZ 10 USD