Pandy — analiza ramek danych
Przeglądanie danych
Jedną z najczęściej używanych metod uzyskania szybkiego przeglądu DataFrame jest head()
metoda.
Metoda head()
zwraca nagłówki i określoną liczbę wierszy, zaczynając od góry.
Przykład
Uzyskaj szybki przegląd, drukując pierwsze 10 wierszy DataFrame:
import pandas as pd
df = pd.read_csv('data.csv')
print(df.head(10))
W naszych przykładach użyjemy pliku CSV o nazwie „data.csv”.
Pobierz data.csv lub otwórz data.csv w przeglądarce.
Uwaga: jeśli liczba wierszy nie jest określona, head()
metoda zwróci 5 górnych wierszy.
Przykład
Wydrukuj pierwsze 5 wierszy DataFrame:
import pandas as pd
df = pd.read_csv('data.csv')
print(df.head())
Istnieje również tail()
metoda przeglądania
ostatnich wierszy DataFrame.
Metoda tail()
zwraca nagłówki i określoną liczbę wierszy, zaczynając od dołu.
Przykład
Wydrukuj ostatnie 5 wierszy DataFrame:
print(df.tail())
Zostać certyfikowanym!
ZAPISZ 10 USD
Informacje o danych
Obiekt DataFrames ma metodę o nazwie info()
, która dostarcza więcej informacji o zestawie danych.
Przykład
Wydrukuj informacje o danych:
print(df.info())
Wynik
<class 'pandas.core.frame.DataFrame'> RangeIndex: 169 entries, 0 to 168 Data columns (total 4 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 Duration 169 non-null int64 1 Pulse 169 non-null int64 2 Maxpulse 169 non-null int64 3 Calories 164 non-null float64 dtypes: float64(1), int64(3) memory usage: 5.4 KB None
Wyjaśnienie wyniku
Wynik mówi nam, że jest 169 wierszy i 4 kolumny:
RangeIndex: 169 entries, 0 to 168 Data columns (total 4 columns):
Oraz nazwę każdej kolumny z typem danych:
# Column Non-Null Count Dtype --- ------ -------------- ----- 0 Duration 169 non-null int64 1 Pulse 169 non-null int64 2 Maxpulse 169 non-null int64 3 Calories 164 non-null float64
Wartości zerowe
Metoda info()
informuje nas również, ile wartości niepustych znajduje się w każdej kolumnie, a w naszym zestawie danych wygląda na to, że w kolumnie „Kalorie” znajduje się 164 z 169 wartości niepustych.
Co oznacza, że w kolumnie „Kalorie” jest 5 wierszy bez żadnej wartości, z jakiegokolwiek powodu.
Puste wartości lub wartości Null mogą być złe podczas analizowania danych i należy rozważyć usunięcie wierszy z pustymi wartościami. Jest to krok w kierunku tzw. czyszczenia danych , o czym dowiesz się więcej w następnych rozdziałach.