Pandy — analiza ramek danych


Przeglądanie danych

Jedną z najczęściej używanych metod uzyskania szybkiego przeglądu DataFrame jest head()metoda.

Metoda head()zwraca nagłówki i określoną liczbę wierszy, zaczynając od góry.

Przykład

Uzyskaj szybki przegląd, drukując pierwsze 10 wierszy DataFrame:

import pandas as pd

df = pd.read_csv('data.csv')

print(df.head(10))

W naszych przykładach użyjemy pliku CSV o nazwie „data.csv”.

Pobierz data.csv lub otwórz data.csv w przeglądarce.

Uwaga: jeśli liczba wierszy nie jest określona, head()metoda zwróci 5 górnych wierszy.

Przykład

Wydrukuj pierwsze 5 wierszy DataFrame:

import pandas as pd

df = pd.read_csv('data.csv')

print(df.head())

Istnieje również tail()metoda przeglądania ostatnich wierszy DataFrame.

Metoda tail()zwraca nagłówki i określoną liczbę wierszy, zaczynając od dołu.

Przykład

Wydrukuj ostatnie 5 wierszy DataFrame:

print(df.tail()) 

w3schools CERTIFIED . 2021

Zostać certyfikowanym!

Wypełnij moduły Pandy, wykonaj ćwiczenia, podejdź do egzaminu, a uzyskasz certyfikat w3schools!

ZAPISZ 10 USD

Informacje o danych

Obiekt DataFrames ma metodę o nazwie info(), która dostarcza więcej informacji o zestawie danych.

Przykład

Wydrukuj informacje o danych:

print(df.info()) 

Wynik

  <class 'pandas.core.frame.DataFrame'>
  RangeIndex: 169 entries, 0 to 168
  Data columns (total 4 columns):
   #   Column    Non-Null Count  Dtype  
  ---  ------    --------------  -----  
   0   Duration  169 non-null    int64  
   1   Pulse     169 non-null    int64  
   2   Maxpulse  169 non-null    int64  
   3   Calories  164 non-null    float64
  dtypes: float64(1), int64(3)
  memory usage: 5.4 KB
  None
    

Wyjaśnienie wyniku

Wynik mówi nam, że jest 169 wierszy i 4 kolumny:

  RangeIndex: 169 entries, 0 to 168
  Data columns (total 4 columns):

Oraz nazwę każdej kolumny z typem danych:

   #   Column    Non-Null Count  Dtype  
  ---  ------    --------------  -----  
   0   Duration  169 non-null    int64  
   1   Pulse     169 non-null    int64  
   2   Maxpulse  169 non-null    int64  
   3   Calories  164 non-null    float64

Wartości zerowe

Metoda info()informuje nas również, ile wartości niepustych znajduje się w każdej kolumnie, a w naszym zestawie danych wygląda na to, że w kolumnie „Kalorie” znajduje się 164 z 169 wartości niepustych.

Co oznacza, że ​​w kolumnie „Kalorie” jest 5 wierszy bez żadnej wartości, z jakiegokolwiek powodu.

Puste wartości lub wartości Null mogą być złe podczas analizowania danych i należy rozważyć usunięcie wierszy z pustymi wartościami. Jest to krok w kierunku tzw. czyszczenia danych , o czym dowiesz się więcej w następnych rozdziałach.