Nauka o danych — Python DataFrame


Utwórz ramkę DataFrame z Pandas

Ramka danych to ustrukturyzowana reprezentacja danych.

Zdefiniujmy ramkę danych z 3 kolumnami i 5 wierszami z fikcyjnymi liczbami:

Przykład

import pandas as pd

d = {'col1': [1, 2, 3, 4, 7], 'col2': [4, 5, 6, 9, 5], 'col3': [7, 8, 12, 1, 11]}

df = pd.DataFrame(data=d)

print(df)

Przykład wyjaśniony

  • Zaimportuj bibliotekę Pandy jako pd
  • Zdefiniuj dane za pomocą kolumn i wierszy w zmiennej o nazwie d
  • Utwórz ramkę danych za pomocą funkcji pd.DataFrame()
  • Ramka danych zawiera 3 kolumny i 5 wierszy
  • Wydrukuj dane wyjściowe ramki danych za pomocą funkcji print()

Piszemy pd. przed DataFrame() , aby poinformować Pythona, że ​​chcemy aktywować funkcję DataFrame() z biblioteki Pandas.

Uważaj na duże D i F w DataFrame!


Interpretacja wyników

To jest wynik:

Dane wyjściowe ramki danych

Widzimy, że "col1", "col2" i "col3" to nazwy kolumn.

Nie należy się mylić z liczbami pionowymi w zakresie od 0 do 4. Przekazują nam informacje o pozycji rzędów.

W Pythonie numeracja wierszy zaczyna się od zera.

Teraz możemy użyć Pythona do zliczania kolumn i wierszy.

Możemy użyć df.shape[1], aby znaleźć liczbę kolumn:

Przykład

Policz liczbę kolumn:

count_column = df.shape[1]
print(count_column)

Możemy użyć df.shape[0], aby znaleźć liczbę wierszy:

Przykład

Policz liczbę rzędów:

count_row = df.shape[0]
print(count_row)

Dlaczego nie możemy sami policzyć wierszy i kolumn?

Jeśli pracujemy z większymi zestawami danych z wieloma kolumnami i wierszami, samodzielne zliczanie ich będzie mylące. Ryzykujesz, że źle to policzysz. Jeśli poprawnie użyjemy wbudowanych funkcji w Pythonie, zapewniamy, że liczba jest poprawna.