Nauka o danych — Python DataFrame
Utwórz ramkę DataFrame z Pandas
Ramka danych to ustrukturyzowana reprezentacja danych.
Zdefiniujmy ramkę danych z 3 kolumnami i 5 wierszami z fikcyjnymi liczbami:
Przykład
import pandas as pd
d = {'col1': [1, 2, 3, 4, 7], 'col2': [4, 5, 6, 9,
5], 'col3': [7, 8, 12, 1, 11]}
df = pd.DataFrame(data=d)
print(df)
Przykład wyjaśniony
- Zaimportuj bibliotekę Pandy jako pd
- Zdefiniuj dane za pomocą kolumn i wierszy w zmiennej o nazwie d
- Utwórz ramkę danych za pomocą funkcji pd.DataFrame()
- Ramka danych zawiera 3 kolumny i 5 wierszy
- Wydrukuj dane wyjściowe ramki danych za pomocą funkcji print()
Piszemy pd. przed DataFrame() , aby poinformować Pythona, że chcemy aktywować funkcję DataFrame() z biblioteki Pandas.
Uważaj na duże D i F w DataFrame!
Interpretacja wyników
To jest wynik:
Widzimy, że "col1", "col2" i "col3" to nazwy kolumn.
Nie należy się mylić z liczbami pionowymi w zakresie od 0 do 4. Przekazują nam informacje o pozycji rzędów.
W Pythonie numeracja wierszy zaczyna się od zera.
Teraz możemy użyć Pythona do zliczania kolumn i wierszy.
Możemy użyć df.shape[1], aby znaleźć liczbę kolumn:
Przykład
Policz liczbę kolumn:
count_column = df.shape[1]
print(count_column)
Możemy użyć df.shape[0], aby znaleźć liczbę wierszy:
Przykład
Policz liczbę rzędów:
count_row = df.shape[0]
print(count_row)
Dlaczego nie możemy sami policzyć wierszy i kolumn?
Jeśli pracujemy z większymi zestawami danych z wieloma kolumnami i wierszami, samodzielne zliczanie ich będzie mylące. Ryzykujesz, że źle to policzysz. Jeśli poprawnie użyjemy wbudowanych funkcji w Pythonie, zapewniamy, że liczba jest poprawna.