Wprowadzenie do nauki o danych
Data Science to połączenie wielu dyscyplin, które wykorzystują statystyki, analizę danych i uczenie maszynowe do analizowania danych oraz wydobywania z nich wiedzy i spostrzeżeń.
Co to jest nauka o danych?
Data Science to gromadzenie, analiza i podejmowanie decyzji.
Nauka o danych polega na znajdowaniu wzorców w danych poprzez analizę i przewidywaniu przyszłości.
Korzystając z Data Science, firmy są w stanie:
- Lepsze decyzje (czy wybrać A czy B)
- Analiza predykcyjna (co będzie dalej?)
- Wykrywanie wzorców (znajdź wzorzec, a może ukryte informacje w danych)
Gdzie jest potrzebna analiza danych?
Data Science jest obecnie wykorzystywana w wielu branżach na świecie, np. w bankowości, doradztwie, służbie zdrowia i produkcji.
Przykłady, gdzie potrzebna jest analiza danych:
- Planowanie trasy: Aby odkryć najlepsze trasy do wysyłki
- Przewidywanie opóźnień lotu/statku/pociągu itp. (poprzez analizę predykcyjną)
- Tworzenie ofert promocyjnych
- Aby znaleźć najbardziej odpowiedni czas na dostarczenie towaru
- Prognozowanie przychodów firmy na kolejne lata
- Aby przeanalizować korzyści zdrowotne wynikające z treningu
- Aby przewidzieć, kto wygra wybory
Data Science może być stosowana w prawie każdej części firmy, w której dostępne są dane. Przykłady to:
- Dobra konsumpcyjne
- Giełdy
- Przemysł
- Polityka
- Firmy logistyczne
- Handel elektroniczny
Jak działa analityk danych?
Data Scientist wymaga specjalistycznej wiedzy w kilku dziedzinach:
- Nauczanie maszynowe
- Statystyka
- Programowanie (Python lub R)
- Matematyka
- Bazy danych
Data Scientist musi znaleźć wzorce w danych. Zanim znajdzie wzorce, musi uporządkować dane w standardowym formacie.
Oto jak działa Data Scientist:
- Zadawaj właściwe pytania — aby zrozumieć problem biznesowy.
- Eksploruj i zbieraj dane — z bazy danych, dzienników internetowych, opinii klientów itp.
- Wyodrębnij dane — przekształć dane do standardowego formatu.
- Wyczyść dane — usuń błędne wartości z danych.
- Znajdź i zamień brakujące wartości — Sprawdź brakujące wartości i zastąp je odpowiednią wartością (np. wartością średnią).
- Normalizuj dane - Skaluj wartości w praktycznym zakresie (np. 140 cm jest mniejsze niż 1,8 m. Jednak liczba 140 jest większa niż 1,8. - więc skalowanie jest ważne).
- Analizuj dane, znajduj wzorce i twórz prognozy na przyszłość .
- Zaprezentuj wynik — zaprezentuj wynik z przydatnymi spostrzeżeniami w sposób zrozumiały dla „firmy”.
Gdzie zacząć?
W tym samouczku zaczniemy od przedstawienia, czym są dane i jak można je analizować.
Dowiesz się, jak używać statystyk i funkcji matematycznych do przewidywania.