Wprowadzenie do nauki o danych


Data Science to połączenie wielu dyscyplin, które wykorzystują statystyki, analizę danych i uczenie maszynowe do analizowania danych oraz wydobywania z nich wiedzy i spostrzeżeń.


Co to jest nauka o danych?

Data Science to gromadzenie, analiza i podejmowanie decyzji.

Nauka o danych polega na znajdowaniu wzorców w danych poprzez analizę i przewidywaniu przyszłości.

Korzystając z Data Science, firmy są w stanie:

  • Lepsze decyzje (czy wybrać A czy B)
  • Analiza predykcyjna (co będzie dalej?)
  • Wykrywanie wzorców (znajdź wzorzec, a może ukryte informacje w danych)

Gdzie jest potrzebna analiza danych?

Data Science jest obecnie wykorzystywana w wielu branżach na świecie, np. w bankowości, doradztwie, służbie zdrowia i produkcji.

Przykłady, gdzie potrzebna jest analiza danych:

  • Planowanie trasy: Aby odkryć najlepsze trasy do wysyłki
  • Przewidywanie opóźnień lotu/statku/pociągu itp. (poprzez analizę predykcyjną)
  • Tworzenie ofert promocyjnych
  • Aby znaleźć najbardziej odpowiedni czas na dostarczenie towaru
  • Prognozowanie przychodów firmy na kolejne lata
  • Aby przeanalizować korzyści zdrowotne wynikające z treningu
  • Aby przewidzieć, kto wygra wybory

Data Science może być stosowana w prawie każdej części firmy, w której dostępne są dane. Przykłady to:

  • Dobra konsumpcyjne
  • Giełdy
  • Przemysł
  • Polityka
  • Firmy logistyczne
  • Handel elektroniczny

Jak działa analityk danych?

Data Scientist wymaga specjalistycznej wiedzy w kilku dziedzinach:

  • Nauczanie maszynowe
  • Statystyka
  • Programowanie (Python lub R)
  • Matematyka
  • Bazy danych

Data Scientist musi znaleźć wzorce w danych. Zanim znajdzie wzorce, musi uporządkować dane w standardowym formacie.

Oto jak działa Data Scientist:

  1. Zadawaj właściwe pytania — aby zrozumieć problem biznesowy.
  2. Eksploruj i zbieraj dane — z bazy danych, dzienników internetowych, opinii klientów itp.
  3. Wyodrębnij dane — przekształć dane do standardowego formatu.
  4. Wyczyść dane — usuń błędne wartości z danych.
  5. Znajdź i zamień brakujące wartości — Sprawdź brakujące wartości i zastąp je odpowiednią wartością (np. wartością średnią).
  6. Normalizuj dane - Skaluj wartości w praktycznym zakresie (np. 140 cm jest mniejsze niż 1,8 m. Jednak liczba 140 jest większa niż 1,8. - więc skalowanie jest ważne).
  7. Analizuj dane, znajduj wzorce i twórz prognozy na przyszłość .
  8. Zaprezentuj wynik — zaprezentuj wynik z przydatnymi spostrzeżeniami w sposób zrozumiały dla „firmy”.

Gdzie zacząć?

W tym samouczku zaczniemy od przedstawienia, czym są dane i jak można je analizować.

Dowiesz się, jak używać statystyk i funkcji matematycznych do przewidywania.