Uczenie maszynowe — dystrybucja danych
Dystrybucja danych
Wcześniej w tym samouczku pracowaliśmy z bardzo małymi ilościami danych w naszych przykładach, aby zrozumieć różne koncepcje.
W świecie rzeczywistym zbiory danych są znacznie większe, ale zebranie danych ze świata rzeczywistego może być trudne, przynajmniej na wczesnym etapie projektu.
Jak możemy uzyskać duże zbiory danych?
Do tworzenia dużych zbiorów danych do testowania używamy modułu NumPy w Pythonie, który zawiera szereg metod tworzenia losowych zbiorów danych o dowolnej wielkości.
Przykład
Utwórz tablicę zawierającą 250 losowych liczb zmiennoprzecinkowych od 0 do 5:
import numpy
x = numpy.random.uniform(0.0, 5.0, 250)
print(x)
Histogram
Aby zwizualizować zestaw danych, możemy narysować histogram z zebranymi danymi.
Użyjemy modułu Pythona Matplotlib do narysowania histogramu.
Dowiedz się więcej o module Matplotlib w naszym samouczku Matplotlib .
Przykład
Narysuj histogram:
import numpy
import matplotlib.pyplot as plt
x =
numpy.random.uniform(0.0, 5.0, 250)
plt.hist(x, 5)
plt.show()
Wynik:
Wyjaśnienie histogramu
Tablicy z powyższego przykładu używamy do narysowania histogramu z 5 słupkami.
Pierwszy słupek przedstawia liczbę wartości w tablicy z zakresu od 0 do 1.
Drugi słupek przedstawia liczbę wartości z przedziału od 1 do 2.
Itp.
Co daje nam ten wynik:
- 52 wartości mieszczą się w zakresie od 0 do 1
- 48 wartości mieści się w przedziale od 1 do 2
- 49 wartości mieszczą się w przedziale od 2 do 3
- 51 wartości mieszczą się w przedziale od 3 do 4
- 50 wartości mieści się w przedziale od 4 do 5
Uwaga: wartości tablicy są liczbami losowymi i nie będą wyświetlać dokładnie tego samego wyniku na komputerze.
Dystrybucje Big Data
Tablica zawierająca 250 wartości nie jest uważana za bardzo dużą, ale teraz wiesz, jak utworzyć losowy zestaw wartości, a zmieniając parametry, możesz utworzyć zestaw danych tak duży, jak chcesz.
Przykład
Utwórz tablicę ze 100000 liczb losowych i wyświetl je za pomocą histogramu ze 100 słupkami:
import numpy
import matplotlib.pyplot as plt
x =
numpy.random.uniform(0.0, 5.0, 100000)
plt.hist(x, 100)
plt.show()