Uczenie maszynowe — normalna dystrybucja danych
Normalna dystrybucja danych
W poprzednim rozdziale dowiedzieliśmy się, jak stworzyć całkowicie losową tablicę o określonym rozmiarze i pomiędzy dwiema podanymi wartościami.
W tym rozdziale dowiemy się, jak stworzyć tablicę, w której wartości są skoncentrowane wokół danej wartości.
W teorii prawdopodobieństwa ten rodzaj dystrybucji danych jest znany jako normalny rozkład danych lub rozkład danych Gaussa , od nazwiska matematyka Carla Friedricha Gaussa, który wymyślił wzór na ten rozkład danych.
Przykład
Typowy normalny rozkład danych:
import numpy
import matplotlib.pyplot as plt
x =
numpy.random.normal(5.0, 1.0, 100000)
plt.hist(x, 100)
plt.show()
Wynik:
Uwaga: Wykres rozkładu normalnego jest również znany jako krzywa dzwonowa ze względu na charakterystyczny kształt dzwonu.
Wyjaśnienie histogramu
Używamy tablicy z numpy.random.normal()
metody zawierającej 100000 wartości, aby narysować histogram ze 100 słupkami.
Określamy, że średnia wartość to 5,0, a odchylenie standardowe to 1,0.
Oznacza to, że wartości powinny być skoncentrowane wokół 5,0 i rzadko dalej niż 1,0 od średniej.
Jak widać na histogramie, większość wartości mieści się w zakresie od 4,0 do 6,0, a szczyt wynosi około 5,0.