Losowa dystrybucja danych
Co to jest dystrybucja danych?
Dystrybucja danych to lista wszystkich możliwych wartości oraz częstotliwość występowania każdej wartości.
Takie listy są ważne podczas pracy ze statystyką i nauką o danych.
Moduł random oferuje metody, które zwracają losowo wygenerowane rozkłady danych.
Rozkład losowy
Rozkład losowy to zbiór liczb losowych, które odpowiadają określonej funkcji gęstości prawdopodobieństwa .
Funkcja gęstości prawdopodobieństwa: Funkcja opisująca ciągłe prawdopodobieństwo. tj. prawdopodobieństwo wszystkich wartości w tablicy.
Liczby losowe możemy generować na podstawie zdefiniowanych prawdopodobieństw
choice()
metodą
random
modułu.
Metoda choice()
pozwala nam określić prawdopodobieństwo dla każdej wartości.
Prawdopodobieństwo jest określone liczbą z zakresu od 0 do 1, gdzie 0 oznacza, że wartość nigdy nie wystąpi, a 1 oznacza, że wartość wystąpi zawsze.
Przykład
Wygeneruj tablicę jednowymiarową zawierającą 100 wartości, gdzie każda wartość musi wynosić 3, 5, 7 lub 9.
Prawdopodobieństwo wartości 3 jest ustawione na 0,1
Prawdopodobieństwo wartości 5 jest ustawione na 0,3
Prawdopodobieństwo wartości 7 jest ustawione na 0,6
Prawdopodobieństwo wartości 9 jest ustawione na 0
from numpy import random
x = random.choice([3, 5, 7, 9], p=[0.1, 0.3,
0.6, 0.0], size=(100))
print(x)
Suma wszystkich liczb prawdopodobieństwa powinna wynosić 1.
Nawet jeśli uruchomisz przykład powyżej 100 razy, wartość 9 nigdy nie wystąpi.
Możesz zwrócić tablice o dowolnym kształcie i rozmiarze, określając kształt w
size
parametrze.
Przykład
Taki sam przykład jak powyżej, ale zwróć tablicę 2-D z 3 wierszami, z których każdy zawiera 5 wartości.
from numpy import random
x = random.choice([3, 5, 7, 9], p=[0.1, 0.3,
0.6, 0.0], size=(3, 5))
print(x)