Losowa dystrybucja danych


Co to jest dystrybucja danych?

Dystrybucja danych to lista wszystkich możliwych wartości oraz częstotliwość występowania każdej wartości.

Takie listy są ważne podczas pracy ze statystyką i nauką o danych.

Moduł random oferuje metody, które zwracają losowo wygenerowane rozkłady danych.


Rozkład losowy

Rozkład losowy to zbiór liczb losowych, które odpowiadają określonej funkcji gęstości prawdopodobieństwa .

Funkcja gęstości prawdopodobieństwa: Funkcja opisująca ciągłe prawdopodobieństwo. tj. prawdopodobieństwo wszystkich wartości w tablicy.

Liczby losowe możemy generować na podstawie zdefiniowanych prawdopodobieństw choice()metodą randommodułu.

Metoda choice()pozwala nam określić prawdopodobieństwo dla każdej wartości.

Prawdopodobieństwo jest określone liczbą z zakresu od 0 do 1, gdzie 0 oznacza, że ​​wartość nigdy nie wystąpi, a 1 oznacza, że ​​wartość wystąpi zawsze.

Przykład

Wygeneruj tablicę jednowymiarową zawierającą 100 wartości, gdzie każda wartość musi wynosić 3, 5, 7 lub 9.

Prawdopodobieństwo wartości 3 jest ustawione na 0,1

Prawdopodobieństwo wartości 5 jest ustawione na 0,3

Prawdopodobieństwo wartości 7 jest ustawione na 0,6

Prawdopodobieństwo wartości 9 jest ustawione na 0

from numpy import random

x = random.choice([3, 5, 7, 9], p=[0.1, 0.3, 0.6, 0.0], size=(100))

print(x)

Suma wszystkich liczb prawdopodobieństwa powinna wynosić 1.

Nawet jeśli uruchomisz przykład powyżej 100 razy, wartość 9 nigdy nie wystąpi.

Możesz zwrócić tablice o dowolnym kształcie i rozmiarze, określając kształt w sizeparametrze.

Przykład

Taki sam przykład jak powyżej, ale zwróć tablicę 2-D z 3 wierszami, z których każdy zawiera 5 wartości.

from numpy import random

x = random.choice([3, 5, 7, 9], p=[0.1, 0.3, 0.6, 0.0], size=(3, 5))

print(x)