Dystrybucja Zipf
Dystrybucje Zipf są używane do próbkowania danych w oparciu o prawo zipf.
Prawo Zipfa: W zbiorze n-ty wspólny termin to 1/n razy najczęstszy termin. Np. 5-te popularne słowo w języku angielskim występuje prawie 1/5 razy w stosunku do najczęściej używanego słowa.
Ma dwa parametry:
a
- parametr rozkładu.
size
– kształt zwróconej tablicy.
Przykład
Narysuj próbkę dla rozkładu zipf z parametrem rozkładu 2 o rozmiarze 2x3:
from numpy import random
x = random.zipf(a=2, size=(2, 3))
print(x)
Wizualizacja dystrybucji Zipf
Próbkuj 1000 punktów, ale wykreśl tylko te o wartości < 10, aby uzyskać bardziej czytelny wykres.
Przykład
from numpy import random
import matplotlib.pyplot as plt
import seaborn as sns
x = random.zipf(a=2, size=1000)
sns.distplot(x[x<10], kde=False)
plt.show()