Dystrybucja Zipf


Dystrybucje Zipf są używane do próbkowania danych w oparciu o prawo zipf.

Prawo Zipfa: W zbiorze n-ty wspólny termin to 1/n razy najczęstszy termin. Np. 5-te popularne słowo w języku angielskim występuje prawie 1/5 razy w stosunku do najczęściej używanego słowa.

Ma dwa parametry:

a- parametr rozkładu.

size– kształt zwróconej tablicy.

Przykład

Narysuj próbkę dla rozkładu zipf z parametrem rozkładu 2 o rozmiarze 2x3:

from numpy import random

x = random.zipf(a=2, size=(2, 3))

print(x)

Wizualizacja dystrybucji Zipf

Próbkuj 1000 punktów, ale wykreśl tylko te o wartości < 10, aby uzyskać bardziej czytelny wykres.

Przykład

from numpy import random
import matplotlib.pyplot as plt
import seaborn as sns

x = random.zipf(a=2, size=1000)
sns.distplot(x[x<10], kde=False)

plt.show()

Wynik