Dane AI

80% projektu Sztucznej Inteligencji dotyczy zbierania danych :

  • Jakie dane są wymagane ?
  • Jakie dane są dostępne ?
  • Jak wybrać dane?
  • Jak zbierać dane?
  • Jak wyczyścić dane?
  • Jak przygotować dane?
  • Jak wykorzystać dane?

Co to są dane?

Dane mogą być wieloma rzeczami. W przypadku sztucznej inteligencji musi to być zbiór faktów:

RodzajPrzykłady
LiczbyCeny. Daktyle.
PomiaryRozmiar. Wzrost. Waga.
SłowaNazwy i miejsca.
ObserwacjeLiczenie samochodów.
OpisyJest zimno.

Inteligencja potrzebuje danych

Inteligencja ludzka potrzebuje danych:

Pośrednik w obrocie nieruchomościami potrzebuje danych o sprzedanych domach, aby oszacować ceny.

Sztuczna inteligencja potrzebuje danych:

Program komputerowy również potrzebuje danych do oszacowania cen.


Przechowywanie danych

Najczęściej zbieranymi danymi są liczby i pomiary.

Często dane są przechowywane w tablicach reprezentujących relacje między wartościami.

Ta tabela zawiera ceny domów w zależności od wielkości:

Cena £7889991011141415
Rozmiar5060708090100 110120130140150

Ilościowe a jakościowe

Dane ilościowe są liczbowe:

  • 55 samochodów
  • 15 metrów
  • 35 dzieci

Dane jakościowe mają charakter opisowy:

  • Jest zimno
  • to jest długie
  • To była zabawa

Spis lub pobieranie próbek

Spis powszechny ma miejsce wtedy , gdy zbieramy dane dotyczące każdego członka grupy.

Próbka ma miejsce wtedy, gdy zbieramy dane dotyczące niektórych członków grupy.

Gdybyśmy chcieli wiedzieć, ilu Amerykanów pali papierosy, moglibyśmy zapytać każdą osobę w USA (spis powszechny) lub 10 000 osób (próbka).

Spis ludności jest dokładny , ale trudny do wykonania. Próbka jest niedokładna , ale jest łatwiejsza do wykonania.


Warunki pobierania próbek

Populacja to grupa osób (obiektów), od których chcemy zbierać informacje.

Spis ludności to informacje o każdym osobniku w populacji.

Próbka to informacja o części populacji (w celu reprezentowania całości).


Próbki losowe

Aby próbka reprezentowała populację, musi być pobrana losowo.

Próbka losowa to próbka, w której każdy członek populacji ma równe szanse pojawienia się w próbie.


Odchylenie próbkowania

Błąd próbkowania (błąd) występuje, gdy próbki są zbierane w taki sposób, że niektóre osobniki mają mniejsze (lub większe) prawdopodobieństwo, że zostaną uwzględnione w próbce.