Dane AI
Aż 80% projektu Sztucznej Inteligencji dotyczy zbierania danych :
- Jakie dane są wymagane ?
- Jakie dane są dostępne ?
- Jak wybrać dane?
- Jak zbierać dane?
- Jak wyczyścić dane?
- Jak przygotować dane?
- Jak wykorzystać dane?
Co to są dane?
Dane mogą być wieloma rzeczami. W przypadku sztucznej inteligencji musi to być zbiór faktów:
Rodzaj | Przykłady |
---|---|
Liczby | Ceny. Daktyle. |
Pomiary | Rozmiar. Wzrost. Waga. |
Słowa | Nazwy i miejsca. |
Obserwacje | Liczenie samochodów. |
Opisy | Jest zimno. |
Inteligencja potrzebuje danych
Inteligencja ludzka potrzebuje danych:
Pośrednik w obrocie nieruchomościami potrzebuje danych o sprzedanych domach, aby oszacować ceny.
Sztuczna inteligencja potrzebuje danych:
Program komputerowy również potrzebuje danych do oszacowania cen.
Przechowywanie danych
Najczęściej zbieranymi danymi są liczby i pomiary.
Często dane są przechowywane w tablicach reprezentujących relacje między wartościami.
Ta tabela zawiera ceny domów w zależności od wielkości:
Cena £ | 7 | 8 | 8 | 9 | 9 | 9 | 10 | 11 | 14 | 14 | 15 |
Rozmiar | 50 | 60 | 70 | 80 | 90 | 100 | 110 | 120 | 130 | 140 | 150 |
Ilościowe a jakościowe
Dane ilościowe są liczbowe:
- 55 samochodów
- 15 metrów
- 35 dzieci
Dane jakościowe mają charakter opisowy:
- Jest zimno
- to jest długie
- To była zabawa
Spis lub pobieranie próbek
Spis powszechny ma miejsce wtedy , gdy zbieramy dane dotyczące każdego członka grupy.
Próbka ma miejsce wtedy, gdy zbieramy dane dotyczące niektórych członków grupy.
Gdybyśmy chcieli wiedzieć, ilu Amerykanów pali papierosy, moglibyśmy zapytać każdą osobę w USA (spis powszechny) lub 10 000 osób (próbka).
Spis ludności jest dokładny , ale trudny do wykonania. Próbka jest niedokładna , ale jest łatwiejsza do wykonania.
Warunki pobierania próbek
Populacja to grupa osób (obiektów), od których chcemy zbierać informacje.
Spis ludności to informacje o każdym osobniku w populacji.
Próbka to informacja o części populacji (w celu reprezentowania całości).
Próbki losowe
Aby próbka reprezentowała populację, musi być pobrana losowo.
Próbka losowa to próbka, w której każdy członek populacji ma równe szanse pojawienia się w próbie.
Odchylenie próbkowania
Błąd próbkowania (błąd) występuje, gdy próbki są zbierane w taki sposób, że niektóre osobniki mają mniejsze (lub większe) prawdopodobieństwo, że zostaną uwzględnione w próbce.