Klastry danych
- Klastry to zbiory podobnych danych
- Klastrowanie to rodzaj nienadzorowanej nauki
- Współczynnik korelacji opisuje siłę relacji.
Klastry
Klastry to zbiory danych oparte na podobieństwie.
Punkty danych zgrupowane razem na wykresie często można podzielić na klastry.
Na poniższym wykresie możemy wyróżnić 3 różne klastry:
Identyfikacja klastrów
Klastry mogą zawierać wiele cennych informacji, ale gromady przybierają różne kształty, więc jak je rozpoznać?
Dwie główne metody to:
- Korzystanie z wizualizacji
- Korzystanie z algorytmu klastrowania
Grupowanie
Klastrowanie jest rodzajem uczenia się nienadzorowanego .
Klastrowanie próbuje:
- Zbieraj podobne dane w grupach
- Zbieraj niepodobne dane w innych grupach
Metody grupowania
- Metoda gęstości
- Metoda hierarchiczna
- Metoda partycjonowania
- Metoda oparta na siatce
Metoda gęstości uważa, że punkty w gęstych regionach mają więcej podobieństw i różnic niż punkty w mniej gęstym regionie. Metoda gęstości ma dobrą dokładność. Posiada również możliwość łączenia klastrów.
Dwa popularne algorytmy to DBSCAN i OPTICS.
Metoda hierarchiczna tworzy klastry w strukturze drzewiastej. Nowe klastry powstają przy użyciu wcześniej utworzonych klastrów.
Dwa popularne algorytmy to CURE i BIRCH.
Metoda oparta na siatce formułuje dane w skończoną liczbę komórek, które tworzą strukturę podobną do siatki.
Dwa popularne algorytmy to CLIQUE i STING
Metoda partycjonowania dzieli obiekty na k klastrów, a każda partycja tworzy jeden klaster.
Jednym z powszechnych algorytmów jest CLARANS.
Współczynnik korelacji
Współczynnik korelacji (r) opisuje siłę i kierunek zależności liniowej oraz zmiennych x/y na wykresie rozrzutu.
Wartość r zawsze mieści się w przedziale od -1 do +1:
-1,00 | Idealny zjazd | Ujemna zależność liniowa. |
-0,70 | Mocny zjazd | Ujemna zależność liniowa. |
-0,50 | Umiarkowany zjazd | Ujemna zależność liniowa. |
-0,30 | Słaby zjazd | Ujemna zależność liniowa. |
0 | Brak zależności liniowej. | |
+0,30 | Słaby podjazd | Dodatnia zależność liniowa. |
+0,50 | Umiarkowany podjazd | Dodatnia zależność liniowa. |
+0,70 | Silny podjazd | Dodatnia zależność liniowa. |
+1.00 | Idealne pod górę | Dodatnia zależność liniowa. |
Idealny podjazd +1.00 :
Idealny zjazd -1.00 :
Silny podjazd +0.61 :
Brak związku :