Klastry danych

  • Klastry to zbiory podobnych danych
  • Klastrowanie to rodzaj nienadzorowanej nauki
  • Współczynnik korelacji opisuje siłę relacji.

Klastry

Klastry to zbiory danych oparte na podobieństwie.

Punkty danych zgrupowane razem na wykresie często można podzielić na klastry.

Na poniższym wykresie możemy wyróżnić 3 różne klastry:


Identyfikacja klastrów

Klastry mogą zawierać wiele cennych informacji, ale gromady przybierają różne kształty, więc jak je rozpoznać?

Dwie główne metody to:

  • Korzystanie z wizualizacji
  • Korzystanie z algorytmu klastrowania

Grupowanie

Klastrowanie jest rodzajem uczenia się nienadzorowanego .

Klastrowanie próbuje:

  • Zbieraj podobne dane w grupach
  • Zbieraj niepodobne dane w innych grupach

Metody grupowania

  • Metoda gęstości
  • Metoda hierarchiczna
  • Metoda partycjonowania
  • Metoda oparta na siatce

Metoda gęstości uważa, że ​​punkty w gęstych regionach mają więcej podobieństw i różnic niż punkty w mniej gęstym regionie. Metoda gęstości ma dobrą dokładność. Posiada również możliwość łączenia klastrów.
Dwa popularne algorytmy to DBSCAN i OPTICS.

Metoda hierarchiczna tworzy klastry w strukturze drzewiastej. Nowe klastry powstają przy użyciu wcześniej utworzonych klastrów.
Dwa popularne algorytmy to CURE i BIRCH.

Metoda oparta na siatce formułuje dane w skończoną liczbę komórek, które tworzą strukturę podobną do siatki.
Dwa popularne algorytmy to CLIQUE i STING

Metoda partycjonowania dzieli obiekty na k klastrów, a każda partycja tworzy jeden klaster.
Jednym z powszechnych algorytmów jest CLARANS.


Współczynnik korelacji

Współczynnik korelacji (r) opisuje siłę i kierunek zależności liniowej oraz zmiennych x/y na wykresie rozrzutu.

Wartość r zawsze mieści się w przedziale od -1 do +1:

-1,00Idealny zjazdUjemna zależność liniowa.
-0,70Mocny zjazdUjemna zależność liniowa.
-0,50Umiarkowany zjazdUjemna zależność liniowa.
-0,30Słaby zjazdUjemna zależność liniowa.
0Brak zależności liniowej.
+0,30Słaby podjazdDodatnia zależność liniowa.
+0,50Umiarkowany podjazdDodatnia zależność liniowa.
+0,70Silny podjazdDodatnia zależność liniowa.
+1.00Idealne pod góręDodatnia zależność liniowa.

Idealny podjazd +1.00 :

Idealny zjazd -1.00 :

'

Silny podjazd +0.61 :

Brak związku :