A klaszterezési módszer célja objektumok csoportosítása oly módon, hogy azok ugyanabban a csoportban jobban hasonlítsanak egymáshoz, mint más iparágak objektumaihoz. Ez az adatbányászat elsődleges feladata és egy általános statisztikai elemzési technika, amelyet számos területen használnak, beleértve a gépi tanulást, a mintafelismerést, a képfelismerést, az információkeresést, az adattömörítést és a számítógépes grafikát.
Optimalizálási probléma
Maga a klaszterezési módszer nem egy konkrét algoritmus, hanem egy általános feladat, amelyet meg kell oldani. Ez különféle algoritmusokkal érhető el, amelyek jelentősen eltérnek abban, hogy megértsék, mi alkot egy csoportot, és hogyan lehet hatékonyan megtalálni azt. A klaszterezési módszer alkalmazása metaszubjektumok képzésére magában foglalja a csoport használatát isa tagok közötti kis távolságok, a tér sűrű régiói, intervallumok vagy bizonyos statisztikai eloszlások. Ezért a klaszterezés többcélú optimalizálási problémaként is megfogalmazható.
A megfelelő módszer és paraméterbeállítások (beleértve az olyan elemeket, mint a használandó távolságfüggvény, a sűrűségi küszöb vagy a várható klaszterek száma) az egyedi adatkészlettől és az eredmények tervezett felhasználásától függenek. Az elemzés mint olyan nem automatikus feladat, hanem a tudásfeltárás vagy az interaktív többcélú optimalizálás iteratív folyamata. Ez a fürtözési módszer próba- és hibakísérleteket tartalmaz. Gyakran szükség van az adat-előfeldolgozási és modellparaméterek módosítására, amíg az eredmény el nem éri a kívánt tulajdonságokat.
A "klaszterezés" kifejezésen kívül számos hasonló jelentésű szó létezik, beleértve az automatikus osztályozást, a numerikus taxonómiát, a bothryology-t és a tipológiai elemzést. A finom különbségek gyakran abban rejlenek, hogy a klaszterezési módszert használják metaszubjektum kapcsolatok kialakítására. Míg az adatkinyerésnél a kapott csoportok érdekesek, addig az automatikus osztályozásnál már a diszkriminatív hatalom látja el ezeket a funkciókat.
A klaszterelemzés Kroeber számos 1932-es munkáján alapult. Zubin 1938-ban, Robert Tryon pedig 1939-ben vezette be a pszichológiába. És ezeket a munkákat Cattell 1943 óta használja a klaszterezési módszerek elméleti osztályozásának jelzésére.
Időtartam
A "klaszter" fogalma nem határozható meg pontosan. Ez az egyik oka annak, hogy olyan sok klaszterezési módszer létezik. Van egy közös nevező: adatobjektumok csoportja. A különböző kutatók azonban eltérő modelleket alkalmaznak. A fürtözési módszerek mindegyik ilyen felhasználása különböző adatokat tartalmaz. A különféle algoritmusok által talált koncepció tulajdonságaiban jelentősen eltér.
A fürtözési módszer használata a kulcs az utasítások közötti különbségek megértéséhez. A tipikus klaszterminták a következők:
- Centroid s. Ez például akkor történik, amikor a k-közép klaszterezés minden klasztert egy átlagvektorral reprezentál.
- Kapcsolódási modell s. Ez például a hierarchikus klaszterezés, amely a távolsági kapcsolódáson alapuló modelleket épít fel.
- Elosztási modell s. Ebben az esetben a klasztereket a klaszterezési módszerrel modellezik metaszubjektum statisztikai eloszlások kialakításához. Ilyen például a többváltozós normál elválasztás, amely a várakozás-maximalizálási algoritmusra alkalmazható.
- Sűrűségmodell s. Ilyen például a DBSCAN (Spatial Clustering Algorithm with Noise) és az OPTICS (Order Points for Structure Detection), amelyek a klasztereket az adattérben összekapcsolt sűrű régiókként határozzák meg.
- Subspace modell c. A kettős klaszterezésben (más néven ko-klaszterezés vagy két mód) a csoportok mindkét elemmel és a megfelelő attribútumokkal modellezhetők.
- Modell s. Egyes algoritmusok nemfinomított kapcsolat a klaszterezési módszerükhöz, hogy meta-tárgy eredményeket generáljanak, és egyszerűen csoportosítsák az információkat.
- S gráfon alapuló modell. Klikk, azaz csomópontok egy részhalmaza, így az élrészen minden két kapcsolat a klaszter alakzat prototípusának tekinthető. A teljes kereslet gyengülését kváziklikknek nevezzük. Pontosan ugyanez a név szerepel a HCS klaszterezési algoritmusában.
- Neurális modellek s. A legismertebb felügyelet nélküli hálózat az önszerveződő térkép. És általában ezek a modellek jellemezhetők úgy, hogy hasonlóak egy vagy több fenti klaszterezési módszerhez a meta-szubjektum eredmények képzésére. Ide tartoznak az altérrendszerek, amikor a neurális hálózatok megvalósítják a fő- vagy független komponenselemzés szükséges formáját.
Ez a kifejezés valójában ilyen csoportok halmaza, amelyek általában az adatfürtözési metódusok halmazában szereplő összes objektumot tartalmazzák. Ezenkívül jelezheti a klaszterek egymáshoz való viszonyát, például az egymásba épített rendszerek hierarchiáját. A csoportosítás a következő szempontokra osztható:
- Kemény centroid klaszterezési módszer. Itt minden objektum egy csoporthoz tartozik, vagy azon kívül esik.
- Lágy vagy homályos rendszer. Ezen a ponton minden objektum bizonyos mértékig bármely klaszterhez tartozik. Ezt c-means fuzzy klaszterezési módszernek is nevezik.
És finomabb különbségek is lehetségesek. Például:
- Szigorú particionálási fürtözés. Ittminden objektum pontosan egy csoportba tartozik.
- Szigorú particionálási fürtözés kiugró értékekkel. Ebben az esetben előfordulhat, hogy az objektumok nem tartoznak egyik fürthöz sem, és szükségtelennek tekinthetők.
- Átfedő fürtözés (szintén alternatív, több nézettel). Itt az objektumok több ághoz is tartozhatnak. Általában tömör klasztereket foglal magában.
- Hierarchikus klaszterezési módszerek. Az utódcsoporthoz tartozó objektumok szintén a szülő alrendszerhez tartoznak.
- Altér kialakulása. Bár hasonló az átfedő klaszterekhez, egy egyedileg meghatározott rendszeren belül a kölcsönös csoportok nem fedhetik át egymást.
Utasítások
Amint fentebb említettük, a klaszterező algoritmusok a klasztermodelljük alapján osztályozhatók. A következő áttekintés ezeknek az utasításoknak csak a legszembetűnőbb példáit sorolja fel. Mivel több mint 100 közzétett algoritmus létezhet, nem mindegyik ad modellt a klasztereihez, ezért nem lehet könnyen besorolni.
Nincs objektíven helyes klaszterezési algoritmus. De amint fentebb megjegyeztük, az utasítás mindig a megfigyelő látóterében van. Egy adott problémára a legmegfelelőbb klaszterezési algoritmust gyakran kísérleti úton kell kiválasztani, hacsak nincs matematikai oka annak, hogy az egyik modellt előnyben részesítjük a másikkal szemben. Meg kell jegyezni, hogy az egyetlen típusra tervezett algoritmus általában nem működikegy gyökeresen eltérő tárgyat tartalmazó adatkészlet. Például a k-means nem talál nem konvex csoportokat.
Kapcsolat alapú fürtözés
Ez az unió a nevén is ismert, a hierarchikus modell. Azon a tipikus elképzelésen alapul, hogy az objektumok jobban kapcsolódnak a szomszédos részekhez, mint a távolabbikhoz. Ezek az algoritmusok az objektumokat összekötik, és különböző klasztereket alkotnak, távolságuktól függően. Egy csoportot főként a klaszter különböző részeinek összekapcsolásához szükséges maximális távolsággal írhatunk le. Minden lehetséges távolságon további csoportok alakulnak ki, amelyeket dendrogrammal lehet ábrázolni. Ez megmagyarázza, honnan származik a „hierarchikus klaszterezés” elnevezés. Vagyis ezek az algoritmusok nem biztosítják az adatkészlet egyetlen partícióját, hanem egy kiterjedt jogosultsági sorrendet biztosítanak. Neki köszönhető, hogy bizonyos távolságokon lefolyik egymással. A dendrogramban az y tengely azt a távolságot jelöli, amelyen a klaszterek találkoznak. És az objektumok az X vonal mentén vannak elrendezve, hogy a csoportok ne keveredjenek.
A kapcsolat alapú klaszterezés módszerek egész családja, amelyek különböznek egymástól a távolságok kiszámításának módjában. A távolságfüggvények szokásos megválasztása mellett a felhasználónak kell döntenie a csatlakozási kritériumról is. Mivel egy fürt több objektumból áll, sok lehetőség van a számításra. A népszerű választás egykaros csoportosításként ismert, ez a módszerteljes hivatkozás, amely UPGMA-t vagy WPGMA-t tartalmaz (súlyozatlan vagy súlyozott párok együttese aritmetikai átlaggal, más néven átlaglink klaszterezés). Ezen túlmenően a hierarchikus rendszer lehet agglomeratív (egyedi elemekkel kezdődően, és csoportokba vonásuk) vagy felosztó (egy teljes adatkészlettel kezdődik és szakaszokra bontja).
Elosztott klaszterezés
Ezek a modellek a legszorosabb kapcsolatban állnak a felosztásokon alapuló statisztikákkal. A klaszterek könnyen meghatározhatók olyan objektumokként, amelyek nagy valószínűséggel ugyanahhoz a disztribúcióhoz tartoznak. Ennek a megközelítésnek egy praktikus tulajdonsága, hogy nagyon hasonlít a mesterséges adatkészletek létrehozásának módjához. Véletlenszerű objektumok mintavételével egy disztribúcióból.
Bár ezeknek a módszereknek az elméleti alapjai kiválóak, egy kulcsproblémával, az úgynevezett túlillesztéssel küzdenek, hacsak nem szabnak korlátokat a modell komplexitásának. Egy nagyobb asszociáció általában jobban megmagyarázza az adatokat, ami megnehezíti a megfelelő módszer kiválasztását.
Gauss keverékmodell
Ez a módszer mindenféle elvárásmaximalizálási algoritmust használ. Itt az adatkészletet általában rögzített (a felülbírálás elkerülése érdekében) számú Gauss-eloszlással modellezik, amelyeket véletlenszerűen inicializálnak, és amelyek paramétereit iteratív módon optimalizálják, hogy jobban illeszkedjenek az adatkészlethez. Ez a rendszer konvergál egy helyi optimumhoz. Ezért több futás is adhatkülönböző eredményeket. A legszorosabb klaszterezés érdekében a jellemzőket gyakran ahhoz a Gauss-eloszláshoz rendelik hozzá, amelyhez a legnagyobb valószínűséggel tartoznak. A lágyabb csoportok esetében ez nem szükséges.
Az elosztás alapú fürtözés összetett modelleket hoz létre, amelyek végső soron képesek rögzíteni az attribútumok közötti korrelációt és függőséget. Ezek az algoritmusok azonban további terhet rónak a felhasználóra. Sok valós adatkészlet esetében előfordulhat, hogy nem létezik tömören meghatározott matematikai modell (például a Gauss-eloszlás feltételezése meglehetősen erős feltevés).
Sűrűség alapú klaszterezés
Ebben a példában a csoportokat alapvetően olyan területekként definiáljuk, amelyek nagyobb átjárhatósággal rendelkeznek, mint az adatkészlet többi része. Az ezekben a ritka részekben található objektumok, amelyek az összes komponens szétválasztásához szükségesek, általában zaj- és élpontoknak számítanak.
A legnépszerűbb sűrűség alapú klaszterezési módszer a DBSCAN (Spatial Noise Clustering Algorithm). Sok újabb módszertől eltérően, van egy jól definiált fürtkomponense, az úgynevezett "sűrűség elérhetősége". A link-alapú klaszterezéshez hasonlóan bizonyos távolsági küszöbértékeken belüli csatlakozási pontokon alapul. Ez a módszer azonban csak azokat az elemeket gyűjti össze, amelyek megfelelnek a sűrűségi kritériumnak. Az eredeti verzióban, amely a többi objektum minimális száma ebben a sugárban, a fürt az összesből állsűrűséggel kapcsolatos elemek (amelyek szabad formájú csoportot alkothatnak, sok más módszertől eltérően), és minden objektum, amely a megengedett tartományon belül van.
A DBSCAN másik érdekes tulajdonsága, hogy bonyolultsága meglehetősen alacsony – lineáris számú tartománylekérdezést igényel az adatbázisban. Az is szokatlan, hogy lényegében ugyanazokat az eredményeket találja (ez determinisztikus a mag- és zajpontokra, de nem a határelemekre) minden futásban. Ezért nem szükséges többször futtatni.
A DBSCAN és az OPTICS fő hátránya, hogy a fürthatárok észleléséhez némi sűrűségcsökkenésre számítanak. Például átfedő Gauss-eloszlású adatkészletekben – ez a mesterséges objektumok gyakori használati esete – az ezen algoritmusok által generált klaszterhatárok gyakran önkényesnek tűnnek. Ez azért történik, mert a csoportok sűrűsége folyamatosan csökken. Egy Gauss-féle keverék adatkészletben pedig ezek az algoritmusok szinte mindig felülmúlják az olyan módszereket, mint például az EM-klaszterezés, amelyek képesek pontosan modellezni az ilyen típusú rendszereket.
Az átlagos elmozdulás egy klaszterezési megközelítés, amelyben minden objektum a környék legsűrűbb területére mozog a teljes kernel becslése alapján. A végén az objektumok a lokális áthatolhatósági maximumokhoz konvergálnak. A k-közép klaszterezéshez hasonlóan ezek a "sűrűség-attraktorok" egy adatkészlet reprezentánsaiként szolgálhatnak. De az átlagos váltásképes észlelni a DBSCAN-hoz hasonló tetszőleges alakú klasztereket. A költséges iteratív eljárás és a sűrűségbecslés miatt az átlagos elmozdulás általában lassabb, mint a DBSCAN vagy a k-Means. Ezenkívül a tipikus eltolási algoritmus nagydimenziós adatokra való alkalmazhatósága nehézkes a kernelsűrűség-becslés nem egyenletes viselkedése miatt, ami a klaszter végeinek túlzott töredezettségéhez vezet.
Értékelés
A fürtözési eredmények ellenőrzése ugyanolyan nehéz, mint maga a fürtözés. A népszerű megközelítések közé tartozik a "belső" pontozás (amikor a rendszer egyetlen minőségi mérőszámra redukálódik), és természetesen a "külső" pontozás (ahol a klaszterezést egy meglévő "alapigazság" osztályozáshoz hasonlítják). A humán szakértő manuális pontszámát és közvetett pontszámát pedig úgy találja meg, hogy megvizsgálja a klaszterezés hasznosságát a tervezett alkalmazásban.
A belső jelzőmérések azzal a problémával küzdenek, hogy olyan jellemzőket képviselnek, amelyek maguk is klaszterezési célpontoknak tekinthetők. Például lehetséges a Sziluett együtthatóval megadott adatok csoportosítása, kivéve, hogy erre nincs ismert hatékony algoritmus. Egy ilyen belső mércével az értékeléshez jobb összehasonlítani az optimalizálási problémák hasonlóságát.
A külső jel hasonló problémákkal küzd. Ha vannak ilyen „alapigazság” címkék, akkor nem kell csoportosítani. A gyakorlati alkalmazásokban pedig általában nincsenek ilyen fogalmak. Másrészt a címkék az adatkészletnek csak egy lehetséges partícióját tükrözik, ami nem jelenti azthogy nincs más (talán még jobb) klaszterezés.
Tehát ezen megközelítések egyike sem tudja végső soron megítélni a tényleges minőséget. De ehhez emberi értékelés kell, ami erősen szubjektív. Mindazonáltal az ilyen statisztikák informatívak lehetnek a rossz klaszterek azonosításában. De nem szabad figyelmen kívül hagyni a személy szubjektív értékelését.
Belső jel
Amikor egy klaszterezés eredményét olyan adatok alapján értékelik ki, amelyek maguk is klaszterbe kerültek, erre a kifejezésre hivatkozunk. Ezek a módszerek általában a legjobb eredményt egy olyan algoritmushoz rendelik, amely nagy hasonlósággal rendelkező csoportokat hoz létre a csoportokon belül és alacsony a csoportok között. A klaszterértékelésben a belső kritériumok alkalmazásának egyik hátránya, hogy a magas pontszámok nem feltétlenül vezetnek hatékony információkereső alkalmazásokhoz. Ezenkívül ez a pontszám elfogult az ugyanazt a modellt használó algoritmusok felé. Például a k-közép klaszterezés természetesen optimalizálja a tereptárgyak távolságait, és az ezen alapuló belső kritérium valószínűleg túlbecsüli a kapott klaszterezést.
Ezért ezek az értékelési intézkedések a legalkalmasabbak arra, hogy képet kapjanak azokról a helyzetekről, amikor az egyik algoritmus jobban teljesít, mint a másik. Ez azonban nem jelenti azt, hogy minden információ megbízhatóbb eredményt ad, mint a többi. Az ilyen index által mért érvényességi idő attól függ, hogy a struktúra létezik-e az adatkészletben. Egyes típusokra kidolgozott algoritmusnak esélye sincs, ha a halmaz radikálisan tartalmazeltérő összetételű, vagy ha az értékelés eltérő kritériumokat mér. Például a k-közép klaszterezés csak konvex klasztereket tud találni, és sok pontindex ugyanazt a formátumot veszi fel. Nem konvex modelleket tartalmazó adatkészletben nem megfelelő a k-átlagok és a tipikus értékelési kritériumok használata.
Külső értékelés
Ezzel a fajta csoportosítással a klaszterezési eredményeket a rendszer olyan adatok alapján értékeli, amelyeket nem használtak fel a csoportosításhoz. Azaz például az ismert osztálycímkék és külső tesztek. Az ilyen kérdések előre besorolt elemekből állnak, és gyakran szakértők (emberek) állítják össze őket. Mint ilyenek, a referenciakészletek az értékelés aranystandardjának tekinthetők. Az ilyen típusú pontozási módszerek azt mérik, hogy a klaszterezés milyen közel van az adott referenciaosztályokhoz. A közelmúltban azonban szóba került, hogy ez valós adatokhoz megfelelő-e, vagy csak a tényleges alapigazsággal rendelkező szintetikus halmazokhoz. Mivel az osztályok tartalmazhatnak belső struktúrát, és előfordulhat, hogy a meglévő attribútumok nem teszik lehetővé a fürtök szétválasztását. Tudásfeltárás szempontjából is előfordulhat, hogy az ismert tények reprodukálása nem feltétlenül hozza meg a várt eredményt. Egy speciális, korlátozott klaszterezési forgatókönyvben, amikor a metainformációkat (például osztálycímkéket) már használnak a csoportosítási folyamatban, nem triviális az összes információ megőrzése értékelési célokra.
Most már világos, hogy mi nem vonatkozik a klaszterezési módszerekre, és milyen modelleket használnak erre a célra.