Príklad použitia zhlukovej analýzy STATISTICA v poistení vozidiel. Zhluková analýza je štúdia rozdelením množiny objektov do homogénnych skupín Zhluková analýza veľkého množstva informácií

Random Forest je jeden z mojich obľúbených algoritmov dolovania údajov. Po prvé, je neuveriteľne všestranný; dá sa použiť na riešenie regresných aj klasifikačných problémov. Vyhľadajte anomálie a vyberte prediktory. Po druhé, toto je algoritmus, ktorý je naozaj ťažké nesprávne aplikovať. Jednoducho preto, že na rozdiel od iných algoritmov má málo konfigurovateľných parametrov. Vo svojom jadre je tiež prekvapivo jednoduchý. A zároveň je pozoruhodný svojou presnosťou.

Aká je myšlienka za takým úžasným algoritmom? Myšlienka je jednoduchá: povedzme, že máme nejaký veľmi slabý algoritmus, povedzme. Ak vytvoríme veľa rôznych modelov pomocou tohto slabého algoritmu a spriemerujeme výsledok ich predpovedí, potom bude konečný výsledok oveľa lepší. Ide o takzvaný súborový tréning v akcii. Algoritmus náhodného lesa sa preto nazýva „náhodný les“, na základe získaných údajov vytvára mnoho rozhodovacích stromov a potom spriemeruje výsledok ich predpovedí. Dôležitým bodom je tu prvok náhodnosti pri vytváraní každého stromu. Je predsa jasné, že ak vytvoríme veľa rovnakých stromov, tak výsledok ich spriemerovania bude mať presnosť jedného stromu.

ako pracuje? Predpokladajme, že máme nejaké vstupné údaje. Každý stĺpec zodpovedá nejakému parametru, každý riadok zodpovedá nejakému dátovému prvku.

Z celého súboru údajov môžeme náhodne vybrať určitý počet stĺpcov a riadkov a na základe nich zostaviť rozhodovací strom.


štvrtok 10. mája 2012

štvrtok 12. januára 2012


To je všetko. 17-hodinový let sa skončil, Rusko zostalo v zámorí. A cez okno útulného 2-izbového bytu San Francisco na nás hľadí slávne Silicon Valley, Kalifornia, USA. Áno, to je práve dôvod, prečo som v poslednej dobe prakticky nepísal. Presťahovali sme sa.

Všetko to začalo v apríli 2011, keď som robil telefonický rozhovor v Zynga. Potom mi to všetko pripadalo ako nejaká hra, ktorá nemá nič spoločné s realitou a ani som si nevedel predstaviť, čo z toho bude. V júni 2011 prišla Zynga do Moskvy a urobila sériu pohovorov, zvažovalo sa asi 60 kandidátov, ktorí prešli telefonickými pohovormi a z nich sa vybralo asi 15 (neviem presné číslo, niekto si to neskôr rozmyslel, niekto hneď odmietol). Rozhovor sa ukázal byť prekvapivo jednoduchý. Žiadne programátorské úlohy, žiadne záludné otázky o tvare poklopov, testovala sa väčšinou schopnosť chatovať. A vedomosti sa podľa mňa hodnotili len povrchne.

A potom začal trik. Najprv sme čakali na výsledky, potom ponuku, potom schválenie LCA, potom schválenie žiadosti o vízum, potom dokumenty z USA, potom rad na veľvyslanectve, potom dodatočnú kontrolu, potom víza. Miestami sa mi zdalo, že som pripravený všetko zahodiť a skórovať. Občas som pochyboval, či túto Ameriku potrebujeme, napokon, ani v Rusku to nie je zlé. Celý proces trval asi šesť mesiacov, v dôsledku toho sme v polovici decembra dostali víza a začali sa pripravovať na odlet.

Pondelok bol môj prvý deň v práci. Kancelária má všetky podmienky nielen na prácu, ale aj bývanie. Raňajky, obedy a večere od vlastných kuchárov, kopa pestrej stravy natlačená všade, posilňovňa, masáže a dokonca aj kaderník. To všetko je pre zamestnancov úplne zadarmo. Veľa ľudí sa do práce dostáva na bicykli a je tu niekoľko miestností na uskladnenie vozidiel. Vo všeobecnosti som sa s niečím podobným v Rusku nikdy nestretol. Všetko má však svoju cenu, hneď nás upozornili, že budeme musieť veľa pracovať. Čo je podľa ich noriem „veľa“, mi nie je veľmi jasné.

Dúfajme, že sa mi však aj napriek množstvu práce podarí v dohľadnej dobe obnoviť blogovanie a možno vám poviem niečo o americkom živote a práci programátora v Amerike. Počkaj a uvidíš. Zatiaľ všetkým blahoželám k novému roku a Vianociam a čoskoro sa uvidíme!


Pre príklad použitia vytlačíme dividendový výnos ruských spoločností. Ako základnú cenu berieme uzatváraciu cenu akcie v deň uzávierky registra. Z nejakého dôvodu tieto informácie nie sú na stránke trojky, ale sú oveľa zaujímavejšie ako absolútne hodnoty dividend.
Pozor! Spustenie kódu trvá dlho, pretože pre každú akciu musíte zadať požiadavku na servery finam a získať jej hodnotu.

Výsledok<- NULL for(i in (1:length(divs[,1]))){ d <- divs if (d$Divs>0) (skúste ((úvodzovky<- getSymbols(d$Symbol, src="Finam", from="2010-01-01", auto.assign=FALSE) if (!is.nan(quotes)){ price <- Cl(quotes) if (length(price)>0) (dd<- d$Divs result <- rbind(result, data.frame(d$Symbol, d$Name, d$RegistryDate, as.numeric(dd)/as.numeric(price), stringsAsFactors=FALSE)) } } }, silent=TRUE) } } colnames(result) <- c("Symbol", "Name", "RegistryDate", "Divs") result


Podobne môžete vytvárať štatistiky za minulé roky.

V STATISTICA implementovali klasické metódy zhlukovej analýzy, vrátane metód k-means, hierarchického klastrovania a dvojvstupového spojenia.

Dáta môžu prísť vo svojej pôvodnej podobe aj vo forme matice vzdialeností medzi objektmi.

Pozorovania a premenné môžu byť zoskupené pomocou rôznych vzdialeností (euklidovský, euklidovský štvorec, Manhattan, Čebyšev atď.) a rôznych pravidiel pre kombinovanie zhlukov (jednoduché, úplné spojenie, nevážený a vážený párový priemer pre skupiny atď.).

Formulácia problému

Pôvodný dátový súbor obsahuje nasledujúce informácie o vozidlách a ich vlastníkoch:

Účelom tejto analýzy je zatriediť autá a ich majiteľov do tried, z ktorých každá zodpovedá určitej rizikovej skupine. Pozorovania patriace do jednej skupiny sa vyznačujú rovnakou pravdepodobnosťou vzniku poistnej udalosti, ktorú následne posudzuje poisťovateľ.

Použitie klastrovej analýzy na vyriešenie tohto problému je najúčinnejšie. Vo všeobecnom prípade je klastrová analýza určená na spojenie niektorých objektov do tried (zhlukov) tak, aby tie najpodobnejšie spadali do jednej triedy a objekty rôznych tried sa od seba čo najviac líšili. Kvantitatívny ukazovateľ podobnosti je vypočítaný daným spôsobom na základe údajov charakterizujúcich objekty.

Meracia stupnica

Všetky klastrové algoritmy potrebujú odhadnúť vzdialenosti medzi zhlukami alebo objektmi a je jasné, že pri výpočte vzdialenosti je potrebné nastaviť mierku meraní.

Keďže rôzne merania používajú úplne odlišné typy mierok, údaje je potrebné štandardizovať (v menu Údaje vybrať položku Štandardizovať), takže každá premenná bude mať priemer 0 a štandardnú odchýlku 1.

Tabuľka so štandardizovanými premennými je uvedená nižšie.

Krok 1. Hierarchická klasifikácia

Prvým krokom je zistiť, či autá tvoria „prirodzené“ zoskupenia, ktoré možno konceptualizovať.

Poďme si vybrať Zhluková analýza v ponuke Analýza - Viacrozmerná exploračná analýza na zobrazenie úvodného panela modulu Zhluková analýza... V tomto dialógovom okne vyberte Hierarchická klasifikácia a stlačte OK.

stlač tlačidlo Premenné, vyberte si Všetko, v teréne Objekty vybrať si Pozorovania (struny). Ako odborové pravidlo, pozn Úplný spôsob pripojenia ako miera blízkosti - Euklidovská vzdialenosť... Stlačte tlačidlo OK.

Metóda úplného prepojenia definuje vzdialenosť medzi klastrami ako najväčšiu vzdialenosť medzi akýmikoľvek dvoma prvkami v rôznych zhlukoch (tj „najvzdialenejší susedia“).

Miera blízkosti, definovaná euklidovskou vzdialenosťou, je geometrická vzdialenosť v n-rozmernom priestore a vypočíta sa takto:

Najdôležitejším výsledkom zhlukovania stromov je hierarchický strom. Kliknite na tlačidlo Vertikálny dendrogram.

Stromové diagramy sa môžu na prvý pohľad zdať trochu mätúce, ale po nejakom štúdiu sa stanú zrozumiteľnejšími. Diagram začína hore (pre vertikálny dendrogram) s každým vozidlom vo svojom vlastnom zoskupení.

Hneď ako sa začnete pohybovať nadol, autá, ktoré sa „bližšie navzájom dotýkajú“, sa spoja a vytvoria zhluky. Každý uzol vo vyššie uvedenom diagrame predstavuje spojenie dvoch alebo viacerých zhlukov, pričom poloha uzlov na zvislej osi určuje vzdialenosť, v ktorej boli zodpovedajúce zhluky kombinované.

Krok 2. K-znamená zoskupovanie

Na základe vizuálnej prezentácie výsledkov možno predpokladať, že autá tvoria štyri prirodzené zhluky. Overme si tento predpoklad rozdelením počiatočných údajov metódou K mean do 4 zhlukov a skontrolujme významnosť rozdielu medzi získanými skupinami.

Na úvodnom paneli modulu Zhluková analýza vybrať si K-Means Clustering.

stlač tlačidlo Premenné a vyberte si Všetko, v teréne Objekty vybrať si Pozorovania (struny), nastavte 4 klastre oddielu.

Metóda K-znamená je nasledovná: výpočty začínajú k náhodne vybraným pozorovaniam (v našom prípade k = 4), ktoré sa stanú centrami skupín, po ktorých sa zmení objektové zloženie zhlukov, aby sa minimalizovala variabilita v rámci zhlukov a maximalizovala sa variabilita medzi zhlukami.

Každé nasledujúce pozorovanie (K + 1) patrí do skupiny, ktorej miera podobnosti s ťažiskom je minimálna.

Po zmene zloženia zhluku sa vypočíta nové ťažisko, najčastejšie ako vektor priemeru pre každý parameter. Algoritmus pokračuje, kým sa zloženie klastrov neprestane meniť.

Po získaní výsledkov klasifikácie môžete vypočítať priemernú hodnotu ukazovateľov pre každý klaster a posúdiť, ako sa navzájom líšia.

V okne Výsledky metódy K znamená vybrať si ANOVA určiť významnosť rozdielu medzi výslednými zhlukami.

Takže hodnota p<0.05, что говорит о значимом различии.

stlač tlačidlo Prvky klastra a vzdialenosti zobraziť pozorovania zahrnuté v každom z klastrov. Voľba tiež umožňuje zobraziť euklidovské vzdialenosti objektov od stredov (stredné hodnoty) ich zodpovedajúcich zhlukov.

Prvý klaster:

Druhý klaster:

Tretí klaster:

Štvrtý klaster:

Takže v každom zo štyroch zhlukov sú objekty s podobným vplyvom na proces strát.

Krok 3. Opisná štatistika

Znalosť deskriptívnej štatistiky v každej skupine je určite nevyhnutná pre každého výskumníka.

Zhluková analýza sa objavil relatívne nedávno - v roku 1939. Navrhol to vedec K. Trion. Doslova výraz "cluster" v preklade z angličtiny "cluster" znamená štetec, trs, zväzok, skupina.

Obzvlášť prudký rozvoj zhlukovej analýzy nastal v 60. rokoch minulého storočia. Predpokladom na to bol vznik vysokorýchlostných počítačov a uznanie klasifikácií ako základnej metódy vedeckého výskumu.

Zhluková analýza je metóda viacrozmerného štatistického výskumu, ktorá zahŕňa zhromažďovanie údajov obsahujúcich informácie o vzorových objektoch a ich zoraďovanie do relatívne homogénnych, podobných skupín.

Podstata zhlukovej analýzy teda spočíva v implementácii klasifikácie výskumných objektov pomocou početných výpočtových postupov. V dôsledku toho sa vytvárajú „zhluky“ alebo skupiny veľmi podobných objektov. Na rozdiel od iných metód tento typ analýzy umožňuje klasifikovať objekty nie podľa jedného atribútu, ale podľa viacerých súčasne. Na tento účel sa zavádzajú vhodné ukazovatele, ktoré charakterizujú určitý stupeň blízkosti pre všetky klasifikačné parametre.

Účelom zhlukovej analýzy je hľadanie existujúcich štruktúr, vyjadrených vo vytváraní skupín podobných objektov – zhlukov. Jeho pôsobenie zároveň spočíva v zavádzaní štruktúry do skúmaných objektov. To znamená, že techniky zhlukovania sú potrebné na identifikáciu vzorov v údajoch, ktoré nie je ľahké nájsť vizuálnou kontrolou alebo s pomocou odborníkov.

Hlavné úlohy klastrovej analýzy sú:

Vypracovanie typológie alebo klasifikácie skúmaných objektov;

Výskum a určenie prijateľných koncepčných schém na zoskupovanie objektov;

Vytváranie hypotéz na základe výsledkov dolovania údajov;

Testovanie hypotéz, či sa typy (skupiny), ktoré boli identifikované určitým spôsobom, vyskytujú v dostupných dátach.

Klastrová analýza vyžaduje nasledujúce postupné kroky:

1) uskutočnenie výberu objektov na zhlukovanie;

2) určenie súboru znakov, podľa ktorých budú vybrané objekty hodnotené;

3) posúdenie stupňa podobnosti objektov;

4) využitie zhlukovej analýzy na vytvorenie skupín podobných objektov;

5) overenie spoľahlivosti výsledkov klastrového riešenia.

Každý z týchto krokov zohráva významnú úlohu pri praktickej implementácii analýzy.

Určenie súboru znakov, ktoré sú základom pre hodnotenie objektov () v zhlukovej analýze, je jednou z najdôležitejších výskumných úloh. Cieľom tohto kroku by malo byť určenie množiny premenných atribútov, ktorá najlepšie odráža koncept podobnosti. Tieto vlastnosti sa musia vybrať s prihliadnutím na teoretické ustanovenia, ktoré sú základom klasifikácie, ako aj na účel štúdie.

Pri určovaní miery podobnosti objektov zhlukovej analýzy sa používajú štyri typy koeficientov: korelačné koeficienty, indikátory vzdialenosti, asociatívne a pravdepodobnostné koeficienty, koeficienty podobnosti. Každý z týchto ukazovateľov má svoje výhody a nevýhody, ktoré je potrebné najskôr vziať do úvahy. V praxi sú v oblasti sociálnych a ekonomických vied najrozšírenejšie korelačné a dištančné koeficienty.

Výsledkom analýzy súboru vstupných údajov je vytvorenie homogénnych skupín tak, že objekty v rámci týchto skupín sú si navzájom podobné podľa nejakého kritéria a objekty z rôznych skupín sa od seba líšia.

Klastrovanie možno vykonať dvoma hlavnými spôsobmi, vrátane použitia hierarchických alebo iteračných postupov.

Hierarchické postupy- postupné akcie na vytvorenie zhlukov rôznych úrovní, navzájom podriadených podľa jasne stanovenej hierarchie. Najčastejšie hierarchické postupy

prostredníctvom aglomeračných (zjednocujúcich) akcií. Poskytujú tieto operácie:

Sekvenčná kombinácia podobných objektov s vytvorením matice podobnosti objektov;

Konštrukcia dendrogramu (stromový diagram), ktorý odráža sekvenčnú kombináciu objektov do zhlukov;

Vytvorenie samostatných zhlukov pre študovaný súbor v prvej počiatočnej fáze analýzy a spojenie všetkých objektov do jednej veľkej skupiny v záverečnej fáze analýzy.

Iteračné postupy spočívajú vo vytváraní primárnych údajov jednoúrovňových (rovnakého rangu) hierarchicky navzájom nepodriadených zhlukov.

Metóda k-means (vyvinutá v roku 1967 J. McQueenom) je už viac ako štyridsať rokov jednou z najrozšírenejších metód vykonávania iteračných postupov. Jeho aplikácia vyžaduje nasledujúce kroky:

Rozdelenie počiatočných údajov študovanej populácie do daného počtu zhlukov

Výpočet viacrozmerných priemerov (ťažísk) vybraných zhlukov

Výpočet euklidovskej vzdialenosti každej jednotky množiny definovaných stredov príťažlivosti zhlukov a konštrukcia matice vzdialenosti na základe metriky vzdialenosti. Používajú sa rôzne metriky vzdialenosti, napríklad euklidovská vzdialenosť (jednoduchá a vážená), Manhattan, Čebyšev, Minkowski, Mahalonobis a podobne;

Určenie nových centov príťažlivosti a nových zhlukov.

Najznámejšie a najpoužívanejšie metódy

tvorba klastrov sú:

Jednotná komunikácia;

Kompletná komunikácia;

Stredná komunikácia;

Wardova metóda.

Metóda jedného spojenia (metóda blízkeho suseda) umožňuje pripojenie jednotky populácie do klastra, ak je blízko (je na rovnakej úrovni podobnosti) aspoň jednému zástupcovi tohto klastra.

Metóda úplnej komunikácie (vzdialený sused) vyžaduje určitú úroveň podobnosti objektu (nie menšiu ako hraničnú úroveň), predpokladá sa, že bude zaradený do zhluku s akýmkoľvek iným.

Priemerná metóda spojenia je založená na použití priemernej vzdialenosti medzi kandidátom na zaradenie do klastra a zástupcami existujúceho klastra.

Podľa Wardovej metódy sa objekty spájajú do zhlukov v prípade minimálneho nárastu vnútroskupinového súčtu štvorcov odchýlok. Vďaka tomu vznikajú zhluky približne rovnakej veľkosti, ktoré majú tvar hypersféry.

Klastrová analýza, podobne ako iné metódy na štúdium stochastickej komunikácie, si vyžaduje množstvo zložitých výpočtov, je lepšie ju vykonávať pomocou moderných informačných systémov, vrátane softvérového produktu Statistica 6.0.

Výskumníci používajú klastrovú analýzu v rôznych štúdiách, napríklad pri štúdiu úrovne blahobytu obyvateľstva krajín SNŠ (A. Miroshnichenko). Najprv sa na tento účel vybralo 16 hlavných štatistických sociálno-ekonomických ukazovateľov, ktoré charakterizujú životnú úroveň občanov v rôznych krajinách SNŠ:

1) HDP na obyvateľa, USD USA;

2) priemerné mesačné nominálne mzdy, rus. trieť.;

3) priemerný mesačný dôchodok, rus. trieť.;

6) podiel výdavkov na nákup potravín na spotrebných výdavkoch domácností v percentách;

7) spotreba mäsa a mäsových výrobkov v priemere za rok na osobu, kg;

8) množstvo pšeničného chleba, ktoré bolo možné zakúpiť za sumu priemerného peňažného príjmu za mesiac (na osobu), kg;

9) všeobecná miera plodnosti (na 1000 ľudí);

10) dojčenská úmrtnosť (úmrtia detí mladších ako jeden rok na 1000 narodených detí)

11) počet zamestnaných ako percento ekonomicky aktívneho obyvateľstva;

12) poskytovanie bývania obyvateľstvu v priemere (na osobu), m2 celkovej plochy;

13) počet pacientov so zhubnými nádormi (na 100 000 obyvateľov), osôb;

14) počet evidovaných trestných činov (na 100 000 obyvateľov), jednotky;

15) emisie škodlivých látok do ovzdušia zo stacionárnych zdrojov znečistenia (na osobu), kg;

16) návštevy múzeí v priemere za rok (na 1000 obyvateľov), jednotiek (Tabuľka 12.7).

Analýza kráterov sa vykonáva na základe porovnateľných a jednosmerných ukazovateľov. Preto by mali byť ukazovatele vstupnej matice najskôr štandardizované. Jednou z bežných metód pre heterogénne populácie (najmä v našom príklade) je štandardizácia ukazovateľov pomerom odchýlky - a k štandardizačnej jednotke q. V tomto prípade bude jednotkou štandardizácie skutočný rozsah variácií.

Navyše, ako ukazujú vedecké práce ekonómov AM Erin a S.S. Vaschaev, pre indikátory-stimulanty sa berú, zatiaľ čo pre indikátory-de-stimulátory. Na základe toho sa štandardizované hodnoty ukazovateľov vypočítajú pomocou vzorcov:

Pre ukazovatele stimulanty :;

Pre stimulátory:

kde je štandardizovaná hodnota ukazovateľa i-ro pre y-tú jednotku populácie;

Vstupná hodnota i-tého ukazovateľa pre j-tú jednotku populácie.

Výsledné štandardizované vstupy sú uvedené v tabuľke 12.8.

Azerbajdžan

Bielorusko

Kazachstan

Kirgizsko

Tadžikistan

Tabuľka 12.8. Štandardizovaná vstupná matica

Azerbajdžan

Bielorusko

Kazachstan

Kirgizsko

Tadžikistan

Ďalším krokom v zhlukovej analýze by mala byť konštrukcia matice vzdialenosti, ktorá predpokladá v prvom rade výber metriky vzdialenosti. V praxi sa používajú rôzne metriky vzdialenosti: Euklidovská, vážená euklidovská, Manhattan, Čebyšev, Minkowski, Mahalonobis D 2 atď. V tomto prípade je možné rozdelenie krajín SNŠ do skupín vykonať pomocou vzdialenosti Manhattan. Vypočítava sa podľa vzorca

,

kde a sú štandardizovaná hodnota i-tého ukazovateľa j-tej a k-tej jednotky populácie.

Na základe zvolenej miery vzdialenosti je možné zostrojiť symetrickú maticu vzdialeností medzi krajinami SNŠ (tabuľka 12.9).

krajín SNŠ

Azerbajdžan

Bielorusko

Kazachstan

Kirgizsko

Tadžikistan

Azerbajdžan

Bielorusko

Kazachstan

Kirgizsko

Tadžikistan

Ďalšou fázou analýzy je výber metódy spájania krajín SNŠ do klastrov. Ako už bolo uvedené, najbežnejšie metódy klastrovania sú:

Jednotná komunikácia;

Kompletná komunikácia;

Stredná komunikácia;

Wardova metóda.

Použijeme Wardovu metódu, ktorá minimalizuje vnútroskupinový rozptyl v rámci zhlukov. Podľa tejto metódy sa spájanie objektov do zhlukov uskutočňuje s minimálnym zvýšením vnútroskupinového súčtu štvorcov odchýlok. To prispieva k tvorbe zhlukov približne rovnakej veľkosti, ktoré sú vo forme hypersféry. Dendrogram výsledkov zhlukovej analýzy je znázornený na obrázku 12.5.

Ryža. 12.5. Dendrogram výsledkov zhlukovej analýzy krajín SNŠ podľa životnej úrovne obyvateľstva

Ako je zrejmé z obrázku, vertikálna os dendrogramu odráža krajiny SNŠ a horizontálna je vzdialenosť únie.

Aby bolo možné určiť optimálny počet zhlukov, je potrebné zostaviť graf zoznamu spájania regiónov Ukrajiny do zhlukov, pričom na jej zvislej osi vynesú vzdialenosti a na vodorovnú os krok zlúčenia (obr. 12.6). .

Ryža. 12.6. Harmonogram zoznamu zjednotenia krajín SNŠ do klastrov

Ako vidíte, optimálne podľa stanovených požiadaviek na optimalitu je rozdelenie krajín SNŠ podľa životnej úrovne obyvateľstva do troch zhlukov. Všimnite si, že optimálny počet zhlukov sa považuje za rovný rozdielu medzi počtom pozorovaní (v našom príklade 9) a počtom krokov, po ktorých skoková vzdialenosť narastá (v našom príklade 6).

Krajiny SNŠ sú teda rozdelené do troch klastrov. Prvý klaster zahŕňa Azerbajdžan a Tadžikistan, druhý Bielorusko, Ukrajina, Rusko a Kazachstan a tretí Arménsko, Moldavsko a Kirgizsko.

Pomocou metódy k-means boli vypočítané priemerné hodnoty ukazovateľov pre každý z troch zhlukov (obr. 12.7).

Ryža. 12.7. Priemerné hodnoty ukazovateľov pre každý klaster

Ako je znázornené na obr. 12.7, pred prvým klastrom sú krajiny, v ktorých sú priemerné hodnoty ôsmich ukazovateľov nižšie ako v iných klastroch.

Azerbajdžan a Tadžikistan, patriace do prvého klastra, majú teda nízky HDP na obyvateľa, priemerné mesačné mzdy (nominálne), dôchodky, spotrebu mäsa a mäsových výrobkov a bývanie. V týchto krajinách sú však vyššie iné priemery, najmä: index investícií do fixných aktív, index spotrebiteľských cien a pôrodnosť.

Krajiny uvedené v druhom zhluku sa vyznačujú vysokými parametrami ekonomickej zložky životnej úrovne, ale, žiaľ, nízkou pôrodnosťou, vysokým výskytom zhubných nádorov, kriminalitou, veľkými emisiami škodlivých látok do ovzdušia zo stacionárnych zdrojov znečistenia, čo potvrdzujú príslušné ukazovatele.

Krajiny tretieho klastra sa vyznačujú nízkymi ukazovateľmi: index investícií do fixných aktív, úroveň zamestnanosti vo verejnej ekonomike, registrovaná kriminalita, čo poukazuje na ich nízku investičnú atraktivitu a výraznú nezamestnanosť.

Klastrová analýza má teda podľa vedcov veľký význam pri vykonávaní analytického výskumu kvôli schopnosti premeniť veľké množstvo všestranných informácií do usporiadanej kompaktnej formy. To prispieva k zvýšeniu úrovne viditeľnosti, jasnosti a vnímania výsledkov analýzy a tiež vytvára základ pre prognózy.

V štatistike existujú dva hlavné typy zhlukovej analýzy (oba sú prezentované v SPSS): hierarchická a k-priemerná. V prvom prípade automatizovaný štatistický postup nezávisle určí optimálny počet zhlukov a množstvo ďalších parametrov požadovaných pre klaster.

analýza. Druhý typ analýzy má značné obmedzenia vo svojej praktickej použiteľnosti - na to je potrebné nezávisle určiť presný počet identifikovaných zhlukov a počiatočné hodnoty stredov každého zhluku (centroidov) a niektoré ďalšie štatistiky. Pri analýze metódou k-means sa tieto problémy riešia predbežným vykonaním hierarchickej zhlukovej analýzy a následne na základe jej výsledkov výpočtom klastrového modelu metódou k-means, ktorá vo väčšine prípadov nielenže nezjednodušuje, ale naopak komplikuje prácu výskumníkovi (najmä neškolenému).

Vo všeobecnosti možno povedať, že vzhľadom na to, že hierarchická zhluková analýza je veľmi náročná na hardvérové ​​zdroje počítača, bola v SPSS zavedená zhluková analýza metódou k-means pre spracovanie veľmi rozsiahlych dátových súborov, pozostávajúcich z mnohých tisícov pozorovaní (respondenti ), za podmienok nedostatočného výkonu počítačového vybavenia 1. Veľkosti vzoriek použité v marketingovom výskume vo väčšine prípadov nepresahujú štyri tisícky respondentov. Prax marketingového výskumu ukazuje, že práve prvý typ zhlukovej analýzy – hierarchickej – sa odporúča používať vo všetkých prípadoch ako najrelevantnejší, univerzálny a presný. Zároveň je potrebné zdôrazniť, že pri vykonávaní zhlukovej analýzy je dôležité vybrať relevantné premenné. Táto poznámka je veľmi dôležitá, pretože zahrnutie niekoľkých alebo dokonca jednej irelevantnej premennej do analýzy môže viesť k zlyhaniu celého štatistického postupu.

Metodiku vykonávania zhlukovej analýzy popíšeme na nasledujúcom príklade z praxe marketingového výskumu.

Počiatočné údaje:

V priebehu štúdie bolo opýtaných 745 leteckých cestujúcich, ktorí leteli jednou z 22 ruských a zahraničných leteckých spoločností. Cestujúci v leteckej doprave mali na päťbodovej škále - od 1 (veľmi zlé) do 5 (výborne) ohodnotiť sedem parametrov práce pozemného personálu leteckých spoločností počas odbavovacieho procesu: slušnosť, profesionalitu, efektívnosť, ochotu na pomoc, riadenie radov, vzhľad, pracovný personál všeobecne.

Požadovaný:

Segmentujte skúmané letecké spoločnosti podľa úrovne kvality práce pozemného personálu vnímanej cestujúcimi v leteckej doprave.

Máme teda dátový súbor, ktorý pozostáva zo siedmich intervalových premenných označujúcich hodnotenia kvality pozemného personálu rôznych leteckých spoločností (ql3-ql9), prezentovaných v jedinej päťbodovej škále. Dátový súbor obsahuje jednovariantnú premennú q4 označujúcu letecké spoločnosti vybrané respondentmi (spolu 22 mien). Urobíme zhlukovú analýzu a určíme, do ktorých cieľových skupín možno rozdeliť údaje leteckých spoločností.

Hierarchická zhluková analýza sa vykonáva v dvoch fázach. Výsledkom prvej etapy je počet zhlukov (cieľových segmentov), ​​do ktorých by mala byť skúmaná vzorka respondentov rozdelená. Postup klastrovej analýzy ako taký nie je

môže nezávisle určiť optimálny počet zhlukov. Tá môže len navrhnúť požadovaný počet. Keďže problém určenia optimálneho počtu segmentov je kľúčový, zvyčajne sa rieši v samostatnej fáze analýzy. V druhej fáze sa skutočné zhlukovanie pozorovaní uskutočňuje podľa počtu zhlukov, ktorý bol určený počas prvej fázy analýzy. Teraz sa pozrime na tieto kroky klastrovej analýzy v poradí.

Procedúra klastrovej analýzy sa spustí pomocou menu Analyzovať> Klasifikovať> Hierarchický klaster. V dialógovom okne, ktoré sa otvorí, vyberte z ľavého zoznamu všetkých premenných v dátovom súbore premenné, ktoré sú kritériami segmentácie. V našom prípade je ich sedem a označujú odhady parametrov práce pozemného personálu ql3-ql9 (obr. 5.44). Na vykonanie prvej fázy zhlukovej analýzy bude v zásade postačovať špecifikácia súboru segmentačných kritérií.

Ryža. 5.44.

Štandardne SPSS okrem tabuľky s výsledkami tvorby zhlukov, na základe ktorej určíme ich optimálny počet, zobrazuje aj špeciálnu cencúľ invertovaného histogramu, ktorý podľa tvorcov programu pomáha určiť optimálny počet zhlukov; diagramy sa zobrazujú pomocou tlačidla Ploty (obr. 5.45). Ak však necháte tento parameter zaškrtnutý, strávime veľa času spracovaním aj relatívne malého dátového súboru. Okrem cencúle možno v okne Ploty zvoliť rýchlejší stĺpcový graf Dendogram. Predstavujú ho vodorovné pruhy odrážajúce proces vytvárania zhlukov. Teoreticky pri malom (do 50-100) počte respondentov tento diagram skutočne pomáha pri výbere optimálneho riešenia pre požadovaný počet zhlukov. Takmer vo všetkých príkladoch marketingového výskumu však veľkosť vzorky presahuje túto hodnotu. Dendogram sa stáva úplne zbytočným, keďže aj pri relatívne malom počte pozorovaní ide o veľmi dlhú sekvenciu čísiel riadkov zdrojového dátového súboru, prepojených vodorovnými a zvislými čiarami. Väčšina učebníc SPSS obsahuje príklady zhlukovej analýzy na takýchto umelých, malých vzorkách. V tomto návode vám ukážeme, ako najefektívnejšie pracovať s SPSS v praktickom prostredí a ako príklad použijeme skutočný prieskum trhu.

Ryža. 5.45.

Ako sme zistili, na praktické účely nie sú vhodné cencúle ani Dendogram. Preto sa odporúča nezobrazovať diagramy v hlavnom dialógovom okne Hierarchická zhluková analýza zrušením výberu predvolenej možnosti Plots v oblasti Display, ako je znázornené na obr. 5.44. Teraz je všetko pripravené na vykonanie prvej fázy klastrovej analýzy. Postup spustíte kliknutím na tlačidlo OK.

Po chvíli sa výsledky objavia v okne SPSS Viewer. Ako bolo uvedené vyššie, jediným významným výsledkom prvej fázy analýzy pre nás bude tabuľka Priemerná väzba (medzi skupinami) zobrazená na obr. 5.46. Na základe tejto tabuľky musíme určiť optimálny počet zhlukov. Je potrebné poznamenať, že neexistuje jediná univerzálna metóda na určenie optimálneho počtu zhlukov. V každom konkrétnom prípade si toto číslo musí výskumník určiť sám.

Na základe dostupných skúseností autor navrhuje pre tento proces nasledujúcu schému. Najprv skúsme aplikovať najbežnejšiu štandardnú metódu na určenie počtu zhlukov. Pomocou tabuľky Priemerná väzba (medzi skupinami) by ste mali určiť, v ktorom kroku procesu vytvárania zhlukov (stĺpec Štádium) nastane prvý relatívne veľký skok v koeficiente aglomerácie (stĺpec Koeficienty). Tento skok znamená, že pred ním boli pozorovania, ktoré sú od seba v pomerne malých vzdialenostiach, spojené do zhlukov (v našom prípade respondenti s podobnou úrovňou hodnotenia analyzovaných parametrov) a od tejto fázy sa kombinujú vzdialenejšie pozorovania. .

V našom prípade sa koeficienty plynule zvyšujú z 0 na 7,452, to znamená, že rozdiel medzi koeficientmi v krokoch 1 až 728 bol malý (napríklad medzi 728 a 727 krokmi - 0,534). Počnúc krokom 729 nastáva prvý významný skok v koeficiente: zo 7,452 na 10,364 (o 2,912). Krok, pri ktorom dôjde k prvému skoku v koeficiente, je 729. Teraz, aby sme určili optimálny počet zhlukov, je potrebné odpočítať výslednú hodnotu od celkového počtu pozorovaní (veľkosť vzorky). Celková veľkosť vzorky je v našom prípade 745 osôb; preto je optimálny počet zhlukov 745-729 = 16.


Ryža. 5.46.

Získali sme pomerne veľké množstvo zhlukov, ktoré bude v budúcnosti ťažké interpretovať. Preto je teraz potrebné preskúmať výsledné zhluky a určiť, ktoré z nich sú významné a ktoré by sa mali pokúsiť znížiť. Táto úloha je vyriešená v druhej fáze zhlukovej analýzy.

Otvorte hlavné dialógové okno procedúry klastrovej analýzy (menu Analyzovať> Klasifikovať> Hierarchický klaster). V poli pre analyzované premenné máme už sedem parametrov. Kliknite na tlačidlo Uložiť. Dialógové okno, ktoré sa otvorí (obr. 5.47), umožňuje vytvoriť novú premennú v zdrojovom súbore údajov, ktorá rozdelí respondentov do cieľových skupín. Vyberte parameter Single Solution a do príslušného poľa zadajte požadovaný počet klastrov - 16 (určený v prvej fáze klastrovej analýzy). Kliknutím na tlačidlo Pokračovať sa vrátite do hlavného dialógového okna, v ktorom kliknutím na tlačidlo OK spustíte procedúru klastrovej analýzy.

Predtým, ako pristúpime k popisu procesu zhlukovej analýzy, je potrebné poskytnúť stručný popis ostatných parametrov. Sú medzi nimi aj užitočné, ale aj skutočne nadbytočné príležitosti (z pohľadu praktického marketingového výskumu). Napríklad hlavné dialógové okno Hierarchial Cluster Analysis obsahuje pole Label Cases by, do ktorého môžete voliteľne umiestniť textovú premennú, ktorá identifikuje respondentov. V našom prípade na tieto účely môže slúžiť premenná q4, ktorá kóduje respondentmi vybrané letecké spoločnosti. V praxi je ťažké prísť s racionálnym vysvetlením pre používanie Label Cases podľa poľa, takže ho môžete pokojne vždy nechať prázdne.

Ryža. 5.47.

Klastrová analýza zriedka používa dialógové okno Štatistika, ktoré sa volá tlačidlom s rovnakým názvom v hlavnom dialógovom okne. Umožňuje SPSS Viewer zobraziť tabuľku Členstvo v klastri, ktorá mapuje každého respondenta v súbore zdrojových údajov na číslo klastra. Pri dostatočne veľkom počte respondentov (takmer vo všetkých príkladoch marketingového výskumu) sa táto tabuľka stáva úplne zbytočnou, keďže ide o dlhý sled párov hodnôt „číslo respondenta / číslo zhluku“, ktoré nie je možné interpretovať v tejto forme. . Technickým cieľom zhlukovej analýzy je vždy vytvorenie ďalšej premennej v dátovom súbore, ktorá odráža rozdelenie respondentov do cieľových skupín (kliknutím na tlačidlo Uložiť v hlavnom dialógovom okne zhlukovej analýzy). Táto premenná spolu s počtom respondentov je tabuľkou Členstvo v klastri. Jediným prakticky užitočným parametrom v okne Štatistika je výstup tabuľky Priemerná väzba (medzi skupinami), ktorá je však už štandardne nastavená. Preto je použitie tlačidla Štatistika a zobrazenie samostatnej tabuľky Členstvo v klastri v SPSS Viewer nepraktické.

Tlačidlo Ploty už bolo spomenuté vyššie: malo by sa deaktivovať zrušením výberu parametra Plochy v hlavnom dialógovom okne zhlukovej analýzy.

Okrem týchto zriedkavo používaných funkcií postupu klastrovej analýzy ponúka SPSS aj veľmi užitočné parametre. Medzi nimi predovšetkým tlačidlo Uložiť, ktoré umožňuje vytvoriť novú premennú v pôvodnom dátovom súbore, ktorá rozdelí respondentov do zhlukov. V hlavnom dialógovom okne je tiež oblasť na výber objektu zhlukovania: respondentov alebo premenných. Táto funkcia bola diskutovaná vyššie v časti 5.4. V prvom prípade sa zhluková analýza používa najmä na segmentáciu respondentov podľa určitých kritérií; v druhom prípade je účel zhlukovej analýzy podobný ako faktorová analýza: klasifikácia (zníženie počtu) premenných.

Ako je vidieť z obr. 5.44, jedinou neuvažovanou možnosťou zhlukovej analýzy je tlačidlo pre výber metódy na vykonanie štatistického postupu Metóda. Experimenty s týmto parametrom vám umožňujú dosiahnuť väčšiu presnosť pri určovaní optimálneho počtu zhlukov. Celkový pohľad na toto dialógové okno s predvolenými parametrami je na obr. 5.48.

Ryža. 5.48.

Prvá vec, ktorá sa nastavuje v tomto okne, je spôsob vytvárania zhlukov (teda kombinovanie pozorovaní). Spomedzi všetkých možných štatistických metód, ktoré ponúka SPSS, si vyberte buď predvolenú metódu prepojenia medzi skupinami alebo Ward (Wardova metóda). Prvá metóda sa používa častejšie kvôli jej všestrannosti a relatívnej jednoduchosti štatistického postupu, na ktorom sa používa. Pri použití tejto metódy sa vzdialenosť medzi zhlukmi vypočíta ako priemerná hodnota vzdialeností medzi všetkými možnými pármi pozorovaní, pričom jedno pozorovanie z jedného zhluku sa zúčastňuje každej iterácie a druhé z iného. teoreticky možných párov pozorovaní pozorovania Wardova metóda je náročnejšia na pochopenie a používa sa menej často. Pozostáva z mnohých etáp a je založená na spriemerovaní hodnôt všetkých premenných pre každé pozorovanie a následnom sčítaní štvorcových vzdialeností od vypočítaných priemerov ku každému pozorovaniu. Pre nové štúdie odporúčame, aby ste vždy použili predvolenú metódu prepojenia medzi skupinami.

Po výbere postupu štatistického zhlukovania musíte zvoliť metódu výpočtu vzdialeností medzi pozorovaniami (Measure area v dialógovom okne Method). Existujú rôzne metódy na určenie vzdialeností pre tri typy premenných zahrnutých do zhlukovej analýzy (segmentačné kritériá). Tieto premenné môžu mať intervalové (Interval), nominálne (Counts) alebo dichotomické (Binary) stupnice. Dichotomická škála (binárna) implikuje iba premenné odrážajúce výskyt/nevyskytnutie udalosti (kúpené/nekúpené, áno/nie atď.). Ostatné typy dichotomických premenných (napr. muž / žena) by sa mali považovať a analyzovať ako nominálne (počet).

Najbežnejšie používanou metódou na určenie vzdialeností pre intervalové premenné je štvorcová euklidovská vzdialenosť, ktorá je predvolená. Práve táto metóda sa v marketingovom výskume etablovala ako najpresnejšia a najuniverzálnejšia. Avšak pre dichotomické premenné, kde sú pozorovania reprezentované iba dvomi hodnotami (napríklad 0 a 1), táto metóda nie je vhodná. Faktom je, že berie do úvahy iba interakcie medzi pozorovaniami typu: X = 1, Y = 0 a X = 0, Y = l (kde X a Y sú premenné) a neberie do úvahy iné typy interakcií. Najkomplexnejšou mierou vzdialenosti, ktorá zohľadňuje všetky dôležité typy interakcií medzi dvoma dichotomickými premennými, je metóda Lambda. Odporúčame použiť túto konkrétnu metódu kvôli jej všestrannosti. Existujú však aj iné metódy, ako napríklad Shape, Hamann alebo Anderbergsov D.

Pri zadávaní metódy určovania vzdialeností pre dichotomické premenné v príslušnom poli musíte zadať konkrétne hodnoty, ktoré môžu študované dichotomické premenné nadobudnúť: v poli Prítomný - kódovanie odpovede Áno a v poli Neprítomné - nie Názvy polí sú prítomné a chýbajú, čo súvisí so skutočnosťou, že skupina Binárnych metód má používať iba dichotomické premenné odrážajúce výskyt/nevýskyt udalosti. Existuje niekoľko metód na určenie vzdialenosti pre dva typy premenných Interval a Binary. Pre premenné s nominálnym typom stupnice ponúka SPSS iba dve metódy: (Chí-kvadrát miera) a (Phi-kvadrát miera). Odporúčame použiť prvú metódu ako najbežnejšiu.

Dialógové okno Metóda má oblasť Transformovať hodnoty, ktorá obsahuje pole Štandardizovať. Toto pole sa používa, keď sú do zhlukovej analýzy zapojené premenné s rôznymi typmi mierok (napríklad intervalové a nominálne). Aby bolo možné tieto premenné použiť v zhlukovej analýze, je potrebné vykonať štandardizáciu, ktorá ich privedie k jedinému typu škály – intervalu. Najbežnejšou metódou štandardizácie premenných je 2-štandardizácia (Zscores): všetky premenné sú redukované na jeden rozsah hodnôt od -3 do +3 a po transformácii sú intervalové.

Keďže všetky najlepšie metódy (zhlukovanie a určovanie vzdialeností) sú štandardne nastavené, je vhodné použiť dialógové okno Metóda len na označenie typu analyzovaných premenných, ako aj na označenie potreby 2-štandardizácie premenných.

Popísali sme teda všetky hlavné príležitosti, ktoré poskytuje SPSS pre klastrovú analýzu. Vráťme sa k popisu zhlukovej analýzy vykonanej s cieľom segmentovať letecké spoločnosti. Pripomeňme, že sme sa rozhodli pre šestnásťklastrové riešenie a v pôvodnom dátovom súbore sme vytvorili novú premennú clul6_l, ktorá rozdeľuje všetky analyzované letecké spoločnosti do zhlukov.

Aby sme zistili, ako správne sme určili optimálny počet zhlukov, zostrojte lineárne rozdelenie premennej clul6_l (menu Analyzovať> Opisná štatistika> Frekvencie). Ako je vidieť na obr. 5,49, v zhlukoch s číslami 5-16 je počet respondentov od 1 do 7. Spolu s vyššie opísanou univerzálnou metódou na určenie optimálneho počtu zhlukov (na základe rozdielu medzi celkovým počtom respondentov a prvým skokom v aglomeračnom koeficiente) existuje aj dodatočné odporúčanie: veľkosť klastrov by mala byť štatisticky významná a prakticky prijateľná. S našou veľkosťou vzorky je možné takúto kritickú hodnotu nastaviť aspoň na úroveň 10. Vidíme, že do tejto podmienky spadajú iba zhluky s číslami 1-4. Preto je teraz potrebné prepočítať postup zhlukovej analýzy s výstupom štvorklastrového riešenia (vytvorí sa nová premenná du4_l).


Ryža. 5.49.

Po zostrojení lineárnej distribúcie nad novovytvorenou premennou du4_l uvidíme, že iba v dvoch zhlukoch (1 a 2) je počet respondentov prakticky významný. Musíme znova prebudovať klastrový model – teraz pre dvojklastrové riešenie. Potom zostrojíme rozdelenie podľa premennej du2_l (obr. 5.50). Ako vidíte z tabuľky, dvojklastrové riešenie má štatisticky a prakticky významný počet respondentov v každom z dvoch vytvorených zhlukov: v zhluku 1 - 695 respondentov; v zhluku 2 - 40. Stanovili sme teda optimálny počet zhlukov pre našu úlohu a vlastne sme respondentov segmentovali podľa siedmich vybraných kritérií. Teraz môžeme považovať hlavný cieľ našej úlohy za splnený a pristúpiť k záverečnej fáze klastrovej analýzy – interpretácii získaných cieľových skupín (segmentov).


Ryža. 5,50.

Výsledné riešenie sa mierne líši od toho, čo ste mohli vidieť v tutoriáloch SPSS. Aj tie najpraktickejšie zamerané učebnice poskytujú umelé príklady, kde sa v dôsledku zhlukovania získavajú ideálne cieľové skupiny respondentov. V niektorých prípadoch (5) autori dokonca priamo poukazujú na umelý pôvod príkladov. V tomto návode použijeme na ilustráciu fungovania zhlukovej analýzy reálny príklad z praktického marketingového výskumu, ktorý sa nelíši v ideálnych proporciách. To nám umožní ukázať najbežnejšie ťažkosti pri vykonávaní zhlukovej analýzy, ako aj najlepšie metódy na ich odstránenie.

Skôr ako pristúpime k interpretácii výsledných zhlukov, zhrňme si to. Získali sme nasledujúcu schému na určenie optimálneho počtu zhlukov.

¦ V kroku 1 určíme počet zhlukov na základe matematickej metódy na základe aglomeračného pomeru.

¦ V 2. štádiu zhlukujeme respondentov podľa získaného počtu zhlukov a následne zostrojíme lineárne rozdelenie podľa novej vytvorenej premennej (clul6_l). Mal by tiež určiť, koľko zhlukov pozostáva zo štatisticky významného počtu respondentov. Vo všeobecnosti sa odporúča stanoviť minimálny významný počet zhlukov na úrovni aspoň 10 respondentov.

¦ Ak všetky zhluky spĺňajú toto kritérium, pristúpime k záverečnej fáze zhlukovej analýzy: interpretácii zhlukov. Ak existujú zhluky s nevýznamným počtom pozorovaní, ktoré ich tvoria, zistíme, koľko zhlukov pozostáva z významného počtu respondentov.

¦ Prepočítajte postup klastrovej analýzy tak, že v dialógovom okne Uložiť určíte počet klastrov pozostávajúcich z významného počtu prípadov.

¦ Vytvorte lineárne rozdelenie vzhľadom na novú premennú.

Táto postupnosť akcií sa opakuje, kým sa nenájde riešenie, v ktorom budú všetky zhluky pozostávať zo štatisticky významného počtu respondentov. Potom môžete pristúpiť k záverečnej fáze zhlukovej analýzy - interpretácii zhlukov.

Osobitne treba poznamenať, že kritérium praktickej a štatistickej významnosti počtu zhlukov nie je jediným kritériom, podľa ktorého možno určiť optimálny počet zhlukov. Výskumník môže samostatne na základe svojich skúseností navrhnúť počet zhlukov (musí byť splnená podmienka významnosti). Ďalšou možnosťou je pomerne častá situácia, keď je pre výskumné účely vopred stanovená podmienka segmentovať respondentov podľa daného počtu cieľových skupín. V tomto prípade stačí raz vykonať hierarchickú analýzu zhlukov pri zachovaní požadovaného počtu zhlukov a potom sa pokúsiť interpretovať, čo sa ukáže.

Aby bolo možné opísať získané cieľové segmenty, je potrebné použiť postup na porovnanie stredných hodnôt študovaných premenných (centroidov klastrov). Porovnáme priemerné hodnoty siedmich zvažovaných kritérií segmentácie v každom z dvoch výsledných zhlukov.

Postup na porovnávanie stredných hodnôt sa vyvolá pomocou ponuky Analyzovať> Porovnať priemery> Stredné hodnoty. V dialógovom okne, ktoré sa otvorí (Obr. 5.51) z ľavého zoznamu, vyberte sedem premenných vybraných ako segmentačné kritériá (ql3-ql9) a presuňte ich do poľa Závislé premenné pre závislé premenné. Potom premennú сШ2_1, reflektujúcu rozdelenie respondentov do zhlukov v konečnom (dvojzhlukovom) riešení úlohy, presuňte z ľavého zoznamu do poľa pre nezávislé premenné v Nezávislom zozname. Potom kliknite na tlačidlo Možnosti.

Ryža. 5.51.

Otvorí sa dialógové okno Možnosti, vyberte potrebné štatistiky na porovnávanie zhlukov (obr. 5.52). Ak to chcete urobiť, v poli Štatistika bunky ponechajte len zobrazenie priemerných hodnôt a odstráňte z neho ostatné predvolené štatistiky. Zatvorte dialógové okno Možnosti kliknutím na tlačidlo Pokračovať. Nakoniec v hlavnom dialógovom okne Means spustite postup porovnávania priemeru (tlačidlo OK).

Ryža. 5.52.

V okne SPSS Viewer, ktoré sa otvorí, sa zobrazia výsledky štatistického postupu na porovnanie stredných hodnôt. Zaujíma nás tabuľka Report (obr. 5.53). Z nej vidieť, na základe čoho SPSS rozdelila respondentov do dvoch zhlukov. V našom prípade je takýmto kritériom úroveň hodnotení pre analyzované parametre. Skupina 1 pozostáva z respondentov, u ktorých je priemerné skóre všetkých segmentačných kritérií na relatívne vysokej úrovni (4,40 bodu a viac). Skupina 2 zahŕňa respondentov, ktorí hodnotili uvažované segmentačné kritériá skôr nízko (3,35 bodu a menej). Môžeme teda konštatovať, že 93,3 % respondentov, ktorí vytvorili klaster 1, hodnotilo analyzované letecké spoločnosti vo všetkých ohľadoch ako dobré; 5,4 % – dosť nízke; 1,3 % – ťažko odpovedalo (pozri obr. 5.50). Z obr. 5.53 možno tiež konštatovať, že úroveň odhadov pre každý z uvažovaných parametrov samostatne je vysoká a ktorá je nízka (a tento záver urobia respondenti, čo umožňuje dosiahnuť vysokú presnosť klasifikácie). Z tabuľky prehľadu môžete vidieť, že pre premennú Queue Regulation je priemerné skóre 4,40 a pre parameter Appearance je 4,72.


Ryža. 5.53.

Môže sa ukázať, že v podobnom prípade sa 4,5 považuje za vysoké skóre pre parameter X a iba 3,9 pre parameter Y. Nepôjde o chybu zhlukovania, ale naopak, umožní vyvodiť dôležitý záver o význame uvažovaných parametrov pre respondentov. Takže pri parametri Y je už 3,9 bodu dobrý odhad, pri parametri X si respondenti kladú prísnejšie požiadavky.

Identifikovali sme dva významné klastre, ktoré sa líšia úrovňou priemerného skóre pre segmentačné kritériá. Teraz môžete výsledným zhlukom priradiť štítky: pre 1 - Letecké spoločnosti, ktoré spĺňajú požiadavky respondentov (podľa siedmich analyzovaných kritérií); za 2 - Letecké spoločnosti, ktoré nespĺňajú požiadavky respondentov. Teraz môžete vidieť, ktoré konkrétne letecké spoločnosti (zakódované v premennej q4) spĺňajú požiadavky respondentov a ktoré nie podľa segmentačných kritérií. Na to je potrebné skonštruovať krížovú distribúciu premennej q4 (analyzované letecké spoločnosti) v závislosti od zhlukovej premennej clu2_l. Výsledky tejto prierezovej analýzy sú znázornené na obr. 5.54.

Na základe tejto tabuľky možno vyvodiť nasledujúce závery týkajúce sa členstva skúmaných leteckých spoločností vo vybraných cieľových segmentoch.


Ryža. 5.54.

1. Letecké spoločnosti, ktoré plne spĺňajú požiadavky všetkých zákazníkov, pokiaľ ide o výkon pozemného personálu (zahrnuté iba v jednom prvom klastri):

¦ Vnukovo Airlines;

¦ American Airlines;

¦ Delta Airlines;

¦ Austrian Airlines;

¦ British Airways;

¦ Korean Airlines;

¦ Japan Airlines.

2. Letecké spoločnosti, ktoré spĺňajú požiadavky väčšiny svojich zákazníkov z hľadiska výkonu pozemného personálu (väčšina respondentov lietajúcich s týmito leteckými spoločnosťami je s prácou pozemného personálu spokojná):

¦ Transaero.

3. Letecké spoločnosti, ktoré nespĺňajú požiadavky väčšiny svojich zákazníkov z hľadiska výkonu pozemného personálu (väčšina respondentov lietajúcich s týmito leteckými spoločnosťami nie je spokojná s prácou pozemného personálu):

¦ Domodedovo Airlines;

¦ Pulkovo;

¦ Sibír;

¦ Ural Airlines;

¦ Samara Airlines;

Získali sme tak tri cieľové segmenty leteckých spoločností z hľadiska priemerného hodnotenia, ktoré sa vyznačujú rôznou mierou spokojnosti respondentov s prácou pozemného personálu:

  • 1. najatraktívnejšie letecké spoločnosti pre cestujúcich z hľadiska úrovne práce pozemného personálu (14);
  • 2. pomerne atraktívne letecké spoločnosti (1);
  • 3. dosť neatraktívne letecké spoločnosti (7).

Úspešne sme dokončili všetky fázy klastrovej analýzy a segmentovali letecké spoločnosti podľa siedmich zvýraznených kritérií.

Teraz popíšeme techniku ​​zhlukovej analýzy spojenú s faktorovou analýzou. Použijeme podmienku problému z časti 5.2.1 (faktorová analýza). Ako už bolo spomenuté, pri problémoch segmentácie s veľkým počtom premenných je vhodné predchádzať zhlukovej analýze faktorovou analýzou. Toto sa robí s cieľom znížiť počet kritérií segmentácie na najvýznamnejšie. V našom prípade máme v pôvodnom dátovom súbore 24 premenných. V dôsledku faktorovej analýzy sa nám podarilo znížiť ich počet na 5. Teraz je možné tento počet faktorov efektívne využiť na zhlukovú analýzu a samotné faktory je možné použiť ako segmentačné kritériá.

Ak stojíme pred úlohou segmentovať respondentov podľa ich hodnotenia rôznych aspektov aktuálneho konkurenčného postavenia leteckej spoločnosti X, môžeme vykonať hierarchickú zhlukovú analýzu podľa zvolených piatich kritérií (premenné nfacl_l-nfac5_l). V našom prípade boli premenné hodnotené na rôznych škálach. Napríklad hodnotenie 1 na schválenie. Nechcel by som, aby sa letecká spoločnosť zmenila a na schválenie rovnaké hodnotenie. Zmeny v leteckej spoločnosti budú pozitívny moment, diametrálne opačný. V prvom prípade 1 bod (veľmi nesúhlasím) znamená, že respondent víta zmeny v leteckej spoločnosti; v druhom prípade skóre 1 znamená, že respondent odmieta zmeny v leteckej spoločnosti. Pri interpretácii zhlukov budeme nevyhnutne čeliť ťažkostiam, pretože takéto opačné významové premenné môžu

spadajú do rovnakého faktora. Preto sa pre účely segmentácie odporúča najskôr upraviť škály skúmaných premenných a potom prepočítať faktorový model. A potom vykonať zhlukovú analýzu premenných faktorov získaných ako výsledok faktorovej analýzy. Nebudeme opäť podrobne popisovať postupy faktoriálnej a zhlukovej analýzy (to bolo urobené vyššie v príslušných častiach). Podotýkame len, že touto metodikou sme vo výsledku dostali tri cieľové skupiny cestujúcich v leteckej doprave, líšiace sa úrovňou hodnotenia vybraných faktorov (teda skupín premenných): najnižšia, stredná a najvyššia.

Veľmi užitočnou aplikáciou zhlukovej analýzy je rozdelenie do skupín frekvenčných tabuliek. Predpokladajme, že máme lineárne rozdelenie odpovedí na otázku Aké značky antivírusov sú nainštalované vo vašej organizácii?. Na vyvodenie záverov o tejto distribúcii je potrebné rozdeliť antivírusové značky do niekoľkých skupín (zvyčajne 2-3). Zhluková analýza je najlepším spôsobom, ako kategorizovať všetky značky do troch skupín (najpopulárnejšie značky, priemerná popularita a nepopulárne značky), aj keď spravidla výskumníci oddeľujú prvky frekvenčných tabuliek očami na základe subjektívnych úvah. Na rozdiel od tohto prístupu klastrová analýza umožňuje vedecky podložiť uskutočnené zoskupenie. Za týmto účelom zadajte hodnoty každého parametra do SPSS (je vhodné vyjadriť tieto hodnoty v percentách) a potom na týchto údajoch vykonajte zhlukovú analýzu. Uložením klastrového riešenia pre požadovaný počet skupín (v našom prípade 3) ako novej premennej získame štatisticky platné zoskupenie.

Záverečnú časť tejto časti budeme venovať popisu aplikácie zhlukovej analýzy na klasifikáciu premenných a porovnaniu jej výsledkov s výsledkami faktorovej analýzy vykonanej v časti 5.2.1. K tomu opäť využijeme podmienku problému o hodnotení aktuálneho postavenia leteckej spoločnosti X na trhu leteckej dopravy. Metodika klastrovej analýzy takmer úplne opakuje vyššie opísanú metodiku (keď boli respondenti segmentovaní).

Takže v pôvodnom dátovom súbore máme 24 premenných popisujúcich postoj respondentov k rôznym aspektom aktuálneho konkurenčného postavenia leteckej spoločnosti X. Otvorte hlavné dialógové okno Hierarchická klastrová analýza a do premennej umiestnite 24 premenných (ql-q24). (s) pole, Obr. 5.55. V oblasti Klaster označte, že klasifikujete premenné (začiarknite možnosť Premenné). Uvidíte, že tlačidlo Uložiť už nie je k dispozícii – na rozdiel od faktoriálnej analýzy nemôžete v zhlukovej analýze uložiť faktoriálne hodnotenia pre všetkých respondentov. Zastavte zobrazovanie diagramov deaktiváciou parametra Grafy. V prvom kroku nepotrebujete žiadne ďalšie parametre, takže kliknutím na tlačidlo OK spustíte procedúru klastrovej analýzy.

V okne SPSS Viewer sa objavila tabuľka Agglomeration Schedule, podľa ktorej sme vyššie popísanou metódou určili optimálny počet zhlukov (obr. 5.56). Prvý skok v koeficiente aglomerácie sa pozoruje v kroku 20 (z 18 834 000 na 21 980,967). Na základe celkového počtu analyzovaných premenných, ktorý sa rovná 24, je možné vypočítať optimálny počet zhlukov: 24 - 20 = 4.

Ryža. 5.55.


Ryža. 5.56.

Pri klasifikácii premenných je prakticky a štatisticky významný zhluk pozostávajúci len z jednej premennej. Preto, keďže sme matematicky získali prijateľný počet zhlukov, nie sú potrebné žiadne ďalšie kontroly. Namiesto toho znova otvorte hlavné dialógové okno klastrovej analýzy (všetky údaje použité v predchádzajúcom kroku boli zachované) a kliknutím na tlačidlo Štatistika zobrazte klasifikačnú tabuľku. Zobrazí sa Vám rovnomenné dialógové okno, kde je potrebné zadať počet zhlukov, do ktorých je potrebné rozdeliť 24 premenných (obr. 5.57). Ak to chcete urobiť, vyberte parameter Single solution av príslušnom poli zadajte požadovaný počet klastrov: 4. Teraz zatvorte dialógové okno Štatistika kliknutím na tlačidlo Pokračovať a spustite procedúru z hlavného okna analýzy klastrov.

V dôsledku toho sa v okne SPSS Viewer objaví tabuľka Cluster Membership, ktorá rozdelí analyzované premenné do štyroch zhlukov (obrázok 5.58).

Ryža. 5.58.

Podľa tejto tabuľky môže byť každá uvažovaná premenná priradená ku konkrétnemu zhluku nasledovne.

Skupina 1

ql. Letecká spoločnosť X má povesť vynikajúcich služieb pre cestujúcich.

q2. Letecká spoločnosť X môže konkurovať najlepším aerolinkám na svete.

q3. Verím, že Airline X má sľubnú budúcnosť v globálnom letectve.

q5. Som hrdý na to, že môžem pracovať pre Airline X.

q9. Máme pred sebou ešte dlhú cestu, kým budeme môcť tvrdiť, že sa nazývame leteckou spoločnosťou svetovej triedy.

qlO. Letecká spoločnosť X sa naozaj stará o cestujúcich.

ql3. Páči sa mi, ako sa Airline X aktuálne prezentuje vizuálne širokej verejnosti (čo sa týka farieb a značky).

ql4. Letecká spoločnosť X je tvárou Ruska.

ql6. Služba leteckej spoločnosti X je konzistentná a rozpoznateľná

ql8. Letecká spoločnosť X sa musí zmeniť, aby mohla naplno využiť svoj potenciál.

ql9. Myslím si, že letecká spoločnosť X sa potrebuje vizuálne prezentovať modernejším spôsobom.

q20. Zmeny v leteckej spoločnosti X budú pozitívnym vývojom. q21. Airline X je efektívna letecká spoločnosť.

q22. Bol by som rád, keby sa zlepšil imidž leteckej spoločnosti X, pokiaľ ide o zahraničných cestujúcich.

q23. Letecká spoločnosť X je lepšia, ako si väčšina ľudí myslí.

q24. Je dôležité, aby ľudia na celom svete vedeli, že sme ruská letecká spoločnosť.

Skupina 2

q4. Viem, aká bude budúca stratégia leteckej spoločnosti X.

q6. Letecká spoločnosť X má dobrú medzidivíznu komunikáciu.

q7. Každý zamestnanec leteckej spoločnosti vynakladá maximálne úsilie na zabezpečenie jej úspechu.

q8. Letecká spoločnosť X sa teraz rýchlo zlepšuje.

qll. Medzi zamestnancami leteckej spoločnosti je vysoká miera spokojnosti s prácou.

ql2. Verím, že vedúci manažéri sú oddaní úspechu leteckej spoločnosti.

Skupina 3

ql5. V porovnaní s inými leteckými spoločnosťami vyzeráme ako „včera“.

Skupina 4

ql7. Nechcel by som, aby letecká spoločnosť X zmenila.

Pri porovnaní výsledkov faktoriálovej (časť 5.2.1) a zhlukovej analýzy uvidíte, že sa výrazne líšia. Klastrová analýza v porovnaní s faktorovou analýzou nielenže poskytuje výrazne menej príležitostí na zoskupovanie premenných (napríklad neschopnosť udržať skupinové hodnotenia), ale poskytuje aj oveľa menej jasné výsledky. V našom prípade, ak sú zhluky 2, 3 a 4 stále prístupné logickej interpretácii1, potom zhluk 1 obsahuje výroky, ktoré majú úplne odlišný význam. V tejto situácii sa môžete pokúsiť opísať klaster 1 tak, ako je, alebo prebudovať štatistický model s iným počtom klastrov. V druhom prípade, ak chcete nájsť optimálny počet klastrov, ktoré možno logicky popísať, môžete použiť parameter Rozsah riešení v dialógovom okne Štatistika (pozri obr.5.57), pričom v príslušných poliach špecifikujete minimálny a maximálny počet klastrov. (v našom prípade 4 a 6). V takejto situácii SPSS prebuduje tabuľku Členstvo v klastri pre každý počet klastrov. Úlohou analytika je v tomto prípade pokúsiť sa nájsť klasifikačný model, v ktorom budú všetky zhluky jednoznačne interpretované. Aby sme demonštrovali možnosti postupu klastrovej analýzy pre klastrovanie premenných, nebudeme prestavovať klastrový model, ale obmedzíme sa len na to, čo bolo povedané vyššie.

Treba poznamenať, že napriek zdanlivej jednoduchosti zhlukovej analýzy v porovnaní s faktorovou analýzou sa takmer vo všetkých prípadoch z marketingového výskumu faktorová analýza ukazuje ako rýchlejšia a efektívnejšia ako zhluková analýza. Pre klasifikáciu (redukciu) premenných preto dôrazne odporúčame použiť faktorovú analýzu a pre klasifikáciu respondentov ponechať zhlukovú analýzu.

Klasifikačná analýza je možno jedným z najkomplexnejších štatistických nástrojov z pohľadu netrénovaného používateľa. Súvisí to s jeho veľmi nízkou rozšírenosťou v marketingových spoločnostiach. Práve táto skupina štatistických metód je zároveň jednou z najužitočnejších pre odborníkov z praxe v oblasti marketingového výskumu.

Zhluková analýza sa nazývajú rôzne formalizované postupy konštrukcie klasifikácií objektov. Biológia bola vedúcou vedou vo vývoji klastrovej analýzy. Predmet klastrovej analýzy (z anglického „cluster“ – zväzok, zväzok, skupina) sformuloval v roku 1939 psychológ Robert Trion. Klasikmi zhlukovej analýzy sú americkí taxonómovia Robert Sokal a Peter Snit. Jedným z ich najvýznamnejších úspechov v tejto oblasti je kniha „Začiatky numerickej taxonómie“, vydaná v roku 1963. V súlade s hlavnou myšlienkou autorov by klasifikácia nemala byť založená na miešaní nedostatočne formalizovaných úsudkov o podobnosti a afinite objektov, ale na výsledkoch formalizovaného spracovania výsledkov matematického výpočtu podobností / rozdielov objektov. klasifikované predmety. Na splnenie tejto úlohy boli potrebné vhodné postupy, na vývoji ktorých sa ujali autori.

Hlavné fázy klastrovej analýzy sú nasledovné:
1. výber porovnateľných predmetov;
2. výber súboru znakov, pomocou ktorých sa bude porovnávať, a popis objektov na základe týchto znakov;
3.výpočet miery podobnosti medzi objektmi (alebo miery rozdielov medzi objektmi) v súlade so zvoleným metrický;
4.zoskupovanie objektov do zhlukov pomocou jedného alebo druhého postupy zlučovania;
5. kontrola použiteľnosti získaného klastrového riešenia.

Najdôležitejšími charakteristikami postupu zhlukovania sú teda výber metriky (v rôznych situáciách sa používa značný počet rôznych metrík) a výber postupu zjednotenia (a v tomto prípade je výber dostupný značný počet rôznych možností). Pre rôzne situácie je vhodnejšia jedna alebo druhá metrika a postupy spájania, ale do určitej miery je výber medzi nimi vecou vkusu a tradície. Ako je podrobnejšie vysvetlené v článku Klastre, poklady a chiméra objektivity, nádej, že zhluková analýza povedie k vybudovaniu klasifikácie, ktorá nie je v žiadnom prípade závislá od svojvôle výskumníka, sa ukazuje ako nedosiahnuteľná. Z piatich uvedených etáp výskumu využívajúcich klastrovú analýzu len 4. fáza nie je spojená s prijatím viac-menej svojvoľného rozhodnutia, ktoré ovplyvňuje konečný výsledok. A výber objektov a výber funkcií a výber metriky spolu s postupom spájania výrazne ovplyvňujú konečný výsledok. Tento výber môže závisieť od mnohých okolností vrátane explicitných a implicitných preferencií a očakávaní štúdie. Bohužiaľ, táto okolnosť ovplyvňuje nielen výsledok zhlukovej analýzy. Všetky "objektívne" metódy čelia podobným problémom, vrátane všetky metódy kladistiky.

Existuje jediné správne riešenie, ktoré treba nájsť pri výbere množiny objektov, množiny funkcií, typu metriky a kombinovanej procedúry? nie Na dôkaz toho uvádzame fragment článku, na ktorý bol odkaz uvedený v predchádzajúcom odseku.

"V skutočnosti nemôžeme vždy ani pevne odpovedať na otázku, ktoré objekty sú si navzájom viac podobné a ktoré sa viac líšia. Bohužiaľ, jednoducho neexistujú žiadne všeobecne akceptované (a ešte viac „objektívne“) kritériá na výber metriky podobností a rozdielov medzi klasifikovanými objektmi.

Ktorý objekt je viac podobný: B alebo C? Ak použijeme vzdialenosť ako metriku podobnosti, potom na C: | AC |<|AB|. А если полагаться на корреляцию между показанными на рисунке признаками (которую можно описать как угол между вектором, идущим к объекту из начала координат, и осью абсцисс), то на B: ... Ako bude správne? A neexistuje jediná správna odpoveď. Na jednej strane dospelá ropucha vyzerá skôr ako dospelá žaba (obaja dospelí), na druhej strane skôr ako mladá ropucha (obe ropuchy)! Správna odpoveď závisí od toho, čo považujeme za dôležitejšie.".

Klastrová analýza našla najširšie uplatnenie v modernej vede. Bohužiaľ, v značnej časti prípadov, keď sa používa, by bolo lepšie použiť iné metódy. V každom prípade biológovia musia jasne pochopiť základnú logiku zhlukovej analýzy a iba v tomto prípade ju budú môcť aplikovať v prípadoch, keď je to adekvátne, a nie ju aplikovať, keď je optimálna voľba inej metódy.

8.2. Príklad vykonania klastrovej analýzy „na prstoch“

Na ilustráciu typickej logiky zhlukovej analýzy pouvažujte o ilustratívnom príklade. Uvažujme o množine 6 objektov (označených písmenami), ktoré sa vyznačujú 6 atribútmi najjednoduchšieho typu: alternatívny, majúci jeden z dvoch významov: charakteristický (+) a necharakteristický (-). Popis objektov na základe akceptovaných znakov sa nazýva "obdĺžniková" matica. V našom prípade hovoríme o matici 6 × 6, t.j. možno ju považovať za celkom „štvorcovú“, ale vo všeobecnosti sa počet objektov v analýze nemusí rovnať počtu prvkov a „obdĺžniková“ matica môže mať rôzny počet riadkov a stĺpcov. Takže, poďme nastaviť" obdĺžniková "matica (matica objektov / prvkov):

Výber objektov a ich popis podľa určitého súboru atribútov zodpovedá prvým dvom štádiám zhlukovej analýzy. Ďalším krokom je vytvorenie matice podobností alebo rozdielov ("štvorcová" matica, matica objektov / objektov). Aby sme to dosiahli, musíme vybrať metriku. Keďže náš príklad je podmienený, má zmysel zvoliť najjednoduchšiu metriku. Aký je najjednoduchší spôsob určenia vzdialenosti medzi objektmi A a B? Spočítajte počet rozdielov medzi nimi. Ako vidíte, objekty A a B sa líšia črtami 3 a 5, takže vzdialenosť medzi týmito dvoma objektmi zodpovedá dvom jednotkám.

Pomocou tejto metriky vytvoríme „ štvorcová "matica (matica objektov/objektov). Ako si môžete ľahko overiť, takáto matica pozostáva z dvoch symetrických polovíc a môžete vyplniť iba jednu z týchto polovíc:

V tomto prípade sme vytvorili maticu rozdielov. Matica podobnosti by vyzerala podobne, len na každej pozícii by bola hodnota rovnajúca sa rozdielu medzi maximálnou vzdialenosťou (6 jednotiek) a rozdielom medzi objektmi. Pre pár A a B by, prirodzene, podobnosť bola 4 jednotky.

Ktoré dva objekty sú k sebe najbližšie? B a F, líšia sa iba jedným spôsobom. Podstatou zhlukovej analýzy je spojiť podobné objekty do zhluku. Objekty B a F spájame do zhluku (BF). Ukážme si to na diagrame. Ako vidíte, objekty sú kombinované na úrovni, ktorá zodpovedá vzdialenosti medzi nimi.

Ryža. 8.2.1. Prvým krokom je zoskupenie podmienenej množiny 6 objektov

Teraz nemáme šesť objektov, ale päť. Prestavba "štvorcovej" matice. Aby sme to dosiahli, musíme určiť, aká je vzdialenosť od každého objektu k zhluku. Vzdialenosť od A až B boli 2 jednotky a A až F boli 3 jednotky. Aká je vzdialenosť od A do (Bf)? Správna odpoveď neexistuje. Tu sa pozrite, ako sú tieto tri objekty navzájom umiestnené.

Ryža. 8.2.2. Relatívna poloha troch objektov

Možno, že vzdialenosť od objektu k skupine je vzdialenosť od objektu k objektu najbližšie k nemu ako súčasť skupiny, t.j. t.j. │A (BF) │ = │AB │? Táto logika sa zhoduje spájaním maximálnou podobnosťou.

Alebo možno vzdialenosť od objektu k skupine je vzdialenosť od objektu k objektu, ktorý je od neho najďalej ako súčasť skupiny, t.j. t.j. │A (BF) │ = │AF │? Táto logika sa zhoduje spájanie minimálnou podobnosťou.

Môžete tiež predpokladať, že vzdialenosť od objektu k skupine je aritmetickým priemerom vzdialeností od tohto objektu ku každému z objektov v skupine, t.j. to znamená │A (BF) │ = (│AB │ + │AF │) / 2. Toto riešenie sa nazýva spojenie priemernou podobnosťou.

Všetky tri tieto riešenia a značný počet ďalších riešení, ktoré tu nie sú popísané, sú správne. Našou úlohou je vybrať riešenie, ktoré je vhodnejšie pre kategóriu, do ktorej patria naše dáta. Spájanie maximálnou podobnosťou v konečnom dôsledku vedie k dlhým „stužkovým“ zhlukom. Minimálne - k triešteniu skupín. Voľba medzi tromi opísanými možnosťami sa v biológii častejšie používa priľnavosť na základe strednej podobnosti. Aj to využijeme. V tomto prípade po prvom kroku zhlukovania bude „štvorcová“ matica vyzerať takto.

Teraz je najbližší pár objektov D a E. Skombinujme aj tie.

Ryža. 8.2.3. Druhý krok klastrovania podmienenej množiny 6 objektov

Prestavme „štvorcovú“ maticu pre štyri objekty.

Vidíme, že existujú dve možnosti zlúčenia na úrovni 2.5: spojenie A do (BF) a spájanie (BF) do (DE). Ktorý by ste si mali vybrať?

Máme rôzne možnosti, ako túto voľbu uskutočniť. Dá sa to urobiť náhodou. Môžete si vziať nejaké formálne pravidlo, ktoré vám umožní vybrať si. A môžete vidieť, ktoré z riešení poskytne najlepšiu možnosť klastrovania. Využime poslednú možnosť. Najprv implementujme prvú možnosť.

Ryža. 8.2.4. Prvý variant tretieho kroku zhlukovania podmienenej množiny 6 objektov

Pri výbere tejto možnosti by sme museli zostrojiť takúto „štvorcovú“ maticu 3 × 3.

Ak by sme zvolili druhú možnosť tretieho kroku, dostali by sme nasledujúci obrázok.

Ryža. 8.2.5. Druhý variant tretieho kroku zhlukovania podmienenej množiny 6 objektov

Zodpovedá nasledujúcej matici 3 × 3:

Výsledné matice 3 × 3 možno porovnať, aby sa v druhej možnosti dosiahlo kompaktnejšie zoskupenie objektov. Pri konštrukcii klasifikácie objektov pomocou zhlukovej analýzy by sme sa mali snažiť identifikovať skupiny, ktoré kombinujú podobné objekty. Čím vyššia je podobnosť objektov v skupinách, tým lepšia je táto klasifikácia. Preto pre tretí krok zhlukovania volíme druhú možnosť. Samozrejme, mohli by sme urobiť nasledujúce kroky (a rozdeliť prvú možnosť na dve ďalšie podmožnosti), ale nakoniec by sme sa uistili, že najlepšou možnosťou pre tretí krok klastrovania je presne tá, ktorá je znázornená na obr. 8.5. Pozastavujeme sa nad tým.

V tomto prípade je ďalším krokom spojenie objektov. A a C znázornené na obr. 8.6.

Ryža. 8.2.6. Štvrtý krok klastrovania

Zostavíme maticu 2 × 2:

Teraz už nie je čo vyberať. Skombinujme dva zostávajúce klastre na požadovanej úrovni. V súlade s prijatým štýlom konštrukcie klastrových „stromov“ pridáme ďalší „kmeň“, ktorý siaha až na úroveň maximálnej možnej vzdialenosti medzi objektmi pre danú množinu vlastností.

Ryža. 8.2.7. Piaty a posledný krok klastrovania

Výsledný obrázok je stromový graf (zbierka uzlov a spojení medzi nimi). Tento graf je zostrojený tak, že čiary, ktoré ho tvoria, sa navzájom pretínajú (tieto priesečníky sme znázornili „mostmi“). Bez zmeny povahy spojenia medzi objektmi je možné graf prebudovať tak, že v ňom nie sú žiadne priesečníky. Tie sa robia na obr. 8.2.8.

Ryža. 8.2.8. Konečný pohľad na stromový graf získaný ako výsledok zoskupovania

Zhluková analýza nášho podmieneného príkladu je teraz dokončená. Musíme len pochopiť, čo sme dostali.

8.3. Hlavné obmedzenia a nevýhody klastrovej analýzy

Ako interpretovať graf znázornený na obr. 8.2.8? Neexistuje jednoznačná odpoveď. Ak chcete odpovedať na túto otázku, musíte pochopiť, aké údaje a na aký účel sme zoskupili. „Na povrchu“ je záver, že sme zaregistrovali, že pôvodný súbor 6 objektov pozostáva z troch párov. Pri pohľade na výsledný graf je ťažké o tom pochybovať. Je však tento záver pravdivý?

Vráťte sa k úplne prvej "štvorcovej" matici 6x6 a uistite sa, že objekt E bol vo vzdialenosti dvoch jednotiek od objektu D aj objektu F. Podobnosť E a D vo výslednom "strome" sa odráža, ale skutočnosť že objekt E bol rovnako blízko objektu F - stratený bez stopy! Ako sa to dá vysvetliť?

V dôsledku zhlukovania, ktoré je znázornené na obr. 8.2.8, nie je tam vôbec žiadna informácia o vzdialenosti│EF │, sú tam len informácie o vzdialenostiach │DE │ a │ (BF) (DE) │!

Každá "obdĺžniková" matica v prípade, že je zvolená určitá metrika a spôsob uchytenia, existuje jedna a jediná "štvorcová" matica. Každá "štvorcová" matica však môže zodpovedať mnohým "obdĺžnikovým" maticám. Po každom kroku analýzy každá predchádzajúca "štvorcová" matica zodpovedá nasledujúcej, ale na základe nasledujúceho sa nám nepodarilo obnoviť predchádzajúcu. To znamená, že v každom kroku zhlukovej analýzy sa nenávratne stratí určitá časť informácií o diverzite počiatočného súboru objektov.

Táto okolnosť je jednou z vážnych nevýhod zhlukovej analýzy.

Ďalšia zo zákerných nevýhod zhlukovej analýzy je spomenutá v článku.

Podobné články

2021 ap37.ru. Záhrada. Okrasné kríky. Choroby a škodcovia.