Primer uporabe grozdne analize STATISTICA v avtomobilskem zavarovanju. Grozdna analiza je študija z razdelitvijo niza predmetov v homogene skupine Grozdna analiza velike količine informacij

Random Forest je eden mojih najljubših algoritmov za rudarjenje podatkov. Prvič, je neverjetno vsestranski; uporablja se ga lahko za reševanje problemov regresije in klasifikacije. Poiščite anomalije in izberite napovedovalce. Drugič, to je algoritem, ki ga je res težko napačno uporabiti. Preprosto zato, ker ima za razliko od drugih algoritmov malo nastavljivih parametrov. V svojem bistvu je tudi presenetljivo preprosta. In hkrati je izjemen po svoji natančnosti.

Kakšna je ideja za tako čudovitim algoritmom? Ideja je preprosta: recimo, da imamo nek zelo šibek algoritem, recimo. Če z uporabo tega šibkega algoritma naredimo veliko različnih modelov in povprečimo rezultat njihovih napovedi, bo končni rezultat veliko boljši. To je tako imenovani ansambelski trening v akciji. Algoritem Random Forest se zato imenuje "Random Forest", saj iz pridobljenih podatkov ustvari številna drevesa odločitev in nato povpreči rezultat njihovih napovedi. Pomembna točka tukaj je element naključnosti pri ustvarjanju vsakega drevesa. Konec koncev je jasno, da če ustvarimo več enakih dreves, bo rezultat njihovega povprečja točnost enega drevesa.

Kako deluje? Recimo, da imamo nekaj vhodnih podatkov. Vsak stolpec ustreza nekemu parametru, vsaka vrstica ustreza nekemu podatkovnemu elementu.

Iz celotnega nabora podatkov lahko naključno izberemo določeno število stolpcev in vrstic in na podlagi njih zgradimo drevo odločanja.


Četrtek, 10. maja 2012

Četrtek, 12. januarja 2012


To je vse. 17-urnega leta je konec, Rusija je ostala v tujini. In skozi okno udobnega 2-sobnega stanovanja nas gleda San Francisco, slavna Silicijeva dolina, Kalifornija, ZDA. Ja, prav to je razlog, zakaj zadnje čase praktično nisem pisal. Preselili smo se.

Vse se je začelo aprila 2011, ko sem v Zyngi opravljal telefonski intervju. Potem se je vse skupaj zdelo kot nekakšna igra, ki ni imela nobene zveze z realnostjo, in sploh si nisem mogel predstavljati, kaj bo povzročilo. Junija 2011 je Zynga prišel v Moskvo in opravil vrsto intervjujev, obravnavanih je bilo približno 60 kandidatov, ki so opravili telefonske razgovore, in izbranih jih je bilo približno 15 (točne številke ne vem, nekdo si je pozneje premislil, nekdo takoj zavrnil). Intervju se je izkazal za presenetljivo preprostega. Brez programskih nalog, brez zapletenih vprašanj o obliki loput, večinoma je bila preizkušena sposobnost klepetanja. In znanje je bilo po moje ocenjeno le površno.

In potem se je začel trik. Najprej smo čakali na rezultate, nato ponudbo, nato odobritev LCA, nato odobritev peticije za vizum, nato dokumente iz ZDA, nato čakalno vrsto na veleposlaništvu, nato dodatno preverjanje, nato vizum. Na trenutke se mi je zdelo, da sem pripravljen vse pustiti in zabiti. Včasih sem dvomil, ali potrebujemo to Ameriko, navsezadnje tudi v Rusiji ni slabo. Celoten proces je trajal približno šest mesecev, zato smo sredi decembra prejeli vize in se začeli pripravljati na odhod.

Ponedeljek je bil moj prvi delovni dan. Pisarna ima vse pogoje ne samo za delo, ampak tudi za bivanje. Zajtrk, kosila in večerje lastnih kuharjev, kup raznolike hrane, natrpane povsod, telovadnica, masaža in celo frizer. Vse to je za zaposlene popolnoma brezplačno. Veliko ljudi se v službo pripelje s kolesom, na voljo pa je tudi več prostorov za shranjevanje vozil. Na splošno v Rusiji še nikoli nisem naletel na kaj takega. Vse pa ima svojo ceno, takoj smo bili opozorjeni, da bomo morali veliko delati. Kaj je po njihovih merilih "veliko", mi ni čisto jasno.

Vendar upam, da mi bo kljub količini dela uspelo v doglednem času nadaljevati z bloganjem in vam morda povedala kaj o ameriškem življenju in delu programerja v Ameriki. Počakaj in boš videl. Medtem pa vsem čestitam za prihajajoče novo leto in božič in se kmalu vidimo!


Za primer uporabe bomo natisnili dividendni donos ruskih podjetij. Kot osnovno ceno vzamemo končno ceno delnice na dan zaprtja registra. Iz neznanega razloga te informacije niso na spletnem mestu trojke, vendar so veliko bolj zanimive kot absolutne vrednosti dividend.
Pozor! Izvajanje kode traja dolgo, ker za vsako promocijo morate oddati zahtevo na strežnike finam in pridobiti njeno vrednost.

Rezultat<- NULL for(i in (1:length(divs[,1]))){ d <- divs if (d$Divs>0) (poskusite ((narekovaji<- getSymbols(d$Symbol, src="Finam", from="2010-01-01", auto.assign=FALSE) if (!is.nan(quotes)){ price <- Cl(quotes) if (length(price)>0) (dd<- d$Divs result <- rbind(result, data.frame(d$Symbol, d$Name, d$RegistryDate, as.numeric(dd)/as.numeric(price), stringsAsFactors=FALSE)) } } }, silent=TRUE) } } colnames(result) <- c("Symbol", "Name", "RegistryDate", "Divs") result


Podobno lahko zgradite statistiko za pretekla leta.

V STATISTIKA implementirali klasične metode analize grozdov, vključno z metodami k-srednjih vrednosti, hierarhično združevanje v gruče in združevanje dveh vhodov.

Podatki so lahko tako v izvirni obliki kot v obliki matrice razdalj med objekti.

Opazovanja in spremenljivke je mogoče združiti v skupine z uporabo različnih mer razdalje (Evklid, Evklidov kvadrat, Manhattan, Čebišev itd.) in različnih pravil za združevanje grozdov (enojna, polna povezava, neuteženo in tehtano parno povprečje za skupine itd.).

Formulacija problema

Izvirna podatkovna datoteka vsebuje naslednje podatke o vozilih in njihovih lastnikih:

Namen te analize je razvrstiti avtomobile in njihove lastnike v razrede, od katerih vsak ustreza določeni skupini tveganja. Za opazovanja, ki sodijo v eno skupino, je značilna enaka verjetnost nastanka zavarovalnega dogodka, ki jo naknadno oceni zavarovalnica.

Najbolj učinkovita je uporaba grozdne analize za rešitev tega problema. V splošnem primeru je gručna analiza namenjena združevanju nekaterih objektov v razrede (gruče) na način, da najbolj podobni spadajo v en razred, objekti različnih razredov pa se med seboj čim bolj razlikujejo. Kvantitativni kazalnik podobnosti se izračuna na določen način na podlagi podatkov, ki označujejo predmete.

Merilna lestvica

Vsi algoritmi grozdov morajo oceniti razdalje med grozdi ali objekti, pri čemer je jasno, da je pri izračunu razdalje treba nastaviti merilno lestvico.

Ker različne meritve uporabljajo popolnoma različne vrste lestvic, je treba podatke standardizirati (v meniju Podatki izberite predmet Za standardizacijo), tako da bo imela vsaka spremenljivka povprečje 0 in standardni odklon 1.

Spodaj je prikazana tabela s standardiziranimi spremenljivkami.

Korak 1. Hierarhična klasifikacija

Prvi korak je ugotoviti, ali avtomobili tvorijo "naravne" grozde, ki jih je mogoče konceptualizirati.

izberimo Analiza grozdov na meniju Analiza - Multivariatna raziskovalna analiza za prikaz začetne plošče modula Analiza grozdov... V tem pogovornem oknu izberite Hierarhična klasifikacija in pritisnite v redu.

pritisni gumb spremenljivke, izberite Vse, na terenu Predmeti izberite Opažanja (strune). Upoštevajte pravilo sindikata Popolna metoda povezave, kot merilo bližine - Evklidska razdalja... Pritisnite v redu.

Metoda popolne povezave opredeljuje razdaljo med grozdi kot največjo razdaljo med katerima koli elementoma v različnih grozdih (tj. "najdaljši sosedje").

Mera bližine, definirana z Evklidsko razdaljo, je geometrijska razdalja v n-dimenzionalnem prostoru in se izračuna na naslednji način:

Najpomembnejši rezultat združevanja dreves v skupine je hierarhično drevo. Kliknite na gumb Vertikalni dendrogram.

Drevesni diagrami se na začetku morda zdijo nekoliko zmedeni, a po nekaj študijah postanejo bolj razumljivi. Diagram se začne na vrhu (za navpični dendrogram) z vsakim vozilom v svoji skupini.

Takoj, ko se začnete premikati navzdol, se avtomobili, ki se »tesneje dotikajo drug drugega«, združijo in tvorijo grozde. Vsako vozlišče v zgornjem diagramu predstavlja združitev dveh ali več grozdov, položaj vozlišč na navpični osi pa določa razdaljo, na kateri so bili ustrezni grozdi združeni.

Korak 2. K-pomeni združevanje v skupine

Na podlagi vizualne predstavitve rezultatov lahko domnevamo, da avtomobili tvorijo štiri naravne grozde. Preverimo to predpostavko tako, da začetne podatke po metodi K sredstev razdelimo na 4 skupine in preverimo pomembnost razlike med dobljenimi skupinami.

Na začetni plošči modula Analiza grozdov izberite K-Means Clustering.

pritisni gumb spremenljivke in izberite Vse, na terenu Predmeti izberite Opažanja (strune), nastavite 4 skupine particije.

Metoda K-pomeni je naslednja: izračuni se začnejo s k naključno izbranimi opazovanji (v našem primeru k = 4), ki postanejo središča skupin, nakar se spremeni objektna sestava grozdov, da se čim bolj zmanjša variabilnost znotraj grozdov in čim bolj poveča variabilnost med grozdi.

Vsako naslednje opazovanje (K + 1) spada v skupino, katere mera podobnosti s težiščem je minimalna.

Po spremembi sestave grozda se izračuna novo težišče, najpogosteje kot vektor srednjih vrednosti za vsak parameter. Algoritem se nadaljuje, dokler se sestava grozdov ne preneha spreminjati.

Ko dobimo rezultate razvrščanja, lahko izračunamo povprečno vrednost kazalnikov za vsak grozd, da ocenimo, kako se med seboj razlikujejo.

V oknu Rezultati metode K pomeni izberite ANOVA določiti pomembnost razlike med nastalimi grozdi.

Torej vrednost p<0.05, что говорит о значимом различии.

pritisni gumb Elementi grozda in razdalje za ogled opazovanj, vključenih v vsako skupino. Možnost vam omogoča tudi prikaz evklidskih razdalj predmetov od središč (povprečne vrednosti) njihovih ustreznih grozdov.

Prva skupina:

Druga skupina:

Tretja skupina:

Četrti sklop:

Torej, v vsakem od štirih grozdov so predmeti s podobnim vplivom na proces izgub.

3. korak. Opisna statistika

Poznavanje deskriptivne statistike v vsaki skupini je zagotovo bistveno za vsakega raziskovalca.

Analiza grozdov pojavil relativno nedavno - leta 1939. Predlagal ga je znanstvenik K. Trion. Dobesedno izraz "cluster" v prevodu iz angleščine "cluster" pomeni čopič, kup, snop, skupino.

Posebno hiter razvoj grozdne analize se je zgodil v 60. letih prejšnjega stoletja. Predpogoja za to so bili pojav hitrih računalnikov in priznavanje klasifikacij kot temeljne metode znanstvenega raziskovanja.

Grozdna analiza je metoda multivariatnega statističnega raziskovanja, ki vključuje zbiranje podatkov, ki vsebujejo informacije o vzorčnih objektih, in njihovo razvrščanje v relativno homogene, podobne skupine.

Bistvo grozdne analize je torej v izvedbi klasifikacije raziskovalnih objektov z uporabo številnih računskih postopkov. Posledično nastanejo "gropi" ali skupine zelo podobnih predmetov. Za razliko od drugih metod ta vrsta analize omogoča razvrščanje predmetov ne po enem atributu, temveč po več hkrati. Za to so uvedeni ustrezni kazalniki, ki označujejo določeno stopnjo bližine za vse klasifikacijske parametre.

Namen grozdne analize je iskanje obstoječih struktur, ki se izražajo v oblikovanju skupin podobnih objektov - grozdov. Hkrati je njegovo delovanje v vnašanju strukture v preučevane objekte. To pomeni, da so tehnike združevanja v skupine potrebne za prepoznavanje vzorcev v podatkih, ki jih z vizualnim pregledom ali s pomočjo strokovnjakov ni enostavno najti.

Glavne naloge grozdne analize so:

Razvoj tipologije ali klasifikacije preučenih objektov;

Raziskovanje in določitev sprejemljivih idejnih shem za združevanje objektov;

Postavljanje hipotez na podlagi rezultatov podatkovnega rudarjenja;

Preizkušanje hipoteze, ali se na določen način identificirane vrste (skupine) pojavljajo v razpoložljivih podatkih.

Analiza grozdov zahteva naslednje zaporedne korake:

1) izvajanje izbora predmetov za združevanje v grozde;

2) določitev nabora lastnosti, po katerih bodo izbrani objekti ocenjeni;

3) ocena stopnje podobnosti predmetov;

4) uporaba analize grozdov za ustvarjanje skupin podobnih objektov;

5) preverjanje zanesljivosti rezultatov gručaste rešitve.

Vsak od teh korakov igra pomembno vlogo pri praktični izvedbi analize.

Določanje nabora lastnosti, ki so osnova za vrednotenje objektov () v gručasti analizi, je ena najpomembnejših raziskovalnih nalog. Cilj tega koraka bi moral biti določiti nabor spremenljivih atributov, ki najbolje odraža koncept podobnosti. Te značilnosti je treba izbrati ob upoštevanju teoretičnih določil, na katerih temelji klasifikacija, kot tudi namena študije.

Pri določanju mere podobnosti objektov grozdne analize se uporabljajo štiri vrste koeficientov: korelacijski koeficienti, kazalniki razdalje, asociativnost in verjetnostni koeficienti, koeficienti podobnosti. Vsak od teh kazalnikov ima svoje prednosti in slabosti, ki jih je treba najprej upoštevati. V praksi so na področju družbenih in ekonomskih ved najbolj razširjeni korelacijski in distančni koeficienti.

Kot rezultat analize nabora vhodnih podatkov nastanejo homogene skupine tako, da so si objekti znotraj teh skupin po nekem kriteriju podobni, objekti iz različnih skupin pa se med seboj razlikujejo.

Združevanje v skupine je mogoče izvesti na dva glavna načina, vključno z uporabo hierarhičnih ali iterativnih postopkov.

Hierarhični postopki- zaporedna dejanja za oblikovanje grozdov različnih rangov, podrejenih drug drugemu v skladu z jasno določeno hierarhijo. Najpogosteje hierarhični postopki

izvajajo s pomočjo aglomerativnih (poenotenih) dejanj. Zagotavljajo naslednje operacije:

Zaporedna kombinacija podobnih predmetov z oblikovanjem matrice podobnosti predmetov;

Konstrukcija dendrograma (drevesnega diagrama), ki odraža zaporedno kombinacijo predmetov v grozde;

Oblikovanje ločenih grozdov za preučevano množico v prvi začetni fazi analize in združevanje vseh objektov v eno veliko skupino v končni fazi analize.

Iterativni postopki so sestavljeni iz oblikovanja primarnih podatkov enostopenjskih (enakega ranga), ki si med seboj hierarhično niso podrejeni grozdi.

Več kot štirideset let je metoda k-means (leta 1967 jo je razvil J. McQueen) ena najbolj razširjenih metod izvajanja iterativnih postopkov. Njegova uporaba zahteva naslednje korake:

Razdelitev začetnih podatkov preučevane populacije na dano število grozdov

Izračun večdimenzionalnih sredin (težišč) izbranih grozdov

Izračun evklidske razdalje vsake enote niza definiranih privlačnih središč grozdov in konstrukcija matrike razdalj na podlagi metrike razdalje. Uporabljajo se različne metrike razdalje, na primer Evklidska razdalja (enostavna in tehtana), Manhattan, Chebyshev, Minkowski, Mahalonobis in podobno;

Določanje novih centov privlačnosti in novih grozdov.

Najbolj znane in pogosto uporabljene metode

nastanek grozdov so:

Enotna komunikacija;

Popolna komunikacija;

Srednja komunikacija;

Wardova metoda.

Metoda enojne povezave (metoda bližnjih sosedov) predvideva priključitev enote populacije v gručo, če je blizu (je na enaki stopnji podobnosti) vsaj enemu predstavniku te skupine.

Metoda popolne komunikacije (oddaljeni sosed) zahteva določeno stopnjo podobnosti objekta (ne manj kot mejno raven), vključen naj bi bil v grozd, s katerim koli drugim.

Metoda povprečne povezave temelji na uporabi povprečne razdalje med kandidatom za vključitev v grozd in predstavniki obstoječega grozda.

Po Wardovi metodi se objekti združijo v grozde v primeru minimalnega povečanja znotrajskupinske vsote kvadratov odstopanj. Zaradi tega nastanejo grozdi približno enake velikosti, ki imajo obliko hipersfere.

Grozdna analiza, tako kot druge metode za preučevanje stohastične komunikacije, zahteva številne zapletene izračune, bolje je izvajati z uporabo sodobnih informacijskih sistemov, vključno s programskim produktom Statistica 6.0.

Raziskovalci uporabljajo analizo grozdov v različnih študijah, na primer pri preučevanju ravni blaginje prebivalstva držav CIS (A. Miroshnichenko). Prvič, za to je bilo izbranih 16 statističnih glavnih socialno-ekonomskih kazalnikov, ki označujejo življenjski standard državljanov v različnih državah CIS:

1) BDP na prebivalca, USD ZDA;

2) povprečne mesečne nominalne plače, rus. rub.;

3) povprečna mesečna pokojnina, rus. rub.;

6) delež izdatkov za nakup živil v potrošniških izdatkih gospodinjstev, v odstotkih;

7) poraba mesa in mesnih izdelkov v povprečju na leto na osebo, kg;

8) količina pšeničnega kruha, ki bi jo bilo mogoče kupiti za znesek povprečnega denarnega dohodka na mesec (na osebo), kg;

9) splošna stopnja rodnosti (na 1000 prebivalcev);

10) stopnja umrljivosti dojenčkov (smrti otrok, mlajših od enega leta na 1000 rojstev)

11) število zaposlenih v odstotkih delovno aktivnega prebivalstva;

12) stanovanjska oskrba prebivalstva v povprečju (na osebo), m2 skupne površine;

13) število bolnikov z malignimi novotvorbami (na 100.000 prebivalcev), oseb;

14) število registriranih kaznivih dejanj (na 100.000 prebivalcev), enot;

15) emisije škodljivih snovi v ozračje iz nepremičnih virov onesnaženja (na osebo), kg;

16) obiski muzejev v povprečju na leto (na 1000 prebivalcev), enot (Tabela 12.7).

Analiza kraterjev se izvaja na podlagi primerljivih in enosmernih kazalnikov. Zato je treba kazalnike vhodne matrike najprej standardizirati. Ena izmed pogostih metod za heterogene populacije (zlasti v našem primeru) je standardizacija kazalnikov z razmerjem odmika - a do standardizacijske enote q. V tem primeru bo enota standardizacije dejanski razpon variacije.

Poleg tega, kot je razvidno iz znanstvenih del ekonomistov AM Erina in S.S. Vaschaev, za indikatorje se vzamejo stimulansi, za kazalce pa destimulatorji. Na podlagi tega se standardizirane vrednosti kazalnikov izračunajo po formulah:

Za kazalnike stimulansi:;

Za indikatorji-destimulatorji:

kjer je standardizirana vrednost kazalnika i-ro za y-to enoto populacije;

Vhodna vrednost i-tega indikatorja za j-to enoto populacije.

Nastali standardizirani vhodi so prikazani v tabeli 12.8.

Azerbajdžan

Belorusija

Kazahstan

Kirgizistan

Tadžikistan

Tabela 12.8. Standardizirana vhodna matrika

Azerbajdžan

Belorusija

Kazahstan

Kirgizistan

Tadžikistan

Naslednji korak v analizi grozdov bi morala biti gradnja matrike razdalje, ki predpostavlja predvsem izbiro metrike razdalje. V praksi se uporabljajo različne metrike razdalje: evklidska, tehtana evklidska, manhattanska, čebiševska, minkowski, Mahalonobis D 2 itd. V tem primeru se lahko razdelitev držav CIS v skupine izvede z uporabo razdalje Manhattan. Izračuna se po formuli

,

kjer sta in standardizirana vrednost i-tega kazalnika j-te in k-te enote populacije.

Na podlagi izbrane mere razdalje je mogoče sestaviti simetrično matriko razdalj med državami CIS (tabela 12.9).

države CIS

Azerbajdžan

Belorusija

Kazahstan

Kirgizistan

Tadžikistan

Azerbajdžan

Belorusija

Kazahstan

Kirgizistan

Tadžikistan

Naslednja faza analize je izbira metode za združevanje držav CIS v grozde. Kot smo že omenili, so najpogostejše metode združevanja v grozde:

Enotna komunikacija;

Popolna komunikacija;

Srednja komunikacija;

Wardova metoda.

Uporabili bomo Wardovo metodo, ki minimizira variance znotraj skupine znotraj grozdov. Po tej metodi se združevanje predmetov v grozde izvede z minimalnim povečanjem znotrajskupinske vsote kvadratov odstopanj. To prispeva k nastanku grozdov približno enake velikosti, ki so v obliki hipersfere. Dendrogram rezultatov analize grozdov je prikazan na sliki 12.5.

riž. 12.5. Dendrogram rezultatov grozdne analize držav CIS glede na življenjski standard prebivalstva

Kot je razvidno iz slike, navpična os dendrograma odraža države CIS, vodoravna pa je razdalja unije.

Za določitev optimalnega števila grozdov je treba zgraditi graf seznama združevanja regij Ukrajine v grozde, narisati razdalje na njeni navpični osi in korak združevanja na vodoravni osi (slika 12.6). .

riž. 12.6. Razpored seznama združitve držav CIS v grozde

Kot lahko vidite, je glede na uveljavljene zahteve optimalnosti optimalna razdelitev držav CIS glede na življenjski standard prebivalstva v tri grozde. Upoštevajte, da je optimalno število grozdov enako razliki med številom opazovanj (v našem primeru 9) in številom korakov, po katerih razdalja zveze nenadoma naraste (v našem primeru 6).

Tako so države CIS razdeljene v tri grozde. V prvi grozd sta Azerbajdžan in Tadžikistan, v drugi - Belorusija, Ukrajina, Rusija in Kazahstan, v tretji pa Armenija, Moldavija in Kirgizistan.

Z metodo k-means smo izračunali povprečne vrednosti kazalnikov za vsako od treh skupin (slika 12.7).

riž. 12.7. Povprečne vrednosti kazalnikov za vsak grozd

Kot je prikazano na sl. 12.7, pred prvim grozdom so države, v katerih so povprečne vrednosti osmih kazalnikov nižje kot v drugih grozdih.

Tako imata Azerbajdžan in Tadžikistan, ki spadata v prvi grozd, nizek BDP na prebivalca, povprečne mesečne plače (nominalne), pokojnine, porabo mesa in mesnih izdelkov ter stanovanja. Vendar so v teh državah višja druga povprečja, zlasti: indeks investicij v osnovna sredstva, indeks cen življenjskih potrebščin in rodnost.

Države iz drugega grozda so znane po visokih parametrih ekonomske komponente življenjskega standarda, žal pa po nizki rodnosti, visoki pojavnosti malignih novotvorb, kriminalu, velikih emisijah škodljivih snovi v ozračje iz stacionarnih virov. onesnaževanja, kar potrjujejo ustrezni kazalci.

Za države tretjega grozda so značilni nizki kazalniki: indeks investicij v osnovna sredstva, stopnja zaposlenosti v javnem gospodarstvu, registrirana kazniva dejanja, kar kaže na njihovo nizko investicijsko privlačnost in veliko brezposelnost.

Torej je analiza grozdov po mnenju znanstvenikov velikega pomena pri izvajanju analitičnih raziskav zaradi sposobnosti spreminjanja velike količine vsestranskih informacij v urejeno, kompaktno obliko. To prispeva k povečanju vidnosti, jasnosti in dojemanja rezultatov analize ter ustvarja tudi osnovo za napovedovanje.

V statistiki sta dve glavni vrsti analize grozdov (obe predstavljeni v SPSS): hierarhična in k-srednja. V prvem primeru avtomatiziran statistični postopek neodvisno določi optimalno število grozdov in številne druge parametre, potrebne za gručo.

analiza. Druga vrsta analize ima pomembne omejitve v svoji praktični uporabnosti - zanjo je potrebno neodvisno določiti natančno število identificiranih grozdov in začetne vrednosti središč vsakega grozda (centroidov) in nekatere druge statistike. Pri analizi po metodi k-means se te težave rešijo s predhodno izvedbo hierarhične analize grozdov in nato na podlagi njenih rezultatov izračunamo model grozda po metodi k-means, ki v večini primerov ne le ne poenostavi, ampak nasprotno otežuje delo raziskovalca (zlasti neizurjenega).

Na splošno lahko rečemo, da je bila zaradi dejstva, da je hierarhična analiza grozdov zelo zahtevna za vire računalniške strojne opreme, v SPSS uvedena analiza grozdov po metodi k-means za obdelavo zelo velikih podatkovnih nizov, sestavljenih iz več tisoč opazovanj (respondentov ), v pogojih nezadostne moči računalniške opreme 1. Velikosti vzorcev, uporabljenih v marketinških raziskavah, v večini primerov ne presegajo štiri tisoč anketirancev. Praksa trženjskih raziskav kaže, da je prva vrsta grozdne analize - hierarhična - priporočljiva za uporabo v vseh primerih kot najbolj relevantna, univerzalna in natančna. Ob tem je treba poudariti, da je pri izvajanju grozdne analize pomembno izbrati ustrezne spremenljivke. Ta pripomba je zelo pomembna, saj lahko vključitev več ali celo ene nepomembne spremenljivke v analizo povzroči neuspeh celotnega statističnega postopka.

Metodologijo za izvedbo grozdne analize bomo opisali na naslednjem primeru iz prakse trženjskih raziskav.

Začetni podatki:

V okviru študije je bilo intervjuvanih 745 letalskih potnikov, ki so leteli z enim od 22 ruskih in tujih letalskih prevoznikov. Letalski potniki so bili pozvani, da na petstopenjski lestvici - od 1 (zelo slabo) do 5 (odlično) - ocenijo sedem parametrov dela zemeljskega osebja letalskih družb med postopkom prijave: vljudnost, strokovnost, učinkovitost, pripravljenost za pomoč, nadzor čakalnih vrst, videz, delovno osebje na splošno.

Zahtevano:

Segmentirajte preučevane letalske družbe glede na raven kakovosti dela zemeljskega osebja, ki jo zaznavajo letalski potniki.

Tako imamo podatkovno datoteko, ki je sestavljena iz sedmih intervalnih spremenljivk, ki označujejo ocene kakovosti zemeljskega osebja različnih letalskih družb (ql3-ql9), predstavljene na eni petstopenjski lestvici. Podatkovna datoteka vsebuje enovariantno spremenljivko q4, ki označuje letalske družbe, ki so jih izbrali anketiranci (skupaj 22 imen). Izvedli bomo grozdno analizo in ugotovili, v katere ciljne skupine lahko razdelimo podatke letalske družbe.

Hierarhična analiza grozdov se izvaja v dveh fazah. Rezultat prve stopnje je število grozdov (ciljnih segmentov), ​​na katere je treba razdeliti anketirani vzorec anketirancev. Postopek analize grozdov kot tak ni

lahko samostojno določi optimalno število grozdov. Predlaga lahko le zahtevano številko. Ker je problem določanja optimalnega števila segmentov ključnega pomena, ga običajno rešujemo v ločeni fazi analize. Na drugi stopnji se izvede dejansko združevanje opazovanj glede na število grozdov, ki smo ga določili v prvi fazi analize. Zdaj pa si oglejmo te korake analize grozdov po vrstnem redu.

Postopek analize grozdov se zažene z uporabo menija Analyze> Classify> Hierarchical Cluster. V pogovornem oknu, ki se odpre, na levem seznamu vseh spremenljivk v podatkovni datoteki izberite spremenljivke, ki so kriterij segmentacije. V našem primeru jih je sedem in označujejo ocene parametrov dela zemeljskega osebja ql3-ql9 (slika 5.44). Načeloma bo za izvedbo prve stopnje analize grozdov zadostovala določitev nabora meril segmentacije.

riž. 5.44.

SPSS privzeto poleg tabele z rezultati oblikovanja grozdov, na podlagi katerih bomo določili njihovo optimalno število, prikaže tudi poseben obrnjen histogramski ledenik, ki po besedah ​​ustvarjalcev programa pomaga pri določiti optimalno število grozdov; diagrami se prikažejo s pomočjo gumba Plots (slika 5.45). Če pa ta parameter pustite označen, bomo porabili veliko časa za obdelavo tudi relativno majhne podatkovne datoteke. Poleg ledenice lahko v oknu Plots izberete hitrejši palični grafikon Dendograma. Predstavljajo ga vodoravne palice, ki odražajo proces nastajanja grozdov. V teoriji ta diagram z majhnim (do 50-100) številom anketirancev resnično pomaga izbrati optimalno rešitev za zahtevano število grozdov. Vendar pa v skoraj vseh primerih trženjskih raziskav velikost vzorca presega to vrednost. Dendogram postane popolnoma neuporaben, saj je tudi ob relativno majhnem številu opazovanj zelo dolgo zaporedje številk vrstic izvorne podatkovne datoteke, povezanih z vodoravnimi in navpičnimi črtami. Večina učbenikov SPSS vsebuje primere gručaste analize na tako umetnih majhnih vzorcih. V tej vadnici vam pokažemo, kako najučinkoviteje delati s SPSS v praktičnem okolju in na primeru resnične tržne raziskave.

riž. 5.45.

Kot smo ugotovili, za praktične namene niti Icicle niti Dendogram nista primerna. Zato je priporočljivo, da ne prikažete diagramov v glavnem pogovornem oknu za analizo hierarhične gruče, tako da prekinete izbiro privzete možnosti Plosti v območju prikaza, kot je prikazano na sl. 5.44. Zdaj je vse pripravljeno za izvedbo prve faze analize grozdov. Postopek začnite s klikom na gumb V redu.

Čez nekaj časa se rezultati prikažejo v oknu SPSS Viewer. Kot smo že omenili, bo edini pomemben rezultat prve stopnje analize za nas tabela povprečne povezave (med skupinami), prikazana na sl. 5.46. Na podlagi te tabele moramo določiti optimalno število grozdov. Treba je opozoriti, da ni enotne univerzalne metode za določanje optimalnega števila grozdov. V vsakem konkretnem primeru mora raziskovalec to številko določiti sam.

Na podlagi razpoložljivih izkušenj avtor predlaga naslednjo shemo za ta proces. Najprej poskusimo uporabiti najpogostejšo standardno metodo za določanje števila grozdov. S pomočjo tabele Povprečna povezava (med skupinami) določite, na kateri stopnji procesa oblikovanja grozda (stolpec Faza) pride do prvega razmeroma velikega skoka koeficienta strjevanja (stolpec Koeficienti). Ta skok pomeni, da so bila pred njim opazovanja, ki so med seboj na precej majhni razdalji, združena v skupine (v našem primeru anketiranci s podobno stopnjo ocen za analizirane parametre), od te stopnje pa se združujejo bolj oddaljena opazovanja. .

V našem primeru se koeficienti gladko povečujejo od 0 do 7,452, to pomeni, da je bila razlika med koeficienti pri korakih od 1 do 728 majhna (na primer med 728 in 727 koraki - 0,534). Od koraka 729 pride do prvega pomembnega skoka koeficienta: s 7,452 na 10,364 (za 2,912). Korak, pri katerem pride do prvega skoka koeficienta, je 729. Zdaj je za določitev optimalnega števila grozdov potrebno dobljeno vrednost odšteti od skupnega števila opazovanj (velikosti vzorca). Skupna velikost vzorca v našem primeru je 745 ljudi; zato je optimalno število grozdov 745-729 = 16.


riž. 5.46.

Dobili smo dokaj veliko število grozdov, ki jih bo v prihodnje težko interpretirati. Zato je zdaj treba raziskati nastale grozde in ugotoviti, kateri od njih so pomembni in katere poskušamo zmanjšati. Ta naloga je rešena v drugi fazi analize grozdov.

Odprite glavno pogovorno okno postopka analize grozdov (meni Analiziraj> Razvrsti> Hierarhična gruča). V polju za analizirane spremenljivke imamo že sedem parametrov. Kliknite gumb Shrani. Pogovorno okno, ki se odpre (slika 5.47), vam omogoča, da v izvorni podatkovni datoteki ustvarite novo spremenljivko, ki anketirance razdeli v ciljne skupine. Izberite parameter Posamezna rešitev in v ustreznem polju navedite zahtevano število grozdov - 16 (določeno na prvi stopnji analize grozdov). S klikom na gumb Nadaljuj se vrnemo v glavno pogovorno okno, v katerem kliknemo na gumb V redu za začetek postopka analize gruče.

Preden nadaljujemo z opisom procesa analize grozdov, je treba podati kratek opis ostalih parametrov. Med njimi so tako uporabne priložnosti kot dejansko odvečne (z vidika praktičnih marketinških raziskav). Na primer, glavno pogovorno okno za analizo hierarhične gruče vsebuje polje Označi primere po, v katerega lahko po želji postavite besedilno spremenljivko, ki identificira anketirance. V našem primeru lahko za te namene služi spremenljivka q4, ki kodira letalske družbe, ki so jih izbrali anketiranci. V praksi je težko najti racionalno razlago za uporabo Zadevi nalepk glede na polje, zato ga lahko vedno pustite prazno.

riž. 5.47.

Analiza grozdov redko uporablja pogovorno okno Statistika, ki ga v glavnem pogovornem oknu pokliče istoimenski gumb. Omogoča pregledovalniku SPSS, da prikaže tabelo članstva v gruči, ki vsakega anketiranca v izvorni podatkovni datoteki preslika v številko grozda. Pri dovolj velikem številu anketirancev (v skoraj vseh primerih marketinških raziskav) postane ta tabela popolnoma neuporabna, saj gre za dolgo zaporedje parov vrednosti "število anketirancev/število grozda", ki jih ni mogoče razlagati v tej obliki. . Tehnični cilj gručaste analize je vedno ustvariti dodatno spremenljivko v podatkovni datoteki, ki odraža delitev anketirancev v ciljne skupine (s klikom na gumb Shrani v glavnem pogovornem oknu analize gruče). Ta spremenljivka je skupaj s številom anketirancev tabela članstva v grozdu. Edini praktično uporaben parameter v oknu Statistika je izhod tabele Povprečna povezava (med skupinami), vendar je že privzeto nastavljen. Zato je uporaba gumba Statistika in prikaz ločene tabele članstva v grozdih v pregledovalniku SPSS nepraktična.

Gumb Grafi je bil že omenjen zgoraj: deaktivirajte ga tako, da v glavnem pogovornem oknu analize grozdov počistite izbor parametra Grafi.

Poleg teh redko uporabljenih funkcij postopka analize grozdov, SPSS ponuja tudi zelo uporabne parametre. Med njimi je najprej gumb Shrani, ki vam omogoča, da v izvirni podatkovni datoteki ustvarite novo spremenljivko, ki anketirance razdeli v skupine. V glavnem pogovornem oknu je tudi območje za izbiro predmeta združevanja: anketirancev ali spremenljivk. Ta funkcija je bila obravnavana zgoraj v poglavju 5.4. V prvem primeru se grozdna analiza uporablja predvsem za segmentiranje anketirancev po nekaterih kriterijih; v drugem je namen gručaste analize podoben faktorski analizi: razvrstitev (zmanjšanje števila) spremenljivk.

Kot je razvidno iz sl. 5.44 je edina neupoštevana možnost gručaste analize gumb za izbiro metode za izvedbo statističnega postopka Metoda. Eksperimenti s tem parametrom vam omogočajo, da dosežete večjo natančnost pri določanju optimalnega števila grozdov. Splošni pogled tega pogovornega okna s privzetimi parametri je prikazan na sl. 5.48.

riž. 5.48.

Prva stvar, ki je nastavljena v tem oknu, je način oblikovanja grozdov (to je združevanje opazovanj). Med vsemi možnimi statističnimi metodami, ki jih ponuja SPSS, izberite bodisi privzeto metodo povezovanja med skupinami bodisi Wardovo (Wardova metoda). Prva metoda se pogosteje uporablja zaradi svoje vsestranskosti in relativne preprostosti statističnega postopka, na katerem se uporablja. Pri uporabi te metode se razdalja med grozdi izračuna kot povprečna vrednost razdalj med vsemi možnimi pari opazovanj, pri čemer pri vsaki iteraciji sodeluje eno opazovanje iz enega grozda, drugo pa iz drugega. opazovanja Wardovo metodo je težje razumeti in se uporablja manj pogosto. Sestavljena je iz številnih stopenj in temelji na povprečju vrednosti vseh spremenljivk za vsako opazovanje in nato seštevanju kvadratov razdalj od izračunanih srednjih vrednosti do vsakega opazovanja. Za nove študije priporočamo, da vedno uporabljate privzeto metodo povezovanja med skupinami.

Po izbiri postopka statističnega združevanja v skupine morate izbrati metodo za izračun razdalj med opazovanji (Measure area v pogovornem oknu Metoda). Obstajajo različne metode za določanje razdalj za tri vrste spremenljivk, vključenih v analizo grozdov (merila za segmentacijo). Te spremenljivke imajo lahko intervalno (Interval), nominalno (Counts) ali dihotomno (Binary) lestvico. Dihotomna lestvica (Binary) pomeni le spremenljivke, ki odražajo pojav/nenastanek dogodka (kupljeno/ni kupljeno, da/ne itd.). Druge vrste dihotomnih spremenljivk (npr. moški/ženske) je treba upoštevati in analizirati kot nominalne (šteje).

Najpogosteje uporabljena metoda za določanje razdalj za intervalne spremenljivke je kvadratna evklidska razdalja, ki je privzeta. Prav ta metoda se je v trženjskih raziskavah uveljavila kot najbolj natančna in vsestranska. Vendar pa za dihotomne spremenljivke, kjer so opazovanja predstavljena z dvema vrednostma (na primer 0 in 1), ta metoda ni primerna. Dejstvo je, da upošteva le interakcije med opazovanji tipa: X = 1, Y = 0 in X = 0, Y = l (kjer sta X in Y spremenljivki) in ne upošteva drugih vrst interakcij. Najbolj celovito merilo razdalje, ki upošteva vse pomembne vrste interakcij med dvema dihotomnima spremenljivkama, je metoda Lambda. Priporočamo uporabo te posebne metode zaradi njene vsestranskosti. Vendar pa obstajajo tudi druge metode, kot so Shape, Hamann ali Anderbergsov D.

Pri določanju metode za določanje razdalj za dihotomne spremenljivke v ustreznem polju morate določiti specifične vrednosti, ki jih lahko preučevane dihotomne spremenljivke sprejmejo: v polju Prisotno - kodiranje odgovora Da in v polju Odsotno - št. Imena polj so prisotna in odsotna, povezana z dejstvom, da naj bi skupina binarnih metod uporabljala le dihotomne spremenljivke, ki odražajo pojav/nepojavitev dogodka. Obstaja več metod za določanje razdalje za dve vrsti spremenljivk Interval in Binary. Za spremenljivke z nazivnim tipom lestvice SPSS ponuja samo dve metodi: (mera hi-kvadrat) in (mera fi-kvadrat). Priporočamo uporabo prve metode kot najpogostejše.

Pogovorno okno Metoda ima območje Transform Values, ki vsebuje polje Standardize. To polje se uporablja, kadar so v analizo gruče vključene spremenljivke z različnimi vrstami lestvic (na primer intervalne in nominalne). Za uporabo teh spremenljivk v analizi grozdov je potrebno izvesti standardizacijo, ki jih pripelje do enega samega tipa lestvice - intervala. Najpogostejša metoda standardizacije spremenljivk je 2-standardizacija (Zscore): vse spremenljivke se zmanjšajo na en sam razpon vrednosti od -3 do +3 in po transformaciji so intervalne.

Ker so vse najboljše metode (združevanje in določanje razdalj) privzeto nastavljene, je priporočljivo uporabiti pogovorno okno Metoda samo za označevanje vrste analiziranih spremenljivk, kot tudi za navedbo potrebe po 2-standardizaciji spremenljivk.

Tako smo opisali vse glavne priložnosti, ki jih nudi SPSS za analizo grozdov. Vrnimo se k opisu gručaste analize, ki je bila izvedena z namenom segmentiranja letalskih prevoznikov. Spomnimo se, da smo se odločili za rešitev s šestnajstimi grozdi in v izvirni podatkovni datoteki ustvarili novo spremenljivko clul6_l, ki vse analizirane letalske družbe razporedi v grozde.

Če želite ugotoviti, kako pravilno smo določili optimalno število grozdov, konstruirajte linearno porazdelitev spremenljivke clul6_l (meni Analiza> Deskriptivna statistika> Frekvence). Kot je razvidno iz sl. 5.49, v grozdih s številkami 5-16 je število anketirancev od 1 do 7. Poleg zgoraj opisane univerzalne metode za določanje optimalnega števila grozdov (na podlagi razlike med skupnim številom anketirancev in prvim skokom) v aglomeracijskem koeficientu) je tudi dodatno priporočilo: velikost grozdov naj bo statistično smiselna in praktično sprejemljiva. Z našo velikostjo vzorca lahko tako kritično vrednost nastavimo vsaj na nivo 10. Vidimo, da pod ta pogoj spadajo le grozdi s številkami 1-4. Zato je zdaj treba postopek analize grozdov ponovno izračunati z izhodom rešitve štirih grozdov (ustvarjena bo nova spremenljivka du4_l).


riž. 5.49.

Ko smo zgradili linearno porazdelitev nad novoustvarjeno spremenljivko du4_l, bomo videli, da je le v dveh grozdih (1 in 2) število anketirancev praktično pomembno. Ponovno moramo zgraditi model grozda - zdaj za rešitev z dvema gručama. Po tem bomo konstruirali porazdelitev s spremenljivko du2_l (slika 5.50). Kot je razvidno iz tabele, ima dvogručna rešitev statistično in praktično pomembno število anketirancev v vsakem od dveh oblikovanih grozdov: v grozdu 1 - 695 anketirancev; v grozdu 2 - 40. Tako smo določili optimalno število grozdov za našo nalogo in anketirance dejansko segmentirali po sedmih izbranih kriterijih. Zdaj lahko upoštevamo, da je glavni cilj naše naloge dosežen, in nadaljujemo s končno fazo analize grozdov - interpretacijo dobljenih ciljnih skupin (segmentov).


riž. 5.50.

Nastala rešitev se nekoliko razlikuje od tiste, ki ste jo morda videli v vadnicah SPSS. Tudi najbolj praktično usmerjeni učbeniki ponujajo umetne primere, kjer se z združevanjem dobijo idealne ciljne skupine anketirancev. V nekaterih primerih (5) avtorji celo neposredno opozarjajo na umetni izvor primerov. V tej vadnici bomo za ponazoritev delovanja grozdne analize uporabili resničen primer iz praktičnih marketinških raziskav, ki se ne razlikujejo v idealnih razmerjih. To nam bo omogočilo prikaz najpogostejših težav pri izvajanju analize grozdov, pa tudi najboljše metode za njihovo odpravljanje.

Preden nadaljujemo z razlago nastalih grozdov, povzamemo. Za določitev optimalnega števila grozdov smo dobili naslednjo shemo.

¦ V 1. koraku določimo število grozdov na podlagi matematične metode, ki temelji na aglomeracijskem razmerju.

¦ Na 2. stopnji združimo anketirance glede na dobljeno število grozdov in nato zgradimo linearno porazdelitev glede na novo nastalo spremenljivko (clul6_l). Določiti mora tudi, koliko grozdov je sestavljeno iz statistično pomembnega števila anketirancev. Na splošno je priporočljivo določiti minimalno pomembno število grozdov na ravni najmanj 10 anketirancev.

¦ Če vsi grozdi izpolnjujejo ta kriterij, nadaljujemo s končno fazo analize grozdov: interpretacijo grozdov. Če obstajajo grozdi z zanemarljivim številom opazovanj, ki jih sestavljajo, ugotovimo, koliko grozdov je sestavljeno iz pomembnega števila anketirancev.

¦ Preračunajte postopek analize grozdov tako, da v pogovornem oknu Shrani določite število grozdov, sestavljenih iz znatnega števila primerov.

¦ Zgradite linearno porazdelitev glede na novo spremenljivko.

To zaporedje dejanj se ponavlja, dokler se ne najde rešitev, v kateri bodo vsi grozdi sestavljeni iz statistično pomembnega števila anketirancev. Po tem lahko nadaljujete na zadnjo fazo analize grozdov - interpretacijo grozdov.

Posebej je treba opozoriti, da merilo praktične in statistične pomembnosti števila grozdov ni edino merilo, po katerem je mogoče določiti optimalno število grozdov. Raziskovalec lahko samostojno na podlagi svojih izkušenj predlaga število grozdov (pogoj pomembnosti mora biti izpolnjen). Druga možnost je precej pogosta situacija, ko je za raziskovalne namene vnaprej postavljen pogoj, da se anketiranci segmentirajo glede na dano število ciljnih skupin. V tem primeru morate samo enkrat izvesti hierarhično analizo grozdov, hkrati pa ohraniti zahtevano število grozdov in nato poskusiti razlagati, kaj se bo izkazalo.

Za opis dobljenih ciljnih segmentov je treba uporabiti postopek za primerjavo srednjih vrednosti preučevanih spremenljivk (centroidov grozdov). Primerjali bomo povprečne vrednosti sedmih obravnavanih kriterijev segmentacije v vsaki od dveh nastalih grozdov.

Postopek za primerjavo srednjih vrednosti se prikliče z uporabo menija Analyze> Compare Means> Means. V pogovornem oknu, ki se odpre (slika 5.51) na levem seznamu, izberite sedem spremenljivk, izbranih kot kriterij segmentacije (ql3-ql9), in jih povlecite v polje Odvisni seznam za odvisne spremenljivke. Nato spremenljivko сШ2_1, ki odraža delitev anketirancev na grozde v končni (dvogručni) rešitvi problema, premaknemo z levega seznama v polje za neodvisne spremenljivke v Neodvisnem seznamu. Nato kliknite na gumb Možnosti.

riž. 5.51.

Odpre se pogovorno okno Možnosti, izberemo potrebno statistiko za primerjavo grozdov (slika 5.52). Če želite to narediti, v polju Statistika celice pustite samo prikaz srednjih vrednosti, iz njega pa odstranite druge privzete statistike. Zaprite pogovorno okno Možnosti s klikom na gumb Nadaljuj. Na koncu v glavnem pogovornem oknu Sredstva zaženite postopek primerjave povprečja (gumb V redu).

riž. 5.52.

V oknu SPSS Viewer, ki se odpre, bodo prikazani rezultati statističnega postopka za primerjavo srednjih vrednosti. Zanima nas tabela Poročila (slika 5.53). Iz nje je razvidno, na kakšni podlagi je SPSS anketirance razdelil v dva grozda. V našem primeru je tak kriterij raven ocen za analizirane parametre. Skupek 1 sestavljajo anketiranci, pri katerih so povprečne ocene po vseh kriterijih segmentacije na relativno visoki ravni (4,40 točke in več). V skupini 2 so vključeni anketiranci, ki so obravnavana merila segmentacije ocenili precej nizko (3,35 točke in manj). Tako lahko sklepamo, da je 93,3 % anketirancev, ki so oblikovali grozd 1, analizirane letalske družbe ocenilo kot dobre v vseh pogledih; 5,4 % - precej nizka; 1,3 % - je težko odgovoril (glej sliko 5.50). Iz sl. 5.53 lahko tudi sklepamo, da je raven ocen za vsak od obravnavanih parametrov posebej visoka in ta nizka (in ta sklep bodo podali anketiranci, kar omogoča doseganje visoke natančnosti klasifikacije). V tabeli poročila lahko vidite, da je za spremenljivko Ureditev čakalne vrste povprečna ocena 4,40, za parameter Videz pa 4,72.


riž. 5.53.

Lahko se izkaže, da se v podobnem primeru 4,5 šteje za visoko oceno za parameter X in le 3,9 za parameter Y. To ne bo napaka združevanja, temveč bo, nasprotno, omogočila pomemben sklep o pomembnosti obravnavanih parametrov za anketirance. Tako je za parameter Y 3,9 točke že dobra ocena, medtem ko so anketiranci za parameter X postavili strožje zahteve.

Identificirali smo dva pomembna grozda, ki se razlikujeta po stopnji povprečnih ocen za kriterije segmentacije. Sedaj lahko nastalim grozdom dodelite oznake: za 1 - Letalske družbe, ki izpolnjujejo zahteve anketirancev (po sedmih analiziranih kriterijih); za 2 - Letalske družbe, ki ne izpolnjujejo zahtev anketirancev. Zdaj lahko vidite, katere posebne letalske družbe (kodirane v spremenljivki q4) izpolnjujejo zahteve anketirancev in katere ne glede na kriterije segmentacije. Za to je treba zgraditi navzkrižno porazdelitev spremenljivke q4 (analizirane letalske družbe), odvisno od spremenljivke združevanja clu2_l. Rezultati te analize preseka so prikazani na sl. 5.54.

Na podlagi te tabele je mogoče sklepati o pripadnosti proučevanih letalskih prevoznikov v izbranih ciljnih segmentih.


riž. 5.54.

1. Letalske družbe, ki v celoti izpolnjujejo zahteve vseh strank glede zmogljivosti zemeljskega osebja (vključene samo v en prvi grozd):

¦ Vnukovo Airlines;

¦ American Airlines;

¦ Delta Airlines;

¦ Austrian Airlines;

¦ British Airways;

¦ Korean Airlines;

¦ Japan Airlines.

2. Letalske družbe, ki izpolnjujejo zahteve večine svojih strank glede uspešnosti zemeljskega osebja (večina anketirancev, ki leti s temi prevozniki, je zadovoljna z delom zemeljskega osebja):

¦ Transaero.

3. Letalske družbe, ki ne izpolnjujejo zahtev večine svojih strank glede uspešnosti zemeljskega osebja (večina anketiranih, ki leti s temi letalskimi družbami, ni zadovoljna z delom zemeljskega osebja):

¦ Domodedovo Airlines;

¦ Pulkovo;

¦ Sibirija;

¦ Ural Airlines;

¦ Samara Airlines;

Tako smo po povprečnih ocenah pridobili tri ciljne segmente letalskih prevoznikov, za katere je značilna različna stopnja zadovoljstva anketirancev z delom zemeljskega osebja:

  • 1. najbolj privlačne letalske družbe za potnike glede na raven dela zemeljskega osebja (14);
  • 2. precej privlačne letalske družbe (1);
  • 3. precej neprivlačne letalske družbe (7).

Uspešno smo zaključili vse faze grozdne analize in segmentirali letalske družbe po sedmih izpostavljenih kriterijih.

Zdaj bomo podali opis tehnike analize grozdov v kombinaciji s faktorsko analizo. Uporabimo pogoj problema iz razdelka 5.2.1 (faktorska analiza). Kot smo že omenili, je pri segmentacijskih težavah z velikim številom spremenljivk priporočljivo, da pred analizo grozdov opravimo faktorsko analizo. To se naredi, da se število kriterijev segmentacije zmanjša na najpomembnejše. V našem primeru imamo v izvirni podatkovni datoteki 24 spremenljivk. Kot rezultat faktorske analize nam je uspelo njihovo število zmanjšati na 5. Zdaj lahko to število faktorjev učinkovito uporabimo za analizo grozdov, same faktorje pa lahko uporabimo kot kriterije za segmentacijo.

Če se soočimo z nalogo segmentiranja anketirancev glede na njihovo oceno različnih vidikov trenutnega konkurenčnega položaja letalske družbe X, lahko izvedemo hierarhično grozdno analizo po izbranih petih kriterijih (spremenljivke nfacl_l-nfac5_l). V našem primeru smo spremenljivke ocenjevali na različnih lestvicah. Na primer ocena 1 za odobritev. Ne bi želel, da se letalska družba spremeni in enaka ocena za odobritev. Spremembe v letalski družbi bodo pozitiven trenutek, diametralno nasproten po pomenu. V prvem primeru 1 točka (močno se ne strinjam) pomeni, da sodelujoči pozdravlja spremembe v letalski družbi; v drugem primeru ocena 1 pomeni, da anketirani zavrača spremembe v letalski družbi. Pri interpretaciji grozdov se bomo neizogibno soočili s težavami, saj lahko takšne nasprotne po pomenu spremenljivke

spadajo v isti faktor. Tako je za namene segmentacije priporočljivo najprej prilagoditi lestvice proučevanih spremenljivk, nato pa preračunati faktorski model. In nato izvesti analizo gruče na spremenljivih faktorjih, pridobljenih kot rezultat faktorske analize. Ne bomo več podrobno opisovali postopkov faktorske in gručaste analize (to je bilo storjeno zgoraj v ustreznih razdelkih). Opozorimo le, da smo s to metodologijo posledično dobili tri ciljne skupine letalskih potnikov, ki se razlikujejo po stopnji ocen izbranih dejavnikov (torej skupin spremenljivk): najnižjo, srednjo in najvišjo.

Zelo uporabna uporaba analize grozdov je delitev na skupine frekvenčnih tabel. Recimo, da imamo linearno porazdelitev odgovorov na vprašanje Katere znamke protivirusnih programov so nameščene v vaši organizaciji?. Za sklepanje o tej distribuciji je treba protivirusne znamke razdeliti v več skupin (običajno 2-3). Grozdna analiza je najboljši način za kategorizacijo vseh blagovnih znamk v tri skupine (najbolj priljubljene znamke, povprečna priljubljenost in nepriljubljene znamke), čeprav praviloma raziskovalci elemente frekvenčnih tabel ločijo na oko na podlagi subjektivnih premislekov. V nasprotju s tem pristopom grozdna analiza omogoča znanstveno utemeljitev izvedene skupine. Če želite to narediti, v SPSS vnesite vrednosti vsakega parametra (priporočljivo je, da te vrednosti izrazite v odstotkih) in nato na teh podatkih izvedite analizo gruče. Če shranimo rešitev gruče za zahtevano število skupin (v našem primeru 3) kot novo spremenljivko, dobimo statistično veljavno združevanje.

Zadnji del tega poglavja bomo posvetili opisu uporabe grozdne analize za razvrščanje spremenljivk in primerjavi njenih rezultatov z rezultati faktorske analize, izvedene v poglavju 5.2.1. Za to bomo ponovno uporabili pogoj problema o oceni trenutnega položaja letalske družbe X na trgu letalskih prevozov. Metodologija grozdne analize skoraj v celoti ponavlja zgoraj opisano (ko so bili anketiranci segmentirani).

Tako imamo v izvirni podatkovni datoteki 24 spremenljivk, ki opisujejo odnos anketirancev do različnih vidikov trenutnega konkurenčnega položaja letalske družbe X. Odprite glavno pogovorno okno Hierarhična analiza grozdov in v spremenljivko postavite 24 spremenljivk (ql-q24). (s) polje, sl. 5.55. V območju Cluster označite, da razvrščate spremenljivke (označite možnost Spremenljivke). Videli boste, da gumb Shrani ni več na voljo – za razliko od faktorske analize ne morete shraniti faktorskih ocen za vse anketirance v analizi grozdov. Ustavite prikazovanje diagramov tako, da deaktivirate parameter Plots. V prvem koraku ne potrebujete nobenih drugih parametrov, zato samo kliknite na gumb V redu, da začnete postopek analize grozdov.

V oknu SPSS Viewer se je pojavila tabela Aglomeracijski urnik, po kateri smo po zgoraj opisani metodi določili optimalno število grozdov (slika 5.56). Prvi skok koeficienta aglomeracije opazimo pri 20. koraku (od 18834.000 na 21980.967). Na podlagi skupnega števila analiziranih spremenljivk, ki je enako 24, je mogoče izračunati optimalno število grozdov: 24 - 20 = 4.

riž. 5.55.


riž. 5.56.

Pri razvrščanju spremenljivk je grozd, ki ga sestavlja samo ena spremenljivka, praktično in statistično pomemben. Zato, ker smo matematično pridobili sprejemljivo število grozdov, nadaljnja preverjanja niso potrebna. Namesto tega znova odprite glavno pogovorno okno za analizo gruče (vsi podatki, uporabljeni v prejšnjem koraku so bili ohranjeni) in kliknite gumb Statistika, da prikažete klasifikacijsko tabelo. Videlo se vam bo istoimensko pogovorno okno, kjer morate določiti število grozdov, v katere morate razdeliti 24 spremenljivk (slika 5.57). To naredite tako, da izberete parameter Posamezna rešitev in v ustreznem polju podate zahtevano število grozdov: 4. Zdaj zaprite pogovorno okno Statistika s klikom na gumb Nadaljuj in zaženite postopek iz glavnega okna analize grozda.

Posledično se bo v oknu SPSS Viewer prikazala tabela Cluster Membership, ki bo analizirane spremenljivke razdelila v štiri skupine (slika 5.58).

riž. 5.58.

V skladu s to tabelo je mogoče vsako obravnavano spremenljivko dodeliti določenemu grozdu, kot sledi.

Grozd 1

ql. Airline X ima sloves odličnosti pri storitvah potnikov.

q2. Airline X se lahko kosa z najboljšimi letalskimi družbami na svetu.

q3. Verjamem, da ima Airline X obetavno prihodnost v svetovnem letalstvu.

q5. Ponosen sem, da delam za Airline X.

q9. Pred nami je dolga pot, preden lahko trdimo, da se imenujemo letalska družba svetovnega razreda.

qlO. Airline X res skrbi za potnike.

ql3. Všeč mi je, kako je Airline X trenutno vizualno predstavljen širši javnosti (glede barv in blagovne znamke).

ql4. Airline X je obraz Rusije.

ql6. Storitev letalske družbe X je dosledna in vseskozi prepoznavna

ql8. Airline X se mora spremeniti, da bi v celoti izkoristil svoj potencial.

ql9. Mislim, da se mora letalska družba X vizualno predstaviti na sodobnejši način.

q20. Spremembe v Airlineju X bodo pozitiven razvoj. q21. Airline X je učinkovita letalska družba.

q22. Rad bi videl, da se podoba Airline X izboljša v smislu tujih potnikov.

q23. Airline X je boljši, kot si večina ljudi misli.

q24. Pomembno je, da ljudje po vsem svetu vedo, da smo ruska letalska družba.

Grozd 2

q4. Vem, kakšna bo prihodnja strategija za Airline X.

q6. Airline X ima dobro medsektorsko komunikacijo.

q7. Vsak zaposleni v letalski družbi se po svojih najboljših močeh trudi zagotoviti njegov uspeh.

q8. Airline X se zdaj hitro izboljšuje.

qll. Med zaposlenimi v letalskih družbah je visoka stopnja zadovoljstva z delom.

ql2. Verjamem, da so višji menedžerji zavezani uspehu letalske družbe.

Grozd 3

ql5. V primerjavi z drugimi letalskimi družbami smo videti kot "včeraj".

Grozd 4

ql7. Ne bi želel, da se letalska družba X spremeni.

Če primerjate rezultate faktorske (oddelek 5.2.1) in analize grozdov, boste videli, da se bistveno razlikujejo. Grozdna analiza ne daje le bistveno manj možnosti za združevanje spremenljivk (na primer nezmožnost ohranjanja skupinskih ocen) v primerjavi s faktorsko analizo, ampak daje tudi veliko manj jasne rezultate. V našem primeru, če so skupine 2, 3 in 4 še vedno primerne za logično interpretacijo1, potem grozd 1 vsebuje izjave, ki so popolnoma drugačne po pomenu. V tej situaciji lahko bodisi poskusite opisati gručo 1 takšno, kot je, ali ponovno zgraditi statistični model z drugačnim številom grozdov. V slednjem primeru lahko za iskanje optimalnega števila grozdov, ki jih je mogoče logično opisati, uporabite parameter Obseg rešitev v pogovornem oknu Statistika (glejte sliko 5.57), pri čemer v ustreznih poljih določite najmanjše in največje število grozdov. (v našem primeru 4 oziroma 6). V takšni situaciji bo SPSS ponovno zgradil tabelo članstva v grozdih za vsako število grozdov. Naloga analitika je v tem primeru poskusiti najti klasifikacijski model, v katerem bodo vsi grozdi razloženi nedvoumno. Da bi prikazali zmožnosti postopka analize grozdov za združevanje spremenljivk v grozde, modela grozda ne bomo obnavljali, ampak se bomo omejili le na zgoraj povedano.

Opozoriti je treba, da se kljub navidezni preprostosti grozdne analize v primerjavi s faktorsko analizo v skoraj vseh primerih iz trženjskih raziskav izkaže, da je faktorska analiza hitrejša in učinkovitejša od gručaste analize. Zato za razvrstitev (zmanjšanje) spremenljivk močno priporočamo uporabo faktorske analize in prepustite uporabo gručaste analize za klasifikacijo anketirancev.

Analiza klasifikacije je z vidika neizurjenega uporabnika morda eno najbolj zapletenih statističnih orodij. To je povezano z zelo nizko razširjenostjo v trženjskih podjetjih. Hkrati pa je prav ta skupina statističnih metod ena najbolj uporabnih za praktike na področju trženjskih raziskav.

Grozdna analiza se imenujejo različni formalizirani postopki za gradnjo klasifikacij predmetov. Biologija je bila vodilna znanost pri razvoju grozdne analize. Predmet grozdne analize (iz angleškega "cluster" - kup, kup, skupina) je leta 1939 oblikoval psiholog Robert Trion. Klasika grozdne analize sta ameriška taksonoma Robert Sokal in Peter Snit. Eden njihovih najpomembnejših dosežkov na tem področju je knjiga »Začetki numerične taksonomije«, ki je izšla leta 1963. V skladu z glavno idejo avtorjev klasifikacija ne bi smela temeljiti na mešanju slabo formaliziranih sodb o podobnosti in sorodnosti predmetov, temveč na rezultatih formalizirane obdelave rezultatov matematičnega izračuna podobnosti / razlik. tajnih predmetov. Za izvedbo te naloge so bili potrebni ustrezni postopki, katerih razvoja so se lotili avtorji.

Glavne faze analize grozdov so naslednje:
1. izbor primerljivih predmetov;
2. izbor sklopa lastnosti, po katerih bo izvedena primerjava, in opis objektov na podlagi teh lastnosti;
3.izračun mere podobnosti med objekti (oz. mere razlik med objekti) v skladu z izbranim metrika;
4.združevanje predmetov v skupine z uporabo enega ali drugega postopki združevanja;
5. preverjanje uporabnosti dobljene gručaste rešitve.

Torej, najpomembnejši značilnosti postopka združevanja v grozde sta izbira metrike (v različnih situacijah se uporablja veliko število različnih meritev) in izbira postopka združevanja (in v tem primeru je izbira na voljo veliko število različnih možnosti). Za različne situacije so primernejša ena ali druga metrika in postopki združevanja, vendar je izbira med njimi v določeni meri stvar okusa in tradicije. Kot je podrobneje razloženo v članku Grozdi, zakladi in himera objektivnosti, se izkaže za nedosegljivo upanje, da bo analiza grozdov pripeljala do izgradnje klasifikacije, ki nikakor ni odvisna od arbitrarnosti raziskovalca. Od petih naštetih raziskovalnih stopenj z uporabo grozdne analize le 4. stopnja ni povezana s sprejemanjem bolj ali manj samovoljne odločitve, ki vpliva na končni rezultat. In izbira predmetov in izbira lastnosti ter izbira metrike skupaj s postopkom združevanja pomembno vplivata na končni rezultat. Ta izbira je lahko odvisna od številnih okoliščin, vključno z eksplicitnimi in implicitnimi preferencami in pričakovanji študije. Žal ta okoliščina ne vpliva samo na rezultat analize grozdov. Vse "objektivne" metode se soočajo s podobnimi težavami, vključno z vse metode kladistike.

Ali obstaja ena sama pravilna rešitev, ki jo je treba najti pri izbiri nabora predmetov, nabora funkcij, vrste metrike in postopka kombiniranja? št. V dokaz tega je tu del članka, povezava do katerega je bila podana v prejšnjem odstavku.

"Pravzaprav ne moremo vedno niti trdno odgovoriti na vprašanje, kateri predmeti so si med seboj bolj podobni in kateri se bolj razlikujejo. Aja, splošno sprejetih (in še bolj "objektivnih") meril za izbiro metrike podobnosti in razlik med razvrščenimi predmeti preprosto ni.

Kateri predmet je predmet A bolj podoben: B ali C? Če uporabimo razdaljo kot metriko podobnosti, potem na C: | AC |<|AB|. А если полагаться на корреляцию между показанными на рисунке признаками (которую можно описать как угол между вектором, идущим к объекту из начала координат, и осью абсцисс), то на B: ... Kako bo pravilno? In ni enega samega pravilnega odgovora. Po eni strani je odrasla krastača bolj podobna odrasli žabi (obe odrasli), po drugi pa bolj podobna mladi krastači (obe krastači)! Pravilen odgovor je odvisen od tega, kaj se nam zdi pomembnejše.".

Grozdna analiza je našla najširšo uporabo v sodobni znanosti. Žal bi bilo v pomembnem delu tistih primerov, ko se uporablja, bolje uporabiti druge metode. Vsekakor pa morajo biologi jasno razumeti osnovno logiko grozdne analize in le v tem primeru jo bodo lahko uporabili v tistih primerih, ko je ustrezna, in ne, ko je izbira druge metode optimalna.

8.2. Primer izvajanja analize grozdov "na prstih"

Za ponazoritev tipične logike analize grozdov si oglejte ilustrativni primer. Razmislite o nizu 6 predmetov (označenih s črkami), za katere je značilno 6 atributov najpreprostejše vrste: alternativa, ki ima enega od dveh pomenov: značilnost (+) in neznačilno (-). Opis predmetov na podlagi sprejetih lastnosti se imenuje "pravokotna" matrika. V našem primeru govorimo o matriki 6 × 6, t.j. lahko se šteje za precej "kvadratnega", vendar v splošnem primeru število predmetov v analizi morda ni enako številu značilnosti, "pravokotna" matrika pa ima lahko različno število vrstic in stolpcev. Torej, nastavimo " pravokotna "matrika (matrika objektov/funkcij):

Izbira objektov in njihov opis glede na določen nabor atributov ustrezata prvima dvema stopnjama analize grozdov. Naslednji korak je izdelava matrike podobnosti ali razlik ("kvadratna" matrika, matrika objektov/objektov). Če želite to narediti, moramo izbrati metriko. Ker je naš primer pogojen, je smiselno izbrati najpreprostejšo metriko. Kako najlažje določiti razdaljo med predmetoma A in B? Preštejte število razlik med njimi. Kot lahko vidite, se predmeta A in B razlikujeta po lastnostih 3 in 5, zato razdalja med tema dvema objektoma ustreza dvema enotama.

S pomočjo te metrike konstruiramo " kvadratna "matrika (matrika predmetov/predmetov). Kot lahko enostavno preverite, je takšna matrika sestavljena iz dveh simetričnih polovic in lahko izpolnite samo eno od teh pol:

V tem primeru smo zgradili matriko razlik. Matrica podobnosti bi bila videti podobno, le da bi bila na vsakem položaju vrednost, enaka razliki med največjo razdaljo (6 enot) in razliko med objekti. Za par A in B bi bila podobnost seveda 4 enote.

Katera dva predmeta sta si najbližje? B in F se razlikujeta samo v enem pogledu. Bistvo analize grozdov je združevanje podobnih objektov v gručo. Objekta B in F združimo v gručo (BF). Pokažimo to na diagramu. Kot lahko vidite, so predmeti združeni na ravni, ki ustreza razdalji med njimi.

riž. 8.2.1. Prvi korak združevanja pogojnega nabora 6 predmetov

Zdaj nimamo šest predmetov, ampak pet. Obnova "kvadratne" matrike. Da bi to naredili, moramo določiti, kakšna je razdalja od posameznega predmeta do grozda. Oddaljenost od A do B je bilo 2 enoti, A do F pa 3 enote. Kakšna je razdalja od A do (Bf)? Ni pravilnega odgovora. Tukaj si oglejte, kako se ti trije predmeti nahajajo drug glede na drugega.

riž. 8.2.2. Relativni položaj treh predmetov

Morda je razdalja od predmeta do skupine razdalja od predmeta do predmeta, ki mu je najbližji kot del skupine, t.j.│A (BF) │ = │AB │? Ta logika se ujema združevanje z največjo podobnostjo.

Ali pa je morda razdalja od predmeta do skupine razdalja od predmeta do predmeta, ki je od njega najbolj oddaljen kot del skupine, t.j.│A (BF) │ = │AF │? Ta logika se ujema združevanje z minimalno podobnostjo.

Predvidevate lahko tudi, da je razdalja od predmeta do skupine aritmetično povprečje razdalj od tega predmeta do vsakega od predmetov v skupini, t.j. to je │A (BF) │ = (│AB │ + │AF │) / 2. Ta rešitev se imenuje združevanje po povprečni podobnosti.

Vse tri rešitve in precejšnje število drugih rešitev, ki tukaj niso opisane, so pravilne. Naša naloga je izbrati rešitev, ki je primernejša za kategorijo, v katero spadajo naši podatki. Združevanje z največjo podobnostjo na koncu vodi v dolge, "traku podobne" grozde. Najmanj - do razdrobljenosti skupin. Pri izbiri med tremi opisanimi možnostmi se v biologiji pogosteje uporablja adherenca po srednji podobnosti. Uporabljali ga bomo tudi mi. V tem primeru bo po prvem koraku združevanja v skupine "kvadratna" matrika videti takole.

Zdaj je najbližji par predmetov D in E. Kombinirajmo tudi njih.

riž. 8.2.3. Drugi korak združevanja pogojnega nabora 6 predmetov

Znova zgradimo "kvadratno" matriko za štiri objekte.

Vidimo, da obstajata dve možnosti za združevanje na ravni 2.5: združevanje A do (BF) in spajanje (BF) do (DE). Katerega bi morali izbrati?

Imamo različne možnosti, kako narediti to izbiro. Lahko se zgodi po naključju. Lahko vzamete nekakšno formalno pravilo, ki vam omogoča izbiro. In lahko vidite, katera od rešitev bo dala najboljšo možnost združevanja v grozde. Uporabimo zadnjo možnost. Najprej uporabimo prvo možnost.

riž. 8.2.4. Prva varianta tretjega koraka združevanja pogojnega niza 6 predmetov

Če izberemo to možnost, bi morali zgraditi takšno "kvadratno" matriko 3 × 3.

Če bi izbrali drugo možnost tretjega koraka, bi dobili naslednjo sliko.

riž. 8.2.5. Druga različica tretjega koraka združevanja pogojnega nabora 6 predmetov

Ustreza naslednji matriki 3 × 3:

Dobljene matrike 3 × 3 lahko primerjamo, da zagotovimo, da je pri drugi možnosti doseženo bolj kompaktno združevanje predmetov. Pri izdelavi klasifikacije objektov z uporabo gručaste analize si moramo prizadevati za identifikacijo skupin, ki združujejo podobne objekte. Večja kot je podobnost predmetov v skupinah, boljša je ta klasifikacija. Zato za tretji korak združevanja izberemo drugo možnost. Seveda bi lahko naredili naslednje korake (in prvo možnost razdelili na še dve podmožnosti), vendar bi na koncu poskrbeli, da je najboljša možnost za tretji korak združevanja ravno tista, prikazana na sl. 8.5. Zadržujemo se na tem.

V tem primeru je naslednji korak združevanje predmetov. A in C, prikazani na sl. 8.6.

riž. 8.2.6. Četrti korak združevanja v skupine

Zgradimo matriko 2 × 2:

Zdaj ni kaj izbrati. Združimo dva preostala grozda na zahtevani ravni. V skladu s sprejetim slogom gradnje grozdovskih "dreves" bomo dodali "deblo", ki sega do nivoja največje možne razdalje med objekti za dani niz lastnosti.

riž. 8.2.7. Peti in zadnji korak združevanja v grozde

Nastala slika je drevesni graf (zbirka vozlišč in povezav med njimi). Ta graf je sestavljen tako, da se črte, ki ga tvorijo, sekajo (ta presečišča smo prikazali kot "mostove"). Brez spreminjanja narave povezave med objekti je mogoče graf ponovno zgraditi tako, da v njem ni presečišč. Te so narejene na sl. 8.2.8.

riž. 8.2.8. Končni pogled drevesnega grafa, pridobljen kot rezultat združevanja v skupine

Grozdna analiza našega pogojnega primera je zdaj končana. Samo razumeti moramo, kaj imamo.

8.3. Glavne omejitve in slabosti analize grozdov

Kako razlagati graf, prikazan na sl. 8.2.8? Dokončnega odgovora ni. Če želite odgovoriti na to vprašanje, morate razumeti, katere podatke in za kakšen namen smo združili. "Na površju" je sklep, da smo registrirali, da je prvotni niz 6 predmetov sestavljen iz treh parov. Če pogledamo dobljeni graf, je o tem težko dvomiti. Vendar, ali je ta sklep resničen?

Vrnite se na čisto prvo "kvadratno" matriko 6 × 6 in se prepričajte, da je bil predmet E na razdalji dveh enot tako od predmeta D kot od predmeta F. Podobnost E in D v nastalem "drevu" se odraža, vendar dejstvo, da je bil predmet E prav tako blizu predmeta F - izgubljen brez sledu! Kako je to mogoče razložiti?

Kot rezultat grozdenja, ki je prikazano na sl. 8.2.8, podatkov o razdalji sploh ni│EF │, obstajajo samo podatki o razdaljah │DE │ in │ (BF) (DE) │!

Vsaka "pravokotna" matrika v primeru, ko je izbrana določena metrika in način pritrditve, obstaja ena in edina "kvadratna" matrika. Vendar pa lahko vsaka "kvadratna" matrika ustreza številnim "pravokotnim" matrikam. Po vsakem koraku analize vsaka predhodna "kvadratna" matrika ustreza naslednji, vendar na podlagi naslednjega nismo mogli obnoviti prejšnje. To pomeni, da se na vsakem koraku analize grozdov del informacij o raznolikosti začetnega niza objektov nepovratno izgubi.

Ta okoliščina je ena od resnih pomanjkljivosti analize grozdov.

V članku je omenjena še ena zahrbtna pomanjkljivost analize grozdov.

Podobni članki

2022 ap37.ru. vrt. Okrasni grmi. Bolezni in škodljivci.