Primjer korištenja STATISTICA klaster analize u auto osiguranju. Klaster analiza je studija dijeljenja skupa objekata u homogene grupe Klasterska analiza velike količine informacija

Random Forest je jedan od mojih omiljenih algoritama za rudarenje podataka. Prvo, nevjerovatno je svestran; može se koristiti za rješavanje problema regresije i klasifikacije. Potražite anomalije i odaberite prediktore. Drugo, ovo je algoritam koji je zaista teško pogrešno primijeniti. Jednostavno zato što, za razliku od drugih algoritama, ima nekoliko parametara koji se mogu konfigurirati. Takođe je iznenađujuće jednostavan u svojoj srži. I u isto vrijeme, izuzetan je po svojoj preciznosti.

Koja je ideja iza tako divnog algoritma? Ideja je jednostavna: recimo da imamo neki vrlo slab algoritam, recimo. Ako napravimo mnogo različitih modela koristeći ovaj slab algoritam i usredsredimo rezultat njihovih predviđanja, onda će konačni rezultat biti mnogo bolji. Ovo je takozvani ansambl trening u akciji. Algoritam Random Forest se stoga naziva "Random Forest", jer dobijeni podaci stvaraju mnoga stabla odlučivanja, a zatim usrednjuju rezultat njihovih predviđanja. Važna stvar ovdje je element slučajnosti u stvaranju svakog stabla. Na kraju krajeva, jasno je da ako stvorimo mnogo identičnih stabala, onda će rezultat njihovog usrednjavanja imati tačnost jednog stabla.

Kako on radi? Pretpostavimo da imamo neke ulazne podatke. Svaka kolona odgovara nekom parametru, svaki red odgovara nekom elementu podataka.

Možemo nasumično odabrati određeni broj kolona i redova iz cijelog skupa podataka i na osnovu njih izgraditi stablo odlučivanja.


Četvrtak, 10.05.2012

Četvrtak, 12. januara 2012


To je sve. Let od 17 sati je završen, Rusija je ostala u inostranstvu. A kroz prozor udobnog dvosobnog stana San Francisco, poznata Silicijumska dolina, Kalifornija, SAD gleda nas. Da, to je upravo razlog zašto u posljednje vrijeme praktično nisam pisao. Preselili smo se.

Sve je počelo u aprilu 2011. godine kada sam radio telefonski intervju u Zyngi. Tada je sve to izgledalo kao neka igra koja nema veze sa stvarnošću, a nisam mogao ni da zamislim šta će to rezultirati. U junu 2011. Zynga je došao u Moskvu i obavio niz intervjua, razmatrano je oko 60 kandidata koji su prošli telefonske intervjue, a odabrano je njih 15-ak (ne znam tačan broj, neko se kasnije predomislio, neko odmah odbio). Intervju se pokazao iznenađujuće jednostavnim. Bez programskih zadataka, bez škakljivih pitanja o obliku otvora, uglavnom je testirana sposobnost ćaskanja. A znanje se, po mom mišljenju, ocjenjivalo samo površno.

A onda je počeo trik. Prvo smo čekali rezultate, pa ponudu, pa LCA odobrenje, pa odobrenje peticije za vizu, pa dokumenta iz SAD, pa red u ambasadi, pa dodatna provjera, pa viza. Na momente mi se činilo da sam spreman da sve ispustim i postignem gol. Na momente sam sumnjao da li nam treba ova Amerika, uostalom, nije loše ni u Rusiji. Ceo proces je trajao oko šest meseci, tako da smo sredinom decembra dobili vize i počeli da se pripremamo za polazak.

Ponedjeljak je bio moj prvi dan na poslu. Kancelarija ima sve uslove ne samo za rad, već i za život. Doručci, ručkovi i večere od naših vlastitih kuhara, gomila raznovrsne hrane natrpane posvuda, teretana, masaža, pa čak i frizer. Sve ovo je potpuno besplatno za zaposlene. Mnogi ljudi na posao dolaze biciklima, a postoji nekoliko prostorija za odlaganje vozila. Generalno, nikada nisam naišao na nešto slično u Rusiji. Sve, međutim, ima svoju cenu, odmah smo upozoreni da ćemo morati mnogo da radimo. Šta je "puno", po njihovim standardima, nije mi baš jasno.

Međutim, nadam se da ću, uprkos količini posla, moći da nastavim sa blogovanjem u doglednoj budućnosti i možda vam kažem nešto o američkom životu i radu kao programer u Americi. Sačekaj i vidi. U međuvremenu, čestitam svima nadolazeću Novu godinu i Božić i vidimo se uskoro!


Za primjer upotrebe ispisaćemo prinos od dividendi ruskih kompanija. Kao osnovnu cijenu uzimamo cijenu na zatvaranju dionice na dan zatvaranja registra. Iz nekog razloga ove informacije nisu na stranici trojke, ali su mnogo interesantnije od apsolutnih vrijednosti dividendi.
Pažnja! Kodu je potrebno mnogo vremena da se izvrši, jer za svaku promociju potrebno je da uputite zahtjev finam serverima i dobijete njenu vrijednost.

Rezultat<- NULL for(i in (1:length(divs[,1]))){ d <- divs if (d$Divs>0) (pokušaj ((navodnici<- getSymbols(d$Symbol, src="Finam", from="2010-01-01", auto.assign=FALSE) if (!is.nan(quotes)){ price <- Cl(quotes) if (length(price)>0) (dd<- d$Divs result <- rbind(result, data.frame(d$Symbol, d$Name, d$RegistryDate, as.numeric(dd)/as.numeric(price), stringsAsFactors=FALSE)) } } }, silent=TRUE) } } colnames(result) <- c("Symbol", "Name", "RegistryDate", "Divs") result


Slično, možete izgraditi statistiku za protekle godine.

V STATISTICA implementirane klasične metode klasterske analize, uključujući metode k-meansa, hijerarhijsko grupiranje i spajanje sa dva ulaza.

Podaci mogu doći iu izvornom obliku i u obliku matrice udaljenosti između objekata.

Opažanja i varijable se mogu grupirati korištenjem različitih mjera udaljenosti (Euklid, Euklidski kvadrat, Menhetn, Čebišev, itd.) i različitih pravila za kombinovanje klastera (pojedinačna, puna veza, neponderisani i ponderisani parovi prosjek za grupe, itd.).

Formulacija problema

Originalni fajl sadrži sljedeće podatke o vozilima i njihovim vlasnicima:

Svrha ove analize je razvrstavanje automobila i njihovih vlasnika u klase, od kojih svaka odgovara određenoj rizičnoj grupi. Zapažanja koja spadaju u jednu grupu karakteriše ista verovatnoća nastanka osiguranog slučaja, koju naknadno procenjuje osiguravač.

Upotreba klaster analize za rješavanje ovog problema je najefikasnija. U opštem slučaju, klaster analiza ima za cilj da kombinuje neke objekte u klase (klastere) na način da oni najsličniji spadaju u jednu klasu, a objekti različitih klasa međusobno se što više razlikuju. Kvantitativni pokazatelj sličnosti izračunava se na zadani način na osnovu podataka koji karakterišu objekte.

Mjerna skala

Svi algoritmi klastera moraju procijeniti udaljenosti između klastera ili objekata, a jasno je da je prilikom izračunavanja udaljenosti potrebno postaviti skalu mjerenja.

Budući da različita mjerenja koriste potpuno različite vrste vaga, podatke je potrebno standardizirati (u meniju Podaci odaberite stavku Za standardizaciju), tako da će svaka varijabla imati srednju vrijednost od 0 i standardnu ​​devijaciju od 1.

Tabela sa standardiziranim varijablama je prikazana ispod.

Korak 1. Hijerarhijska klasifikacija

Prvi korak je otkriti da li automobili formiraju "prirodne" klastere koji se mogu konceptualizirati.

Hajde da izaberemo Cluster Analysis na meniju Analiza - Multivarijantna istraživačka analiza za prikaz početne ploče modula Cluster Analysis... U ovom dijalogu odaberite Hijerarhijska klasifikacija i pritisnite uredu.

Pritisnite dugme Varijable, izaberite Sve, na terenu Objekti izabrati Zapažanja (žice). Kao sindikalno pravilo, prim Način pune veze, kao mjera blizine - Euklidska udaljenost... Pritisnite uredu.

Potpuna metoda povezivanja definira udaljenost između klastera kao najveću udaljenost između bilo koje dvije karakteristike u različitim klasterima (tj. "najdaljem susjedima").

Mjera blizine, definirana euklidskom udaljenosti, je geometrijska udaljenost u n-dimenzionalnom prostoru i izračunava se na sljedeći način:

Najvažniji rezultat grupiranja stabala je hijerarhijsko stablo. Kliknite na dugme Vertikalni dendrogram.

Dijagrami stabla u početku mogu izgledati malo zbunjujuće, ali nakon nekog istraživanja postaju razumljiviji. Dijagram počinje na vrhu (za vertikalni dendrogram) sa svakim vozilom u svom klasteru.

Čim počnete da se krećete naniže, automobili koji se "bliže dodiruju" spajaju se i formiraju klastere. Svaki čvor na dijagramu iznad predstavlja uniju dva ili više klastera, položaj čvorova na vertikalnoj osi određuje udaljenost na kojoj su odgovarajući klasteri kombinovani.

Korak 2. K-znači grupiranje

Na osnovu vizuelnog prikaza rezultata može se pretpostaviti da automobili formiraju četiri prirodna klastera. Provjerimo ovu pretpostavku tako što ćemo početne podatke metodom K srednjih podijeliti u 4 klastera i provjeriti značajnost razlike između dobivenih grupa.

U početnoj ploči modula Cluster Analysis izabrati K-Means Clustering.

Pritisnite dugme Varijable i biraj Sve, na terenu Objekti izabrati Zapažanja (žice), postavite 4 klastera particije.

Metoda K-znači je kako slijedi: proračun počinje sa k nasumično odabranih opservacija (u našem slučaju k = 4), koji postaju centri grupa, nakon čega se mijenja objektni sastav klastera kako bi se minimizirala varijabilnost unutar klastera i maksimizirala varijabilnost između klastera.

Svako sljedeće opažanje (K + 1) pripada grupi čija je mjera sličnosti sa težištem minimalna.

Nakon promjene sastava klastera, izračunava se novi centar gravitacije, najčešće kao vektor srednjih vrijednosti za svaki parametar. Algoritam se nastavlja sve dok se sastav klastera ne prestane mijenjati.

Kada se dobiju rezultati klasifikacije, možete izračunati prosječnu vrijednost indikatora za svaki klaster kako biste procijenili u čemu se razlikuju jedni od drugih.

U prozoru Rezultati metode K znači izabrati ANOVA kako bi se odredila značajnost razlike između rezultirajućih klastera.

Dakle, vrijednost p<0.05, что говорит о значимом различии.

Pritisnite dugme Elementi klastera i udaljenosti da vidite zapažanja uključena u svaki od klastera. Opcija vam također omogućava da prikažete euklidske udaljenosti objekata od centara (srednje vrijednosti) njihovih odgovarajućih klastera.

Prvi klaster:

Drugi klaster:

Treći klaster:

Četvrti klaster:

Dakle, u svakom od četiri klastera postoje objekti sa sličnim uticajem na proces gubitaka.

Korak 3. Deskriptivna statistika

Poznavanje deskriptivne statistike u svakoj grupi je svakako neophodno za svakog istraživača.

Cluster Analysis pojavio se relativno nedavno - 1939. godine. To je predložio naučnik K. Trion. Doslovno izraz "cluster" u prijevodu sa engleskog "cluster" znači četkica, hrpa, snop, grupa.

Posebno brz razvoj klaster analize dogodio se 60-ih godina prošlog vijeka. Preduvjeti za to bili su pojava brzih kompjutera i prepoznavanje klasifikacija kao temeljne metode naučnog istraživanja.

Klaster analiza je metoda multivarijatnog statističkog istraživanja, koja uključuje prikupljanje podataka koji sadrže informacije o objektima uzorka i njihovo sređivanje u relativno homogene, slične grupe.

Dakle, suština klaster analize leži u implementaciji klasifikacije objekata istraživanja korištenjem brojnih računskih postupaka. Kao rezultat, formiraju se "klasteri" ili grupe vrlo sličnih objekata. Za razliku od drugih metoda, ova vrsta analize omogućava klasifikaciju objekata ne prema jednom atributu, već prema nekoliko istovremeno. Za to se uvode odgovarajući indikatori koji karakterišu određeni stepen blizine svih parametara klasifikacije.

Svrha klaster analize je traženje postojećih struktura, izraženih u formiranju grupa sličnih objekata – klastera. Istovremeno, njegovo djelovanje leži u uvođenju strukture u objekte koji se proučavaju. To znači da su tehnike grupiranja potrebne za identifikaciju obrazaca u podacima koje nije lako pronaći vizuelnom inspekcijom ili uz pomoć stručnjaka.

Glavni zadaci klaster analize su:

Izrada tipologije ili klasifikacije objekata koji se proučavaju;

Istraživanje i utvrđivanje prihvatljivih konceptualnih shema za grupisanje objekata;

Izrada hipoteza na osnovu rezultata data mininga;

Testiranje hipoteze da li se tipovi (grupe) koji su identifikovani na određeni način nalaze u dostupnim podacima.

Klaster analiza zahtijeva sljedeće uzastopne korake:

1) vršenje selekcije objekata za grupisanje;

2) određivanje skupa karakteristika po kojima će se vrednovati odabrani objekti;

3) procenu stepena sličnosti objekata;

4) korišćenje klaster analize za kreiranje grupa sličnih objekata;

5) provjeru pouzdanosti rezultata klaster rješenja.

Svaki od ovih koraka igra značajnu ulogu u praktičnoj implementaciji analize.

Određivanje skupa karakteristika koje su osnova za evaluaciju objekata () u klaster analizi jedan je od najvažnijih istraživačkih zadataka. Cilj ovog koraka bi trebao biti određivanje skupa varijabilnih atributa koji najbolje odražava koncept sličnosti. Ove karakteristike moraju biti odabrane uzimajući u obzir teorijske odredbe koje su u osnovi klasifikacije, kao i svrhu studije.

Prilikom određivanja mjere sličnosti objekata klaster analize koriste se četiri vrste koeficijenata: koeficijenti korelacije, indikatori udaljenosti, asocijativnost i vjerovatnost koeficijenti, koeficijenti sličnosti. Svaki od ovih pokazatelja ima svoje prednosti i nedostatke, koje se prvo moraju uzeti u obzir. U praksi su najrasprostranjeniji u oblasti društvenih i ekonomskih nauka koeficijenti korelacije i udaljenosti.

Kao rezultat analize skupa ulaznih podataka, stvaraju se homogene grupe na način da su objekti unutar ovih grupa međusobno slični po nekom kriteriju, a objekti iz različitih grupa međusobno se razlikuju.

Grupiranje se može obaviti na dva glavna načina, uključujući korištenje hijerarhijskih ili iterativnih procedura.

Hijerarhijske procedure- uzastopne akcije za formiranje klastera različitih rangova, međusobno podređenih prema jasno utvrđenoj hijerarhiji. Najčešće hijerarhijske procedure

izvršeno aglomerativnim (ujedinjavajućim) akcijama. Oni obezbeđuju sledeće operacije:

Sekvencijalna kombinacija sličnih objekata sa formiranjem matrice sličnosti objekata;

Konstrukcija dendrograma (dijagram stabla), koji odražava sekvencijalnu kombinaciju objekata u klastere;

Formiranje odvojenih klastera za proučavani skup u prvoj početnoj fazi analize i kombinovanje svih objekata u jednu veliku grupu u završnoj fazi analize.

Iterativne procedure se sastoje u formiranju primarnih podataka na jednom nivou (istog ranga) hijerarhijski međusobno nepodređenih klastera.

Više od četrdeset godina, metoda k-means (koju je 1967. razvio J. McQueen) je jedna od najrasprostranjenijih metoda izvođenja iterativnih procedura. Njegova primjena zahtijeva sljedeće korake:

Podjela početnih podataka proučavane populacije na zadati broj klastera

Proračun multidimenzionalnih srednjih vrijednosti (centra gravitacije) odabranih klastera

Izračunavanje euklidske udaljenosti svake jedinice skupa definisanih centara privlačenja klastera i konstrukcija matrice udaljenosti na osnovu metrike udaljenosti. Koriste se različite metrike udaljenosti, na primjer, Euklidska udaljenost (jednostavna i ponderirana), Manhattan, Chebyshev, Minkowski, Mahalonobis i slično;

Određivanje novih centi privlačnosti i novih klastera.

Najpoznatije i široko korištene metode

formiranje klastera su:

Pojedinačna komunikacija;

Potpuna komunikacija;

Srednja komunikacija;

Wardova metoda.

Metoda jedne veze (metoda bliskog susjeda) omogućava pridruživanje jedinice populacije klasteru ako je bliska (na istom nivou sličnosti) barem jednom predstavniku ovog klastera.

Metoda potpune komunikacije (udaljeni susjed) zahtijeva određeni nivo sličnosti objekta (ne manji od graničnog nivoa), on bi trebao biti uključen u klaster, sa bilo kojim drugim.

Prosječni način povezivanja zasniva se na korištenju prosječne udaljenosti između kandidata za uključivanje u klaster i predstavnika postojećeg klastera.

Prema Wardovoj metodi, objekti se spajaju u klastere u slučaju minimalnog povećanja unutargrupnog zbira kvadrata odstupanja. Zbog toga se formiraju klasteri približno iste veličine, koji imaju oblik hipersfere.

Klaster analiza, kao i druge metode za proučavanje stohastičke komunikacije, zahtijeva brojne složene proračune, bolje je izvršiti korištenjem modernih informacionih sistema, uključujući korištenje softverskog proizvoda Statistica 6.0.

Istraživači koriste klaster analizu u različitim studijama, na primjer, kada proučavaju nivo blagostanja stanovništva zemalja ZND (A. Miroshnichenko). Prvo, za to je odabrano 16 statističkih glavnih socio-ekonomskih pokazatelja koji karakteriziraju životni standard građana u različitim zemljama ZND:

1) BDP po glavi stanovnika, USD SAD;

2) prosečne mesečne nominalne zarade, rus. rub.;

3) prosečna mesečna penzija, rus. rub.;

6) učešće izdataka za kupovinu prehrambenih proizvoda u potrošačkim izdacima domaćinstava, procenat;

7) potrošnja mesa i mesnih prerađevina u proseku godišnje po osobi, kg;

8) iznos pšeničnog hleba koji se mogao kupiti za iznos prosečnog mesečnog novčanog primanja (po licu), kg;

9) opšta stopa fertiliteta (na 1000 stanovnika);

10) stopa smrtnosti novorođenčadi (umrli djece mlađe od jedne godine na 1000 rođenih)

11) broj zaposlenih u procentima od ekonomski aktivnog stanovništva;

12) stambeno zbrinjavanje stanovništva u proseku (po osobi), m2 ukupne površine;

13) broj oboljelih od malignih neoplazmi (na 100.000 stanovnika), lica;

14) broj registrovanih krivičnih dela (na 100.000 stanovnika), jedinice;

15) emisije štetnih materija u atmosferu iz stacionarnih izvora zagađivanja (po stanovniku), kg;

16) posete muzejima u proseku godišnje (na 1000 stanovnika), jed (Tabela 12.7).

Analiza kratera se vrši na osnovu uporedivih i jednosmjernih indikatora. Dakle, indikatore ulazne matrice prvo treba standardizovati. Jedna od uobičajenih metoda za heterogene populacije (posebno u našem primjeru) je standardizacija indikatora omjerom odstupanja - a prema jedinici standardizacije q. U ovom slučaju, jedinica standardizacije će biti stvarni raspon varijacije.

Štaviše, kao što je prikazano u naučnim radovima ekonomista AM Erina i S.S. Vaschaev, za indikatore se uzimaju stimulansi, dok se za indikatore uzimaju destimulatori. Na osnovu toga, standardizirane vrijednosti indikatora se izračunavaju pomoću formula:

Za indikatore stimulansi :;

Za indikatori-destimulatori:

gdje je standardizirana vrijednost i-ro indikatora za y-tu jedinicu populacije;

Ulazna vrijednost i-tog indikatora za j-tu jedinicu populacije.

Rezultirajući standardizirani ulazi prikazani su u tabeli 12.8.

Azerbejdžan

Bjelorusija

Kazahstan

Kirgistan

Tadžikistan

Tabela 12.8. Standardizirana ulazna matrica

Azerbejdžan

Bjelorusija

Kazahstan

Kirgistan

Tadžikistan

Sljedeći korak u klaster analizi trebao bi biti konstrukcija matrice udaljenosti, koja pretpostavlja, prije svega, izbor metrike udaljenosti. U praksi se koriste različite metrike udaljenosti: Euklidska, ponderirana Euklidska, Manhattan, Chebyshev, Minkowski, Mahalonobis D 2, itd. U ovom slučaju, raspodjela zemalja ZND u grupe može se izvršiti korištenjem udaljenosti Manhattan. Izračunava se po formuli

,

gdje su i standardizirana vrijednost i-tog indikatora j-te i k-te jedinice populacije.

Na osnovu odabrane mjere udaljenosti moguće je konstruirati simetričnu matricu udaljenosti između zemalja ZND (tabela 12.9).

zemlje ZND

Azerbejdžan

Bjelorusija

Kazahstan

Kirgistan

Tadžikistan

Azerbejdžan

Bjelorusija

Kazahstan

Kirgistan

Tadžikistan

Sljedeća faza analize je izbor metode za objedinjavanje zemalja ZND u klastere. Kao što je već napomenuto, najčešće metode grupisanja su:

Pojedinačna komunikacija;

Potpuna komunikacija;

Srednja komunikacija;

Wardova metoda.

Koristićemo Wardovu metodu, koja minimizira varijansu unutar grupe unutar klastera. Prema ovoj metodi, spajanje objekata u klastere vrši se uz minimalno povećanje unutargrupnog zbira kvadrata odstupanja. To doprinosi formiranju klastera približno iste veličine, koji su u obliku hipersfere. Dendrogram rezultata klaster analize prikazan je na slici 12.5.

Rice. 12.5. Dendrogram rezultata klaster analize zemalja ZND prema životnom standardu stanovništva

Kao što se može vidjeti sa slike, vertikalna os dendrograma odražava zemlje ZND, a horizontalna je udaljenost unije.

Da bi se odredio optimalan broj klastera, potrebno je izgraditi graf liste kombinovanja regiona Ukrajine u klastere, crtanje udaljenosti na njenoj vertikalnoj osi i korak spajanja na horizontalnoj osi (slika 12.6) .

Rice. 12.6. Raspored liste ujedinjenja zemalja ZND u klastere

Kao što vidite, optimalna, prema utvrđenim zahtjevima optimalnosti, je podjela zemalja ZND prema životnom standardu stanovništva u tri klastera. Imajte na umu da se smatra da je optimalan broj klastera jednak razlici između broja posmatranja (u našem primjeru, 9) i broja koraka nakon kojih udaljenost sjedišta naglo raste (u našem primjeru 6).

Tako su zemlje ZND podijeljene u tri klastera. Prvi klaster obuhvata Azerbejdžan i Tadžikistan, drugi - Belorusiju, Ukrajinu, Rusiju i Kazahstan, a treći - Jermeniju, Moldaviju i Kirgistan.

Metodom k-means izračunate su prosječne vrijednosti indikatora za svaki od tri klastera (slika 12.7).

Rice. 12.7. Prosječne vrijednosti indikatora za svaki klaster

Kao što je prikazano na sl. 12.7, prije prvog klastera, postoje zemlje u kojima su prosječne vrijednosti osam indikatora niže nego u drugim klasterima.

Tako Azerbejdžan i Tadžikistan, koji pripadaju prvom klasteru, imaju nizak BDP po stanovniku, prosječne mjesečne plate (nominalne), penzije, potrošnju mesa i mesnih prerađevina i stanovanje. Međutim, u ovim zemljama su viši i drugi proseci, a posebno: indeks ulaganja u osnovna sredstva, indeks potrošačkih cena i natalitet.

Zemlje koje spadaju u drugi klaster odlikuju se visokim parametrima ekonomske komponente životnog standarda, ali, nažalost, niskom stopom nataliteta, visokom učestalošću malignih neoplazmi, kriminalom, velikim emisijama štetnih materija u atmosferu iz stacionarnih izvora zagađenja, što potvrđuju i odgovarajući indikatori.

Zemlje trećeg klastera karakterišu niski pokazatelji: indeks ulaganja u osnovna sredstva, stepen zaposlenosti u javnoj privredi, registrovana krivična dela, što ukazuje na njihovu nisku investicionu atraktivnost i značajnu nezaposlenost.

Dakle, klaster analiza je, prema naučnicima, od velike važnosti u provođenju analitičkih istraživanja zbog mogućnosti pretvaranja velike količine raznovrsnih informacija u uređenu, kompaktnu formu. Ovo doprinosi povećanju nivoa vidljivosti, jasnoće i percepcije rezultata analize, a takođe stvara osnovu za predviđanje.

Postoje dva glavna tipa klaster analize u statistici (obe predstavljene u SPSS): hijerarhijska i k-srednje vrednosti. U prvom slučaju, automatizirana statistička procedura samostalno određuje optimalan broj klastera i niz drugih parametara potrebnih za klaster

analiza. Druga vrsta analize ima značajna ograničenja u svojoj praktičnoj primjenjivosti - za nju je potrebno samostalno odrediti tačan broj identificiranih klastera, te početne vrijednosti centara svakog klastera (centroida) i neke druge statistike. Prilikom analize metodom k-means, ovi problemi se rješavaju preliminarnim izvođenjem hijerarhijske analize klastera, a zatim, na osnovu njenih rezultata, izračunavanjem modela klastera metodom k-means, koja u većini slučajeva ne samo da ne pojednostavljuje, već naprotiv, otežava rad istraživača (posebno neobučenog).

Generalno, možemo reći da je zbog činjenice da je hijerarhijska analiza klastera veoma zahtevna za resurse računarskog hardvera, u SPSS uvedena klasterska analiza metodom k-means za obradu veoma velikih skupova podataka, koji se sastoje od više hiljada opservacija (ispitanici ), pod uslovima nedovoljne snage računarske opreme 1. Veličine uzoraka koji se koriste u marketinškim istraživanjima u većini slučajeva ne prelaze četiri hiljade ispitanika. Praksa marketinških istraživanja pokazuje da je prva vrsta klaster analize – hijerarhijska – koja se preporučuje za upotrebu u svim slučajevima kao najrelevantnija, univerzalna i tačna. Istovremeno, treba naglasiti da je prilikom provođenja klaster analize važno odabrati relevantne varijable. Ova napomena je veoma važna, jer uključivanje nekoliko ili čak jedne irelevantne varijable u analizu može dovesti do neuspeha celokupne statističke procedure.

Metodologiju za provođenje klaster analize opisaćemo na sljedećem primjeru iz prakse marketing istraživanja.

Početni podaci:

U toku studije intervjuisano je 745 putnika koji su leteli jednom od 22 ruske i strane avio-kompanije. Od putnika u avionu je zatraženo da ocijene na skali od pet tačaka - od 1 (veoma loše) do 5 (odlično) - sedam parametara rada zemaljskog osoblja avio-kompanija tokom procesa prijave: ljubaznost, profesionalnost, efikasnost, spremnost pomoć, kontrola redova, izgled, radni kadar uopšte.

Obavezno:

Segmentirajte proučavane aviokompanije prema nivou kvaliteta rada zemaljskog osoblja koji percipiraju putnici u avionu.

Dakle, imamo datoteku podataka koja se sastoji od sedam intervalnih varijabli koje označavaju ocjene kvaliteta zemaljskog osoblja raznih aviokompanija (ql3-ql9), predstavljene na jednoj skali od pet tačaka. Datoteka sa podacima sadrži jednovarijantnu varijablu q4 koja označava aviokompanije koje su ispitanici odabrali (ukupno 22 imena). Provest ćemo klaster analizu i utvrditi na koje ciljne grupe se mogu podijeliti podaci o avio kompanijama.

Hijerarhijska klaster analiza se provodi u dvije faze. Rezultat prve faze je broj klastera (ciljnih segmenata) na koje treba podijeliti ispitani uzorak ispitanika. Procedura klaster analize kao takva nije

može samostalno odrediti optimalan broj klastera. Ona može samo predložiti potreban broj. Kako je problem određivanja optimalnog broja segmenata ključan, on se obično rješava u posebnoj fazi analize. U drugoj fazi vrši se stvarno grupisanje opservacija prema broju klastera koji je određen tokom prve faze analize. Pogledajmo redom ove korake klaster analize.

Procedura analize klastera se pokreće pomoću menija Analyze> Classify> Hijerarchical Cluster. U dijaloškom okviru koji se otvori, sa lijeve liste svih varijabli u datoteci podataka odaberite varijable koje su kriteriji segmentacije. U našem slučaju ih je sedam, a označavaju procjene parametara rada zemaljskog osoblja ql3-ql9 (slika 5.44). U principu, specificiranje skupa kriterijuma segmentacije će biti dovoljno da se izvrši prva faza klaster analize.

Rice. 5.44.

Podrazumevano, pored tabele sa rezultatima formiranja klastera, na osnovu koje ćemo odrediti njihov optimalan broj, SPSS prikazuje i poseban obrnuti histogram ledenicu, koji, prema rečima kreatora programa, pomaže da se odrediti optimalan broj klastera; dijagrami se prikazuju pomoću dugmeta Plots (slika 5.45). Međutim, ako ostavite ovaj parametar označen, potrošit ćemo dosta vremena na obradu čak i relativno male datoteke podataka. Pored ledenice, u prozoru Plots može se odabrati brži trakast grafikon Dendograma. Predstavljen je horizontalnim trakama koje odražavaju proces formiranja klastera. U teoriji, uz mali (do 50-100) broj ispitanika, ovaj dijagram zaista pomaže u odabiru optimalnog rješenja za potreban broj klastera. Međutim, u gotovo svim primjerima marketinških istraživanja, veličina uzorka premašuje ovu vrijednost. Dendogram postaje potpuno beskoristan, jer čak i uz relativno mali broj opažanja, to je vrlo dugačak niz brojeva linija izvorne datoteke podataka, povezanih horizontalnim i vertikalnim linijama. Većina SPSS udžbenika sadrži primjere klaster analize na takvim umjetnim, malim uzorcima. U ovom vodiču pokazujemo vam kako da najefikasnije radite sa SPSS-om u praktičnom okruženju i koristeći pravo istraživanje tržišta kao primjer.

Rice. 5.45.

Kao što smo utvrdili, u praktične svrhe, ni ledenica ni dendogram nisu prikladni. Stoga se preporučuje da se dijagrami ne prikazuju u glavnom dijaloškom okviru Hijerarhijska analiza klastera tako što ćete poništiti izbor zadane opcije Plots u području prikaza, kao što je prikazano na Sl. 5.44. Sada je sve spremno za izvođenje prve faze klaster analize. Započnite proceduru klikom na dugme OK.

Nakon nekog vremena, rezultati će se pojaviti u prozoru SPSS Viewer. Kao što je već pomenuto, jedini značajan rezultat prve faze analize za nas će biti tabela prosečne veze (između grupa) prikazana na Sl. 5.46. Na osnovu ove tabele moramo odrediti optimalan broj klastera. Treba napomenuti da ne postoji jedinstvena univerzalna metoda za određivanje optimalnog broja klastera. U svakom konkretnom slučaju, istraživač mora sam odrediti ovaj broj.

Na osnovu raspoloživog iskustva, autor predlaže sljedeću shemu za ovaj proces. Prije svega, pokušajmo primijeniti najčešći standardni metod za određivanje broja klastera. Koristeći tabelu Prosječne veze (između grupa), trebali biste odrediti u kojem koraku procesa formiranja klastera (kolona Stage) dolazi do prvog relativno velikog skoka koeficijenta aglomeracije (kolona Koeficijenti). Ovaj skok znači da su prije njega opservacije koje su na prilično malim udaljenostima jedna od druge objedinjene u klastere (u našem slučaju ispitanici sa sličnim nivoom procjena za analizirane parametre), a počevši od ove faze se kombinuju udaljenija opažanja. .

U našem slučaju koeficijenti se glatko povećavaju od 0 do 7,452, odnosno razlika između koeficijenata na koracima od 1 do 728 je bila mala (na primjer, između 728 i 727 koraka - 0,534). Počevši od koraka 729, dolazi do prvog značajnog skoka koeficijenta: sa 7,452 na 10,364 (za 2,912). Korak u kojem dolazi do prvog skoka koeficijenta je 729. Sada, da bi se odredio optimalan broj klastera, potrebno je rezultujuću vrijednost oduzeti od ukupnog broja opservacija (veličine uzorka). Ukupna veličina uzorka u našem slučaju je 745 ljudi; stoga je optimalan broj klastera 745-729 = 16.


Rice. 5.46.

Dobili smo prilično veliki broj klastera, koje će biti teško protumačiti u budućnosti. Stoga je sada potrebno istražiti nastale klastere i utvrditi koji su od njih značajni, a koji pokušati smanjiti. Ovaj zadatak se rješava u drugoj fazi klaster analize.

Otvorite glavni dijaloški okvir procedure analize klastera (meni Analiza> Klasificiraj> Hijerarhijski klaster). U polju za analizirane varijable već imamo sedam parametara. Kliknite na dugme Sačuvaj. Okvir za dijalog koji se otvara (slika 5.47) omogućava vam da kreirate novu varijablu u izvornoj datoteci podataka koja distribuira ispitanike u ciljne grupe. Odaberite parametar Single Solution i navedite u odgovarajućem polju potreban broj klastera - 16 (određeno u prvoj fazi analize klastera). Klikom na dugme Nastavi vraća se na glavni dijalog box, u kojem kliknite na dugme OK da biste započeli proceduru analize klastera.

Prije nego što nastavite s opisom procesa klaster analize, potrebno je dati kratak opis ostalih parametara. Među njima ima i korisnih prilika i zapravo suvišnih (sa stanovišta praktičnih marketinških istraživanja). Na primjer, glavni dijaloški okvir za analizu hijerarhijskih klastera sadrži polje Označi slučajeve prema, u koje opciono možete postaviti tekstualnu varijablu koja identificira ispitanike. U našem slučaju, za ove svrhe može poslužiti varijabla q4, koja kodira aviokompanije koje su ispitanici odabrali. U praksi, teško je doći do racionalnog objašnjenja za korištenje Label Cases po polju, tako da ga uvijek možete ostaviti praznim.

Rice. 5.47.

Klaster analiza rijetko koristi dijalog Statistics, koji se poziva istoimenim gumbom u glavnom dijaloškom okviru. Omogućava SPSS Vieweru da prikaže tabelu članstva u klasteru, koja svakog ispitanika u izvornom fajlu podataka preslikava na broj klastera. Uz dovoljno veliki broj ispitanika (u gotovo svim primjerima marketinških istraživanja), ova tabela postaje potpuno beskorisna, jer se radi o dugačkom nizu parova vrijednosti "broj ispitanika/broj klastera", koji se ne može tumačiti u ovom obliku. . Tehnički cilj klaster analize je uvijek kreiranje dodatne varijable u datoteci podataka koja odražava podelu ispitanika na ciljne grupe (klikom na dugme Sačuvaj u glavnom dijaloškom okviru klaster analize). Ova varijabla, zajedno sa brojevima ispitanika, je tabela članstva u klasteru. Jedini praktično koristan parametar u prozoru Statistike je izlaz tabele Prosječne veze (između grupa), ali je već postavljen po defaultu. Stoga je korištenje dugmeta Statistike i prikazivanje zasebne tabele članstva u klasteru u SPSS Viewer-u nepraktično.

Dugme Plots je već spomenuto gore: treba ga deaktivirati poništavanjem odabira parametra Plots u glavnom dijaloškom okviru klaster analize.

Pored ovih retko korišćenih karakteristika procedure klaster analize, SPSS nudi i veoma korisne parametre. Među njima, prije svega, dugme Sačuvaj, koje vam omogućava da kreirate novu varijablu u originalnoj datoteci podataka koja distribuira ispitanike u klastere. Takođe u glavnom dijalog box-u postoji oblast za izbor objekta grupisanja: ispitanika ili varijabli. Ova karakteristika je razmatrana gore u odjeljku 5.4. U prvom slučaju, klaster analiza se koristi uglavnom za segmentiranje ispitanika prema nekim kriterijumima; u drugom, svrha klaster analize je slična faktorskoj analizi: klasifikacija (smanjenje broja) varijabli.

Kao što se vidi sa sl. 5.44, jedina nerazmatrana mogućnost klaster analize je dugme za izbor metode za sprovođenje statističke procedure Metoda. Eksperimenti sa ovim parametrom vam omogućavaju da postignete veću tačnost u određivanju optimalnog broja klastera. Opšti prikaz ovog dijaloškog okvira sa zadanim parametrima prikazan je na Sl. 5.48.

Rice. 5.48.

Prva stvar koja se postavlja u ovom prozoru je način formiranja klastera (tj. kombinovanje posmatranja). Među svim mogućim statističkim metodama koje nudi SPSS, odaberite ili zadanu metodu povezivanja između grupa ili Wardova (Wardova metoda). Prva metoda se češće koristi zbog svoje svestranosti i relativne jednostavnosti statističke procedure na kojoj se koristi. Kada se koristi ova metoda, udaljenost između klastera se izračunava kao prosječna vrijednost udaljenosti između svih mogućih parova posmatranja, pri čemu u svakoj iteraciji učestvuje jedno posmatranje iz jednog klastera, a drugo iz drugog. zapažanja Wardova metoda je teža za razumijevanje i koristi se rjeđe. Sastoji se od više faza i zasniva se na usrednjavanju vrijednosti svih varijabli za svako opažanje i zatim zbrajanju kvadrata udaljenosti od izračunatih srednjih vrijednosti do svakog opažanja. Za nove studije preporučujemo da uvijek koristite zadanu metodu povezivanja između grupa.

Nakon odabira procedure statističkog grupisanja, morate odabrati metodu za izračunavanje udaljenosti između opservacija (područje mjerenja u dijaloškom okviru Metoda). Postoje različite metode za određivanje udaljenosti za tri tipa varijabli uključenih u klaster analizu (kriterijumi segmentacije). Ove varijable mogu imati intervalnu (intervalnu), nominalnu (broj) ili dihotomnu (binarnu) skalu. Dihotomna skala (binarna) podrazumijeva samo varijable koje odražavaju pojavu/nenastanak događaja (kupljeno/nije kupljeno, da/ne, itd.). Druge vrste dihotomnih varijabli (npr. muško/žensko) treba uzeti u obzir i analizirati kao nominalne (broj).

Najčešće korištena metoda za određivanje udaljenosti za intervalne varijable je Euklidska udaljenost na kvadrat, koja je zadana. Upravo se ova metoda etablirala u marketinškim istraživanjima kao najpreciznija i najsvestranija. Međutim, za dihotomne varijable gdje su opažanja predstavljena sa samo dvije vrijednosti (na primjer, 0 i 1), ova metoda nije prikladna. Činjenica je da uzima u obzir samo interakcije između opažanja tipa: X = 1, Y = 0 i X = 0, Y = l (gdje su X i Y varijable) i ne uzima u obzir druge vrste interakcija. Najsveobuhvatnija mjera udaljenosti, uzimajući u obzir sve važne tipove interakcija između dvije dihotomne varijable, je Lambda metoda. Preporučujemo korištenje ove posebne metode zbog njene svestranosti. Međutim, postoje i druge metode, kao što su Shape, Hamann ili Anderbergsov D.

Prilikom navođenja metode za određivanje udaljenosti za dihotomne varijable u odgovarajućem polju, morate navesti specifične vrijednosti koje proučavane dihotomne varijable mogu uzeti: u polju Prisutno - kodiranje odgovora Da, au polju Odsutno - br. Nazivi polja su prisutni i odsutni povezani sa činjenicom da grupa binarnih metoda treba da koristi samo dihotomne varijable koje odražavaju pojavu/nenastanak događaja. Postoji nekoliko metoda za određivanje udaljenosti za dvije vrste varijabli Interval i Binary. Za varijable sa nominalnim tipom skale, SPSS nudi samo dvije metode: (Hi-kvadrat mjera) i (Phi-kvadrat mjera). Preporučujemo korištenje prve metode kao najčešće.

Dijaloški okvir Metod ima područje Transform Values ​​koje sadrži polje Standardize. Ovo polje se koristi kada su varijable s različitim tipovima skala (na primjer, intervalne i nominalne) uključene u klaster analizu. Da bi se ove varijable koristile u klaster analizi, potrebno je izvršiti standardizaciju, dovodeći ih do jedne vrste skale – intervala. Najčešći metod standardizacije varijabli je 2-standardizacija (Zscore): sve varijable se svode na jedan raspon vrijednosti od -3 do +3 i nakon transformacije su interval.

Budući da su sve najbolje metode (klasterizacija i određivanje udaljenosti) postavljene po defaultu, preporučljivo je koristiti dijaloški okvir Metoda samo za označavanje tipa analiziranih varijabli, kao i za ukazivanje na potrebu 2-standardizacije varijabli.

Dakle, opisali smo sve glavne mogućnosti koje SPSS pruža za klaster analizu. Vratimo se opisu klaster analize sprovedene u cilju segmentiranja avio kompanija. Podsjetimo da smo se odlučili na rješenje sa šesnaest klastera i kreirali novu varijablu clul6_l u originalnoj datoteci podataka, koja sve analizirane aviokompanije distribuira u klastere.

Da biste utvrdili koliko smo ispravno odredili optimalan broj klastera, konstruirajte linearnu distribuciju varijable clul6_l (meni Analiza> Deskriptivna statistika> Frekvencije). Kao što se vidi na sl. 5.49, u klasterima sa brojevima 5-16, broj ispitanika je od 1 do 7. Uz gore opisanu univerzalnu metodu za određivanje optimalnog broja klastera (na osnovu razlike između ukupnog broja ispitanika i prvog skoka). u koeficijentu aglomeracije) postoji i dodatna preporuka: veličina klastera treba da bude statistički značajna i praktično prihvatljiva. Sa našom veličinom uzorka, takva kritična vrijednost može se postaviti barem na nivo 10. Vidimo da samo klasteri sa brojevima 1-4 potpadaju pod ovaj uslov. Stoga je sada potrebno ponovo izračunati proceduru klaster analize sa izlazom rješenja od četiri klastera (kreiraće se nova varijabla du4_l).


Rice. 5.49.

Konstruisavši linearnu distribuciju preko novonastale varijable du4_l, videćemo da je samo u dva klastera (1 i 2) broj ispitanika praktično značajan. Moramo ponovo izgraditi model klastera - sada za rješenje s dva klastera. Nakon toga ćemo konstruisati distribuciju pomoću varijable du2_l (slika 5.50). Kao što se može vidjeti iz tabele, dvoklasterno rješenje ima statistički i praktično značajan broj ispitanika u svakom od dva formirana klastera: u klasteru 1 - 695 ispitanika; u klasteru 2 - 40. Dakle, odredili smo optimalan broj klastera za naš zadatak i zapravo segmentirali ispitanike prema sedam odabranih kriterijuma. Sada možemo smatrati glavni cilj našeg zadatka ostvarenim i preći na završnu fazu klaster analize – interpretaciju dobijenih ciljnih grupa (segmenata).


Rice. 5.50.

Rezultirajuće rješenje je malo drugačije od onoga što ste možda vidjeli u SPSS tutorijalima. Čak i najpraktičniji udžbenici daju vještačke primjere gdje se klasterizacijom dobijaju idealne ciljne grupe ispitanika. U nekim slučajevima (5) autori čak direktno ukazuju na vještačko porijeklo primjera. U ovom tutorijalu koristit ćemo pravi primjer iz praktičnih marketinških istraživanja koji se ne razlikuje u idealnim proporcijama kao ilustraciju rada klaster analize. To će nam omogućiti da pokažemo najčešće poteškoće u provođenju klaster analize, kao i najbolje metode za njihovo otklanjanje.

Pre nego što nastavimo sa tumačenjem rezultujućih klastera, hajde da sumiramo. Dobili smo sljedeću shemu za određivanje optimalnog broja klastera.

¦ U koraku 1 određujemo broj klastera na osnovu matematičke metode zasnovane na omjeru aglomeracije.

¦ U fazi 2 grupišemo ispitanike prema dobijenom broju klastera, a zatim konstruišemo linearnu distribuciju prema novo formiranoj varijabli (clul6_l). Takođe bi trebalo utvrditi koliko se klastera sastoji od statistički značajnog broja ispitanika. Generalno, preporučuje se postavljanje minimalnog značajnog broja klastera na nivou od najmanje 10 ispitanika.

¦ Ako svi klasteri ispunjavaju ovaj kriterij, prelazimo na završnu fazu analize klastera: interpretaciju klastera. Ako postoje klasteri sa neznatnim brojem opservacija koje ih čine, utvrđujemo koliko se klastera sastoji od značajnog broja ispitanika.

¦ Ponovo izračunajte proceduru analize klastera navodeći u dijalogu Sačuvaj broj klastera koji se sastoje od značajnog broja slučajeva.

¦ Izgradite linearnu distribuciju u odnosu na novu varijablu.

Ovaj slijed radnji se ponavlja dok se ne pronađe rješenje u kojem će se svi klasteri sastojati od statistički značajnog broja ispitanika. Nakon toga možete pristupiti završnoj fazi analize klastera - interpretaciji klastera.

Posebno treba napomenuti da kriterij praktične i statističke značajnosti broja klastera nije jedini kriterij po kojem se može odrediti optimalan broj klastera. Istraživač može samostalno, na osnovu svog iskustva, predložiti broj klastera (uslov značajnosti mora biti zadovoljen). Druga opcija je prilično česta situacija kada se u svrhu istraživanja unaprijed postavi uslov da se ispitanici segmentiraju prema određenom broju ciljnih grupa. U ovom slučaju, trebate samo jednom izvršiti hijerarhijsku analizu klastera uz održavanje potrebnog broja klastera, a zatim pokušati protumačiti što će ispasti.

Da bi se opisali dobijeni ciljni segmenti, treba koristiti proceduru za poređenje srednjih vrijednosti proučavanih varijabli (centroida klastera). Uporedićemo prosečne vrednosti sedam kriterijuma segmentacije koji se razmatraju u svakom od dva rezultujuća klastera.

Procedura za upoređivanje srednjih vrijednosti se poziva pomoću menija Analiza> Uporedi srednje vrijednosti> Srednje vrijednosti. U dijaloškom okviru koji se otvara (Sl. 5.51) sa lijeve liste, odaberite sedam varijabli odabranih kao kriterij segmentacije (ql3-ql9) i prevucite ih u polje Dependent List za zavisne varijable. Zatim premjestiti varijablu sŠ2_1, koja odražava podjelu ispitanika na klastere u konačnom (dvoklasterskom) rješenju problema, sa lijeve liste u polje za nezavisne varijable u Nezavisnoj listi. Zatim kliknite na dugme Opcije.

Rice. 5.51.

Otvoriće se okvir za dijalog Options, izaberite potrebnu statistiku za poređenje klastera (slika 5.52). Da biste to učinili, u polju Statistika ćelije ostavite samo prikaz srednjih vrijednosti, uklanjajući iz njega ostale zadane statistike. Zatvorite dijalog Opcije klikom na dugme Nastavi. Konačno, iz glavnog dijaloškog okvira Sredstva, pokrenite proceduru poređenja prosjeka (dugme OK).

Rice. 5.52.

Prozor SPSS Viewer koji se otvori će prikazati rezultate statističke procedure za poređenje srednjih vrijednosti. Zanima nas tabela Izveštaja (slika 5.53). Iz njega se vidi po kom osnovu je SPSS podijelio ispitanike u dva klastera. U našem slučaju, takav kriterijum je nivo procene analiziranih parametara. Klaster 1 čine ispitanici kod kojih su prosječni rezultati za sve kriterijume segmentacije na relativno visokom nivou (4,40 bodova i više). Klaster 2 uključuje ispitanike koji su razmatrane kriterijume segmentacije ocijenili prilično niskim (3,35 bodova i niže). Dakle, možemo zaključiti da je 93,3% ispitanika koji su formirali klaster 1 ocijenilo analizirane aviokompanije dobrim u svim aspektima; 5,4% - prilično nisko; 1,3% - teško je odgovorilo (vidi sliku 5.50). Od sl. 5.53, takođe se može zaključiti da je nivo procjena za svaki od razmatranih parametara posebno visok, a koji nizak (a ovaj zaključak će donijeti ispitanici, što omogućava postizanje visoke preciznosti klasifikacije). Iz tabele Izveštaja možete videti da je za varijablu Regulacija čekanja prosečna ocena 4,40, a za parametar Izgled 4,72.


Rice. 5.53.

Može se ispostaviti da se u sličnom slučaju 4,5 smatra visokim rezultatom za X parametar, a samo 3,9 za Y parametar. Ovo neće biti greška grupisanja, već će, naprotiv, omogućiti da se izvuče važan zaključak o značaju razmatranih parametara za ispitanike. Dakle, za parametar Y 3,9 poena je već dobra procjena, dok ispitanici postavljaju strože zahtjeve za X parametar.

Identifikovali smo dva značajna klastera koji se razlikuju po nivou prosečnih ocena za kriterijume segmentacije. Sada možete dodijeliti oznake rezultirajućim klasterima: za 1 - Aviokompanije koje ispunjavaju zahtjeve ispitanika (prema sedam analiziranih kriterijuma); za 2 - Avio kompanije koje ne ispunjavaju uslove ispitanika. Sada možete vidjeti koje avio kompanije (kodirane u varijablu q4) ispunjavaju zahtjeve ispitanika, a koje ne prema kriterijima segmentacije. Za ovo je potrebno konstruisati unakrsnu distribuciju varijable q4 (analizirane aviokompanije) u zavisnosti od varijable klasteriranja clu2_l. Rezultati ove analize poprečnog presjeka prikazani su na Sl. 5.54.

Na osnovu ove tabele mogu se izvesti sledeći zaključci u vezi sa članstvom proučavanih avioprevoznika u odabranim ciljnim segmentima.


Rice. 5.54.

1. Aviokompanije koje u potpunosti ispunjavaju zahtjeve svih kupaca u pogledu učinka zemaljskog osoblja (uključene u samo jedan prvi klaster):

¦ Vnukovo Airlines;

¦ American Airlines;

¦ Delta Airlines;

¦ Austrian Airlines;

¦ British Airways;

¦ Korean Airlines;

¦ Japan Airlines.

2. Avio kompanije koje zadovoljavaju zahtjeve većine svojih klijenata u pogledu učinka zemaljskog osoblja (većina ispitanika koji leti ovim avio-kompanijama je zadovoljna radom zemaljskog osoblja):

¦ Transaero.

3. Avio kompanije koje ne ispunjavaju zahtjeve većine svojih klijenata u pogledu učinka zemaljskog osoblja (većina ispitanika koji leti ovim avio-kompanijama nije zadovoljna radom zemaljskog osoblja):

¦ Domodedovo Airlines;

¦ Pulkovo;

¦ Sibir;

¦ Ural Airlines;

¦ Samara Airlines;

Tako smo dobili tri ciljna segmenta avio-kompanija u smislu prosječne ocjene, koje karakteriše različit stepen zadovoljstva ispitanika radom zemaljskog osoblja:

  • 1. najatraktivnije avio kompanije za putnike u pogledu nivoa rada zemaljskog osoblja (14);
  • 2. prilično atraktivne aviokompanije (1);
  • 3. prilično neatraktivne avio kompanije (7).

Uspješno smo završili sve faze klaster analize i segmentirali aviokompanije prema sedam istaknutih kriterija.

Sada ćemo dati opis tehnike klaster analize uparene sa faktorskom analizom. Koristimo uslov problema iz odjeljka 5.2.1 (faktorska analiza). Kao što je već pomenuto, u problemima segmentacije sa velikim brojem varijabli, preporučljivo je klaster analizi prethoditi faktorskom analizom. Ovo se radi kako bi se broj kriterija segmentacije sveo na najznačajnije. U našem slučaju imamo 24 varijable u originalnoj datoteci podataka. Kao rezultat faktorske analize, uspjeli smo da smanjimo njihov broj na 5. Sada se ovaj broj faktora može efikasno koristiti za klaster analizu, a sami faktori mogu se koristiti kao kriteriji segmentacije.

Ukoliko se suočimo sa zadatkom segmentiranja ispitanika prema njihovoj procjeni različitih aspekata trenutne konkurentske pozicije aviokompanije X, možemo izvršiti hijerarhijsku klaster analizu prema odabranih pet kriterija (varijable nfacl_l-nfac5_l). U našem slučaju, varijable su procjenjivane na različitim skalama. Na primjer, ocjena 1 za odobrenje.Ne bih želio da se aviokompanija mijenja i ista ocjena za odobrenje.Promjene u aviokompaniji će biti pozitivan trenutak, dijametralno suprotan po značenju. U prvom slučaju, 1 bod (uopšte se ne slažem) znači da ispitanik pozdravlja promjene u aviokompaniji; u drugom slučaju, rezultat 1 ukazuje da ispitanik odbija promjene u aviokompaniji. Prilikom tumačenja klastera neizbježno ćemo se suočiti s poteškoćama, jer takve varijable suprotne po značenju mogu

spadaju u isti faktor. Stoga se za potrebe segmentacije preporučuje prvo podešavanje skala proučavanih varijabli, a zatim ponovno izračunavanje faktorskog modela. Zatim izvršiti klaster analizu na varijabilnim faktorima dobijenim kao rezultat faktorske analize. Nećemo ponovo detaljno opisivati ​​postupke faktorske i klaster analize (ovo je urađeno iznad u relevantnim odjeljcima). Napominjemo samo da smo ovom metodologijom kao rezultat dobili tri ciljne grupe avio putnika, koje se razlikuju po stepenu procjena odabranih faktora (odnosno grupa varijabli): najniža, srednja i najviša.

Vrlo korisna primjena klaster analize je podjela na grupe tablica frekvencija. Pretpostavimo da imamo linearnu distribuciju odgovora na pitanje Koje su marke antivirusa instalirane u vašoj organizaciji?. Da bi se izveli zaključci o ovoj distribuciji, potrebno je podijeliti antivirusne marke u nekoliko grupa (obično 2-3). Klaster analiza je najbolji način da se svi brendovi kategoriziraju u tri grupe (najpopularniji brendovi, prosječna popularnost i nepopularni brendovi), iako, po pravilu, istraživači odvajaju elemente tabela učestalosti na oko na osnovu subjektivnih razmatranja. Za razliku od ovog pristupa, klaster analiza omogućava naučno utemeljenje izvršenog grupisanja. Da biste to učinili, unesite vrijednosti svakog parametra u SPSS (preporučljivo je te vrijednosti izraziti u procentima), a zatim izvršite klaster analizu na ovim podacima. Čuvanjem rješenja klastera za potreban broj grupa (u našem slučaju 3) kao novu varijablu, dobijamo statistički valjano grupisanje.

Završni dio ovog odjeljka posvetićemo opisu primjene klaster analize za klasifikaciju varijabli i upoređivanju njenih rezultata sa rezultatima faktorske analize obavljene u odjeljku 5.2.1. Da bismo to uradili, ponovo ćemo koristiti uslov zadatka o proceni trenutne pozicije avio kompanije X na tržištu vazdušnog saobraćaja. Metodologija klaster analize gotovo u potpunosti ponavlja gore opisanu (kada su ispitanici segmentirani).

Dakle, u originalnoj datoteci podataka imamo 24 varijable koje opisuju stav ispitanika prema različitim aspektima trenutne konkurentske pozicije aviokompanije X. Otvorite glavni dijaloški okvir Hijerarhijska analiza klastera i postavite 24 varijable (ql-q24) u promjenjivu (s) polje, sl. 5.55. U oblasti Klaster označite da klasifikujete varijable (označite opciju Varijable). Vidjet ćete da dugme Sačuvaj više nije dostupno - za razliku od faktorske analize, ne možete sačuvati faktorske ocjene za sve ispitanike u klaster analizi. Zaustavite prikazivanje dijagrama deaktiviranjem parametra Plots. U prvom koraku nisu vam potrebni nikakvi drugi parametri, pa samo kliknite na dugme OK da biste započeli proceduru analize klastera.

U prozoru SPSS Viewer pojavila se tabela Aglomeration Schedule, prema kojoj smo prethodno opisanom metodom odredili optimalan broj klastera (Sl. 5.56). Prvi skok koeficijenta aglomeracije uočen je u koraku 20 (sa 18834.000 na 21980.967). Na osnovu ukupnog broja analiziranih varijabli, jednakog 24, moguće je izračunati optimalan broj klastera: 24 - 20 = 4.

Rice. 5.55.


Rice. 5.56.

Prilikom klasifikacije varijabli, klaster koji se sastoji od samo jedne varijable je praktično i statistički značajan. Stoga, budući da smo matematički dobili prihvatljiv broj klastera, nisu potrebne daljnje provjere. Umjesto toga, ponovo otvorite glavni dijaloški okvir za analizu klastera (svi podaci korišteni u prethodnom koraku su sačuvani) i kliknite na dugme Statistika da biste prikazali tablicu klasifikacije. Videćete istoimeni dijaloški okvir u kojem treba da navedete broj klastera na koje treba da podelite 24 varijable (slika 5.57). Da biste to uradili, izaberite parametar Pojedinačno rešenje i navedite potreban broj klastera u odgovarajućem polju: 4. Sada zatvorite dijalog Statistike klikom na dugme Nastavi i pokrenite proceduru iz glavnog prozora za analizu klastera.

Kao rezultat, u prozoru SPSS Viewer će se pojaviti tabela Cluster Membership, raspoređujući analizirane varijable u četiri klastera (slika 5.58).

Rice. 5.58.

Prema ovoj tabeli, svaka varijabla koja se razmatra može se dodijeliti određenom klasteru na sljedeći način.

Klaster 1

ql. Airline X ima reputaciju izvrsnosti u putničkim uslugama.

q2. Airline X može se takmičiti sa najboljim avio kompanijama na svijetu.

q3. Vjerujem da Airline X ima obećavajuću budućnost u svjetskoj avijaciji.

q5. Ponosan sam što radim za Airline X.

q9. Pred nama je dug put prije nego što možemo tvrditi da nas nazivaju aviokompanijom svjetske klase.

qlO. Airline X zaista brine o putnicima.

ql3. Sviđa mi se kako je Airline X trenutno vizualno predstavljen široj javnosti (u smislu boja i brendiranja).

ql4. Airline X je lice Rusije.

ql6. Usluga X avio kompanije je dosljedna i prepoznatljiva u cijelom

ql8. Airline X mora se promijeniti kako bi u potpunosti iskoristio svoj potencijal.

ql9. Mislim da se aviokompanija X treba vizuelno predstaviti na moderniji način.

q20. Promjene u Airlineu X će biti pozitivan razvoj. q21. Airline X je efikasna avio kompanija.

q22. Voleo bih da se imidž Airline X poboljša u pogledu stranih putnika.

q23. Airline X je bolji nego što većina ljudi misli.

q24. Važno je da ljudi širom svijeta znaju da smo ruska aviokompanija.

Klaster 2

q4. Znam kakva će biti buduća strategija za Airline X.

q6. Airline X ima dobru međudivizijsku komunikaciju.

q7. Svaki zaposlenik avio kompanije ulaže sve napore da osigura svoj uspjeh.

q8. Airline X se sada ubrzano poboljšava.

qll. Među zaposlenima u avio kompanijama postoji visok stepen zadovoljstva poslom.

ql2. Vjerujem da su viši menadžeri posvećeni uspjehu aviokompanije.

Klaster 3

ql5. Izgledamo kao "jučer" u poređenju sa drugim avio-kompanijama.

Klaster 4

ql7. Ne bih želio da se aviokompanija X promijeni.

Upoređujući rezultate faktorijalne (odjeljak 5.2.1) i klaster analize, vidjet ćete da se oni značajno razlikuju. Klaster analiza ne samo da pruža znatno manje mogućnosti za grupisanje varijabli (na primjer, nemogućnost održavanja grupnih ocjena) u odnosu na faktorsku analizu, već daje i mnogo manje jasne rezultate. U našem slučaju, ako su klasteri 2, 3 i 4 još uvijek podložni logičkoj interpretaciji1, tada klaster 1 sadrži iskaze koji su potpuno različiti po značenju. U ovoj situaciji, možete pokušati opisati klaster 1 kakav jeste, ili ponovo izgraditi statistički model s drugačijim brojem klastera. U potonjem slučaju, da biste pronašli optimalan broj klastera koji se može logički opisati, možete koristiti parametar Range of solutions u dijaloškom okviru Statistics (pogledajte sliku 5.57), navodeći u odgovarajućim poljima minimalni i maksimalni broj klastera. (u našem slučaju 4 i 6). U takvoj situaciji, SPSS će ponovo izgraditi tabelu članstva klastera za svaki broj klastera. Zadatak analitičara u ovom slučaju je da pokuša pronaći model klasifikacije u kojem će svi klasteri biti nedvosmisleno interpretirani. Da bismo demonstrirali mogućnosti procedure analize klastera za grupisanje varijabli, nećemo ponovo izgraditi model klastera, već ćemo se ograničiti samo na ono što je gore rečeno.

Treba napomenuti da se, uprkos prividnoj jednostavnosti klaster analize u poređenju sa faktorskom analizom, u gotovo svim slučajevima iz marketinških istraživanja, faktorska analiza pokazuje bržom i efikasnijom od klaster analize. Stoga, za klasifikaciju (redukciju) varijabli, toplo preporučujemo korištenje faktorske analize, a ostavljanje klaster analize za klasifikaciju ispitanika.

Analiza klasifikacije je možda jedan od najsloženijih statističkih alata sa stanovišta neobučenog korisnika. To je povezano s njegovom vrlo malom rasprostranjenošću u marketinškim kompanijama. Istovremeno, upravo je ova grupa statističkih metoda jedna od najkorisnijih za praktičare u oblasti marketing istraživanja.

Klaster analiza nazivaju se razne formalizovane procedure za konstruisanje klasifikacija objekata. Biologija je bila vodeća nauka u razvoju klaster analize. Predmet klaster analize (od engleskog "cluster" - gomila, gomila, grupa) formulisao je 1939. psiholog Robert Trion. Klaster analize su američki taksonomisti Robert Sokal i Peter Snit. Jedno od njihovih najvažnijih dostignuća u ovoj oblasti je knjiga "Počeci numeričke taksonomije", objavljena 1963. godine. U skladu s glavnom idejom autora, klasifikacija ne bi trebala biti zasnovana na miješanju loše formaliziranih sudova o sličnosti i afinitetu objekata, već na rezultatima formalizirane obrade rezultata matematičkog proračuna sličnosti/razlike. klasifikovane objekte. Za ostvarenje ovog zadatka bile su potrebne odgovarajuće procedure, čiji su razvoj poduzeli autori.

Glavne faze klaster analize su sljedeće:
1. izbor uporedivih objekata;
2. izbor skupa svojstava po kojima će se vršiti poređenje i opis objekata na osnovu ovih karakteristika;
3.proračun mjere sličnosti između objekata (ili mjere razlika između objekata) u skladu sa odabranim metrički;
4. grupisanje objekata u klastere koristeći jedan ili drugi procedure spajanja;
5. provjera primjenjivosti dobivenog klaster rješenja.

Dakle, najvažnije karakteristike procedure grupisanja su izbor metrike (u različitim situacijama se koristi značajan broj različitih metrika) i izbor procedure ujedinjenja (iu ovom slučaju izbor je dostupan značajan broj različitih opcija). Za različite situacije prikladnije su jedna ili druga metrika i postupci spajanja, ali je u određenoj mjeri izbor između njih stvar ukusa i tradicije. Kao što je detaljnije objašnjeno u članku Klasteri, blago i himera objektivnosti, nada da će klaster analiza dovesti do izgradnje klasifikacije koja ni na koji način ne zavisi od proizvoljnosti istraživača, pokazuje se nedostižnom. Od pet navedenih faza istraživanja koristeći klaster analizu, samo 4. faza nije povezana sa donošenjem manje ili više proizvoljne odluke koja utiče na konačni rezultat. I izbor objekata, i izbor karakteristika, i izbor metrike, zajedno sa postupkom spajanja, značajno utiču na konačni rezultat. Ovaj izbor može zavisiti od mnogih okolnosti, uključujući eksplicitne i implicitne preferencije i očekivanja studije. Nažalost, ova okolnost utječe ne samo na rezultat klaster analize. Sve "objektivne" metode se suočavaju sa sličnim problemima, uključujući sve metode kladistike.

Postoji li jedno ispravno rješenje koje treba pronaći pri odabiru skupa objekata, skupa karakteristika, vrste metrike i postupka kombinacije? br. Da biste to dokazali, evo fragmenta članka, veza na koji je data u prethodnom pasusu.

"Zapravo, ne možemo uvijek čak ni čvrsto odgovoriti na pitanje koji su objekti međusobno sličniji, a koji se više razlikuju. Jao, jednostavno ne postoje općeprihvaćeni (a još više "objektivni") kriteriji za odabir metrike sličnosti i razlika između klasificiranih objekata.

Koji objekt je objekt A sličniji: B ili C? Ako koristimo udaljenost kao metriku sličnosti, onda na C: | AC |<|AB|. А если полагаться на корреляцию между показанными на рисунке признаками (которую можно описать как угол между вектором, идущим к объекту из начала координат, и осью абсцисс), то на B: ... Kako će biti ispravno? I ne postoji jedan tačan odgovor. S jedne strane, odrasla krastača više liči na odraslu žabu (obje odrasle), s druge više na mladu žabu (obje krastače)! Tačan odgovor zavisi od toga šta mislimo da je važnije.".

Klaster analiza je našla najširu primenu u modernoj nauci. Nažalost, u značajnom dijelu slučajeva kada se koristi, bilo bi bolje koristiti druge metode. U svakom slučaju, biolozi moraju jasno razumjeti osnovnu logiku klaster analize i samo u tom slučaju moći će je primijeniti u onim slučajevima gdje je ona adekvatna, a ne primijeniti kada je izbor druge metode optimalan.

8.2. Primjer izvođenja klaster analize "na prste"

Da biste ilustrirali tipičnu logiku klaster analize, razmotrite ilustrativni primjer. Razmotrimo skup od 6 objekata (označenih slovima), okarakteriziranih sa 6 atributa najjednostavnijeg tipa: alternativni, koji ima jedno od dva značenja: karakterističan (+) i nekarakteristično (-). Opis objekata na osnovu prihvaćenih karakteristika naziva se "pravougaona" matrica. U našem slučaju govorimo o matrici 6 × 6, tj. može se smatrati prilično "kvadratnom", ali u opštem slučaju broj objekata u analizi možda neće biti jednak broju karakteristika, a "pravougaona" matrica može imati različit broj redova i kolona. Dakle, postavimo " pravokutna "matrica (matrica objekata / karakteristika):

Izbor objekata i njihov opis prema određenom skupu atributa odgovaraju prve dvije faze klaster analize. Sljedeći korak je izgradnja matrice sličnosti ili razlika ("kvadratna" matrica, matrica objekata/objekata). Da bismo to učinili, moramo odabrati metriku. Budući da je naš primjer uvjetovan, ima smisla odabrati najjednostavniju metriku. Koji je najlakši način za određivanje udaljenosti između objekata A i B? Izbrojite broj razlika između njih. Kao što vidite, objekti A i B razlikuju se po osobinama 3 i 5, tako da udaljenost između ova dva objekta odgovara dvije jedinice.

Koristeći ovu metriku, konstruiramo " kvadratna "matrica (matrica objekata/objekata). Kao što možete lako provjeriti, takva matrica se sastoji od dvije simetrične polovine, a možete ispuniti samo jednu od ovih polovina:

U ovom slučaju, izgradili smo matricu razlika. Matrica sličnosti bi izgledala slično, samo bi na svakoj poziciji postojala vrijednost jednaka razlici između najveće udaljenosti (6 jedinica) i razlike između objekata. Za par A i B, naravno, sličnost bi bila 4 jedinice.

Koja su dva objekta najbliža jedan drugom? B i F, razlikuju se samo na jedan način. Suština klaster analize je kombinovanje sličnih objekata u klaster. Kombinujemo objekte B i F u klaster (BF). Pokažimo ovo na dijagramu. Kao što vidite, objekti su kombinovani na nivou koji odgovara udaljenosti između njih.

Rice. 8.2.1. Prvi korak grupisanja uslovnog skupa od 6 objekata

Sada nemamo šest objekata, već pet. Obnova "kvadratne" matrice. Da bismo to učinili, moramo odrediti koja je udaljenost od svakog objekta do klastera. Udaljenost od A do B je bilo 2 jedinice, a od A do F je bilo 3 jedinice. Kolika je udaljenost od A do (Bf)? Ne postoji tačan odgovor. Ovdje pogledajte kako su ova tri objekta smještena jedan u odnosu na drugi.

Rice. 8.2.2. Relativni položaj tri objekta

Možda je udaljenost od objekta do grupe udaljenost od objekta do objekta koji mu je najbliži kao dio grupe, tj..e., │A (BF) │ = │AB │? Ova logika se poklapa spajanje maksimalnom sličnošću.

Ili je možda udaljenost od objekta do grupe udaljenost od objekta do objekta koji je od njega najudaljeniji kao dio grupe, tj..e., │A (BF) │ = │AF │? Ova logika se poklapa spajanje uz minimalnu sličnost.

Također možete pretpostaviti da je udaljenost od objekta do grupe aritmetički prosjek udaljenosti od ovog objekta do svakog od objekata u grupi, tj. odnosno │A (BF) │ = (│AB │ + │AF │) / 2. Ovo rješenje se zove spajanje po prosječnoj sličnosti.

Sva tri ova rješenja i značajan broj drugih rješenja koja ovdje nisu opisana su tačna. Naš zadatak je odabrati rješenje koje je prikladnije za kategoriju kojoj pripadaju naši podaci. Spajanje uz maksimalnu sličnost na kraju dovodi do dugih, "trakastih" klastera. U najmanju ruku - do fragmentacije grupa. Birajući između tri opisane opcije, u biologiji se češće koristi pridržavanje srednje sličnosti. I mi ćemo ga koristiti. U ovom slučaju, nakon prvog koraka grupiranja, "kvadratna" matrica će izgledati ovako.

Sada je najbliži par objekata D i E. Kombinirajmo i njih.

Rice. 8.2.3. Drugi korak grupisanja uslovnog skupa od 6 objekata

Hajde da ponovo izgradimo "kvadratnu" matricu za četiri objekta.

Vidimo da postoje dvije mogućnosti za spajanje na nivou 2.5: spajanje A na (BF) i spajanje (BF) na (DE). Koju da odaberete?

Imamo razne opcije kako da napravite ovaj izbor. To se može uraditi slučajno. Možete uzeti neku vrstu formalnog pravila koje vam omogućava da napravite izbor. I možete vidjeti koje će od rješenja dati najbolju opciju klasteriranja. Koristimo posljednju opciju. Prvo, implementirajmo prvu opciju.

Rice. 8.2.4. Prva varijanta trećeg koraka je grupisanje uslovnog skupa od 6 objekata

Odabirom ove opcije, morali bismo konstruirati takvu "kvadratnu" matricu 3 × 3.

Da smo odabrali drugu opciju trećeg koraka, dobili bismo sljedeću sliku.

Rice. 8.2.5. Druga varijanta trećeg koraka je grupisanje uslovnog skupa od 6 objekata

To odgovara sljedećoj matrici 3 × 3:

Rezultirajuće 3 × 3 matrice se mogu uporediti kako bi se osiguralo da se u drugoj opciji postiže kompaktnije grupiranje objekata. Kada konstruišemo klasifikaciju objekata koristeći klaster analizu, treba da težimo da identifikujemo grupe koje kombinuju slične objekte. Što je veća sličnost objekata u grupama, to je ova klasifikacija bolja. Stoga biramo drugu opciju za treći korak grupiranja. Naravno, mogli bismo poduzeti sljedeće korake (i podijeliti prvu opciju na još dvije podopcije), ali na kraju bismo se pobrinuli da najbolja opcija za treći korak grupiranja bude upravo ona prikazana na Sl. 8.5. Mi se zadržavamo na tome.

U ovom slučaju, sljedeći korak je kombiniranje objekata. A i C prikazani na sl. 8.6.

Rice. 8.2.6. Četvrti korak grupisanja

Gradimo matricu 2 × 2:

Sada nema šta da se bira. Kombinirajmo dva preostala klastera na traženom nivou. U skladu sa prihvaćenim stilom građenja klastera „drveća“, dodaćemo „deblo“, koje se proteže do nivoa maksimalno moguće udaljenosti između objekata za dati skup karakteristika.

Rice. 8.2.7. Peti i posljednji korak grupiranja

Rezultirajuća slika je graf nalik stablu (kolekcija čvorova i veza između njih). Ovaj graf je konstruisan na način da se linije koje ga formiraju sijeku jedna drugu (ta raskrsnice smo prikazali kao "mostove"). Bez promjene prirode veze između objekata, graf se može ponovo izgraditi tako da u njemu nema sjecišta. Ovo se radi na sl. 8.2.8.

Rice. 8.2.8. Konačni prikaz grafa stabla dobijen kao rezultat grupiranja

Klaster analiza našeg uslovnog primjera je sada završena. Samo treba da shvatimo šta imamo.

8.3. Osnovna ograničenja i nedostaci klaster analize

Kako protumačiti grafikon prikazan na sl. 8.2.8? Ne postoji definitivan odgovor. Da biste odgovorili na ovo pitanje, morate razumjeti koje podatke i za koju svrhu smo grupisali. „Na površini“ leži zaključak da smo registrovali da se originalni skup od 6 objekata sastoji od tri para. Gledajući rezultujući grafikon, teško je sumnjati u to. Međutim, da li je ovaj zaključak istinit?

Vratite se na prvu "kvadratnu" matricu 6 × 6 i uvjerite se da je objekt E bio na udaljenosti od dvije jedinice i od objekta D i od objekta F. Sličnost E i D u rezultirajućem "drvetu" se odražava, ali činjenica da je objekat E bio jednako blizak objektu F - izgubljen bez traga! Kako se ovo može objasniti?

Kao rezultat grupiranja, koje je prikazano na Sl. 8.2.8, nema informacija o udaljenosti│EF │, postoje samo informacije o udaljenostima │DE │ i │ (BF) (DE) │!

Svaka "pravougaona" matrica u slučaju kada je odabrana određena metrika i način pričvršćivanja, postoji jedna jedina "kvadratna" matrica. Međutim, svaka "kvadratna" matrica može odgovarati mnogim "pravokutnim" matricama. Nakon svakog koraka analize, svaka prethodna "kvadratna" matrica odgovara sljedećoj, ali na osnovu sljedećeg nismo mogli vratiti prethodnu. To znači da se u svakom koraku klaster analize nepovratno gubi neki dio informacija o raznolikosti početnog skupa objekata.

Ova okolnost je jedan od ozbiljnih nedostataka klaster analize.

U članku se spominje još jedan podmukli nedostatak klaster analize.

Slični članci

2022 ap37.ru. Vrt. Ukrasno grmlje. Bolesti i štetočine.