Vigtigste Andet K-Means Cluster Analyse

K-Means Cluster Analyse

Oversigt

Software

Beskrivelse

Hjemmesider

Aflæsninger

Kurser

Oversigt

Klyngeanalyse er et sæt datareduktionsteknikker, der er designet til at gruppere lignende observationer i et datasæt, således at observationer i samme gruppe er så ens som hinanden som muligt, og på samme måde er observationer i forskellige grupper så forskellige for hinanden som muligt. Sammenlignet med andre datareduktionsteknikker som faktoranalyse (FA) og hovedkomponentanalyse (PCA), der sigter mod at gruppere efter ligheder på tværs af variabler (kolonner) i et datasæt, tager klyngeanalyse sigte på at gruppere observationer efter ligheder på tværs af rækker.

Beskrivelse

K-middel er en metode til klyngeanalyse, der grupperer observationer ved at minimere euklidiske afstande mellem dem. Euklidiske afstande er analoge til måling af hypotenusen i en trekant, hvor forskellene mellem to observationer på to variabler (x og y) er tilsluttet den pythagoriske ligning for at løse den korteste afstand mellem de to punkter (længden af ​​hypotenusen). Euklidiske afstande kan udvides til n-dimensioner med et hvilket som helst tal n, og afstandene henviser til numeriske forskelle på enhver målt kontinuerlig variabel, ikke kun rumlige eller geometriske afstande. Denne definition af euklidisk afstand kræver derfor, at alle variabler, der bruges til at bestemme klyngedannelse ved hjælp af k-midler, skal være kontinuerlige.

Procedure

For at udføre k-betyder klyngedeling tildeler algoritmen tilfældigt k indledende centre (k specificeret af brugeren), enten ved tilfældigt at vælge punkter i det euklidiske rum defineret af alle n variabler eller ved prøveudtagning af k punkter af alle tilgængelige observationer, der skal tjene som indledende centre. Det tildeler derefter iterativt hver observation til det nærmeste centrum. Dernæst beregner det det nye center for hver klynge som det midroid gennemsnit af klyngevariablerne for hver klynges nye sæt observationer. K-betyder gentager denne proces og tildeler observationer til nærmeste centrum (nogle observationer ændrer klynge). Denne proces gentages, indtil en ny iteration ikke længere tildeler eventuelle observationer til en ny klynge. På dette tidspunkt anses algoritmen for at være konvergeret, og de endelige klyngetildelinger udgør klyngeløsningen.

Der er flere k-betyder algoritmer tilgængelige. Standardalgoritmen er Hartigan-Wong-algoritmen, der sigter mod at minimere de euklidiske afstande af alle punkter med deres nærmeste klyngecentre ved at minimere summen af ​​kvadratiske fejl inden for klyngen (SSE).

Software

K-middel er implementeret i mange statistiske softwareprogrammer:

I R, i klyngepakken, skal du bruge funktionen: k-betyder (x, centre, iter.max = 10, nstart = 1). Dataobjektet, som klyngen skal udføres på, er angivet i x. Antallet af klynger k er angivet af brugeren i centre = #. k-betyder () gentages med forskellige indledende centroider (samplet tilfældigt fra hele datasættet) nstart = # gange og vælg det bedste løb (mindste SSE). iter.max = # indstiller et maksimalt antal tilladte gentagelser (standard er 10) pr. kørsel.

I STATA skal du bruge kommandoen: cluster kmeans [varlist], k (#) [options]. Brug [varlist] til at erklære klyngevariablerne, k (#) for at erklære k. Der er andre muligheder for at specificere lighedstiltag i stedet for euklidiske afstande.

I SAS skal du bruge kommandoen: PROC FASTCLUS maxclusters = k; var [varliste]. Dette kræver angivelse af k og klyngevariablerne i [varlist].

I SPSS skal du bruge funktionen: Analyser -> Klassificer -> K-Means Cluster. Yderligere hjælpefiler er tilgængelige online.

Overvejelser

K-betyder klyngedannelse kræver, at alle variabler er kontinuerlige. Andre metoder, der ikke kræver, at alle variabler skal være kontinuerlige, herunder nogle heirarkiske klyngemetoder, har forskellige antagelser og diskuteres i ressourcelisten nedenfor. K-betyder klyngedannelse kræver også en priori specifikation af antallet af klynger, k. Selvom dette kan gøres empirisk med dataene (ved hjælp af en screeplot til at tegne inden for gruppens SSE mod hver klyngeløsning), skal beslutningen være drevet af teori, og forkert valg kan føre til fejlagtige klynger. Se Peeples 'online R walkthrough R-script til K-betyder klyngeanalyse nedenfor for eksempler på valg af klyngeløsninger.

Valget af klyngevariabler er også af særlig betydning. Generelt kræver klyngeanalysemetoder antagelsen om, at de variabler, der er valgt til at bestemme klynger, er en omfattende repræsentation af den underliggende konstruktion af interesse, der grupperer lignende observationer. Mens variabelvalg forbliver et diskuteret emne, anbefaler konsensus i marken at gruppere så mange variabler som muligt, så længe sættet passer til denne beskrivelse, og de variabler, der ikke beskriver meget af variansen i euklidiske afstande mellem observationer, vil bidrage mindre til klyngetildeling. Følsomhedsanalyser anbefales ved hjælp af forskellige klyngeløsninger og sæt klyngevariabler til at bestemme robustheden i klyngealgoritmen.

K-middel har som standard til formål at minimere summen af ​​kvadratfejl inden for gruppen målt ved euklidiske afstande, men dette er ikke altid berettiget, når dataantagelser ikke er opfyldt. Se lærebøger og online guider i afsnittet om ressourcer nedenfor, især Robinsons R-blog: K-betyder klyngedannelse er ikke en gratis frokost for eksempler på de problemer, der opstår med k-betyder klyngedannelse, når antagelser overtrædes.

Endelig ligner klyngeanalysemetoder andre datareduktionsteknikker, idet de stort set er udforskende værktøjer, og resultater skal derfor fortolkes med forsigtighed. Der findes mange teknikker til validering af resultater fra klyngeanalyse, herunder internt med krydsvalidering eller bootstrapping, validering på konceptuelle grupper teoretiseret a priori eller med ekspertudtalelse eller ekstern validering med separate datasæt. En almindelig anvendelse af klyngeanalyse er som et værktøj til at forudsige klyngemedlemskab på fremtidige observationer ved hjælp af eksisterende data, men det beskriver ikke, hvorfor observationer er grupperet på den måde. Som sådan bruges klyngeanalyse ofte sammen med faktoranalyse, hvor klyngeanalyse bruges til at beskrive, hvordan observationer er ens, og faktoranalyse bruges til at beskrive, hvorfor observationer er ens. I sidste ende skal klyngeanalyseresultaters gyldighed bestemmes ved teori og ved hjælp af klyngebeskrivelser.

Aflæsninger

Lærebøger og kapitler

 1. Aldenderfer MS og Blashfield RK (1984). Klyngeanalyse. Sage University Paper series om kvantitative anvendelser inden for samfundsvidenskab, serie nr. 07-044. Newbury Park, Californien: Sage Publications. Klyngeanalysens grønne bog er en klassisk referencetekst om teori og metoder til klyngeanalyse samt retningslinjer for rapportering af resultater.

 2. Everitt BS, Landau S, Leese M, Stahl D (2011). Cluster Analysis, 5. udgave. Wiley-serien. Dybdegående og moderne beskrivelser af de forskellige typer klyngeanalysemetoder, som området har udviklet sig.

 3. Lorr M (1983). Klyngeanalyse for socialforskere. Jossey-Bass Social and Behavioral Science Series. Lorrs klassiske tekst beskriver relaterede metoder med data, der typisk findes i samfundsvidenskab - K-betyder, at dataantagelser ofte er vanskelige at møde med data inden for samfundsvidenskab, og alternativer diskuteres.

Metodiske artikler

 1. Hauser J og Rybakowski J (1997). Tre klynger af mandlige alkoholikere. Narkotikaalkohol afhænger; 48 (3): 243-50. Et eksempel på gruppering af adfærdstyper i afhængighedsforskning.

 2. Breuhl S, et al. (1999). Brug af klyngeanalyse til validering af IHS-diagnostiske kriterier for migræne og spændingshovedpine. Hovedpine; 39 (3): 181-9. En undersøgelse af validering af diagnostiske kriterier ved hjælp af k-middel på symptommønstre.

 3. Guthrie E, et al. (2003). Klyngeanalyse af symptomer og adfærd, der søger sundhed, adskiller sig fra undergrupper til patienter med svær irritabel tarmsyndrom. Tarm; 52 (11): 1616-22. Omsorgssøgende adfærdsmønstre differentieres ved klyngeanalyse.

Ansøgningsartikler

 1. MacQueen J (1967). Nogle metoder til klassificering og analyse af multivariate observationer. Forhandlingerne med det 5. Berkeley Symposium om matematik. Statistik. og Prob., bind. 1. Tidlige statistiske metodepapir om k-betyder klyngealgoritmen fra en af ​​de tidlige udviklere.

 2. Salim SZ og Ismail MA. (1984). K-betyder-algoritmer: En generaliseret konvergens teori og karakterisering af lokal optimalitet. IEEE Trans Mønster Anal Mach Intell; 6 (1): 81-7. Metodiske overvejelser og anbefalinger til brug af k-betyder klyngedannelse.

 3. Saeed F, et al. (2012). At kombinere K-betyder klynger af kemiske strukturer ved hjælp af klyngebaseret lighedspartitioneringsalgoritme. Kommunikation inden for computer- og informationsvidenskab; 322: 304-312. En nylig artikel om forbedring af ydeevnen for k-betyder klyngeløsninger gennem multiple iteration og kombinationsmetoder.

Hjemmesider

Forskellige gennemgange til brug af R-software til at udføre k-betyder klyngeanalyse med anvendte eksempler og prøvekode.

 1. statmethods.net: Quick-R: Klyngeanalyse http://www.statmethods.net/advstats/cluster.html

 2. 2. R-statistikblog: K-betyder klyngedannelse http://www.r-statistics.com/2013/08/k-means-clustering-from-r-in-action/

 3. 3. Peeples MA (2011). R Script til K-betyder klyngeanalyse http://www.mattpeeples.net/kmeans.html

 4. 4. Robinson D (2015). R-bloggere: K-betyder klyngedannelse er ikke en gratis frokost http://www.r-bloggers.com/k-means-clustering-is-not-a-free-lunch/

Tekniske R-ressourcer

typer af rygmarvsskader
 1. York University - Klyngeanalyse R-kommandoer http://wiki.math.yorku.ca/index.php/R:_Cluster_analyse

 2. Hjælpefilen til R kmeans () https://stat.ethz.ch/R-manual/R-devel/library/stats/html/kmeans.html

Relaterede teknikker til reduktion af data

 1. Exploratory factor analysis (EFA) om avanceret epidemiologi

 2. Hovedkomponentanalyse (PCA) om avanceret epidemiologi

Interessante Artikler

Redaktørens Valg

Philip Hamburger
Philip Hamburger
En af de fremtrædende forskere, der i dag skriver om forfatningsret og dens historie, underviser og skriver Philip Hamburger om vidtstrakte emner, herunder religionsfrihed, ytringsfrihed og presse, akademisk censur, regulering af videnskab, retlig pligt, administrativ magt, og udviklingen af ​​liberal tænkning. I to nylige bøger - Er administrativ lov ulovlig? og den administrative trussel - han hævder, at den administrative stat er forfatningsstridig og en trussel mod borgernes frihedsrettigheder. I sin seneste bog, Liberal Suppression: Section 501 (c) (3) and the Taxation of Speech, viser han, at indtægtskodens begrænsninger af kirkenes politiske tale oprindeligt blev foreslået af den kejserlige troldmand i Ku Klux Klan og viser, at disse talebegrænsninger er forfatningsmæssige. I 2014 etablerede Hamburger Law School's Center for Law and Liberty, som studerer trusler mod og juridisk beskyttelse for frihed. Han er grundlægger og præsident for New Civil Liberties Alliance, en uafhængig, nonprofit borgerrettighedsorganisation med base i Washington, DC, der bruger retssager og anden pro-bono-fortalervirksomhed til at forsvare forfatningsmæssige friheder fra den administrative stat. Hamburger sluttede sig til Law School-fakultetet i 2006 fra University of Chicago Law School. Han har vundet flere prestigefyldte priser i løbet af sin tid hos Columbia Law, herunder Hayek Book Prize for Is Administrative Law Ulovlig? og Bradley-prisen, der ærer personer, der forsvarer amerikanske værdier. Han er blevet valgt som medlem af American Academy of Arts and Sciences.
Kunal Bahl mod State of Karnataka (Snapdeal-sag)
Kunal Bahl mod State of Karnataka (Snapdeal-sag)
Columbia Global Ytringsfrihed søger at fremme forståelsen af ​​de internationale og nationale normer og institutioner, der bedst beskytter den frie strøm af information og udtryk i et sammenkoblet globalt samfund med store fælles udfordringer at tackle. For at nå sin mission foretager og bestiller Global Freedom of Expression forsknings- og politikprojekter, organiserer begivenheder og konferencer og deltager i og bidrager til globale debatter om beskyttelse af ytringsfrihed og information i det 21. århundrede.
Jeffrey N. Gordon
Jeffrey N. Gordon
Meddirektør for Columbia Law Schools Ira M. Millstein Center for Global Markets and Corporate Ownership, Jeffrey N. Gordon underviser og skriver udførligt om corporate governance, fusioner og opkøb, sammenlignende corporate governance og regulering af finansielle institutioner. Han er medredaktør af Oxford Handbook of Corporate Law and Governance (2018) og medforfatter af Principles of Financial Regulation (2016), der tager fat på de udfordringer, som regulatorer for finansielle institutioner og markeder står over for i et sammenkoblet og udviklende globalt finansielt system. . Hans nuværende arbejde fokuserer på lovgivningen og den politiske økonomi i de nuværende selskabsstyringsordninger. I den henseende har han været deltager i British Academy-projektet om Corporation's Future og udgivet 'Er Corporate Governance en første ordensårsag til den nuværende utilpashed?' Gordon fungerer også som co-direktør for det tværfaglige Columbia Center for Law and Economic Studies og for Richard Paul Richman Center for Business, Law og Public Policy, et fælles program for Columbia Law and Business Schools. Han er også en mangeårig stipendiat fra European Corporate Governance Institute (ECGI), den internationale, videnskabelige, nonprofitorganisation, hvor akademikere, lovgivere og praktikere diskuterer vigtige spørgsmål om corporate governance. Gordon sluttede sig til Columbia Law-fakultetet i 1988 efter seks år som professor ved NYU School of Law. Før han blev akademiker, var Gordon kontorist ved US Court of Appeals for the 10. Circuit, associeret i et firma i New York og advokat for US Department of Treasury i Washington, DC Ud over undervisning i Columbia , Gordon er gæsteprofessor ved det juridiske fakultet ved University of Oxford.
En perfekt perfekt match
En perfekt perfekt match
Uddrag fra Oliver Sacks bog, Musicophilia: Tales of Music and the Brain 'Jeg er kliniker, jeg er læge, jeg bærer en hvid frakke meget af tiden og lytter til mennesker,' sagde neurologen Oliver Sacks til fakultetet. og studerende ved Institut for Psykiatri på sin første dag i Columbia i september under en forelæsning ved Columbia University
Boganmeldelse: 'Nom de Plume
Boganmeldelse: 'Nom de Plume'
Uanset hvad der kan være succesen med mine historier, skrev Mary Ann Evans til en redaktør i 1857, vil jeg være fast besluttet på at bevare min inkognito, idet jeg har bemærket, at en nom de plume sikrer alle fordelene uden uenighed om ry. Evans underskrev derefter brevet og alt efterfølgende arbejde, George Eliot.
Sagen om at blokere Il Giornale.it nyhedswebsted (Italien)
Sagen om at blokere Il Giornale.it nyhedswebsted (Italien)
Columbia Global Ytringsfrihed søger at fremme forståelsen af ​​de internationale og nationale normer og institutioner, der bedst beskytter den frie strøm af information og udtryk i et sammenkoblet globalt samfund med store fælles udfordringer at tackle. For at nå sin mission foretager og bestiller Global Freedom of Expression forsknings- og politikprojekter, organiserer begivenheder og konferencer og deltager i og bidrager til globale debatter om beskyttelse af ytringsfrihed og information i det 21. århundrede.
Seismologien fra 11. september
Seismologien fra 11. september
Seismolog Won-Young Kim hørte de første rapporter fra 11. september 2001 angreb på World Trade Center, da han kørte til sit job ved Columbia Universitys Lamont-Doherty Earth Observatory. Fra sit kontor på vestbredden af ​​Hudson River, 21 miles nord for nedre Manhattan, driver Kim et netværk af seismiske instrumenter, der overvåger det nordøstlige USA for jordskælv. Da han kom på arbejde, var alle klæbet til radioen. Snart blev han oversvømmet af opkald fra embedsmænd og journalister. I det indledende kaos var det uklart, hvad der var ramt, og hvornår; havde seismograferne taget noget op?