Frage zur Clusteranalyse (proc fastclus)
Verfasst von DrBoogie am 21 Februar, 2008 - 16:27
Ich muss eine Datei mit Clusteranalyse in zwei ungefähr gleich große Stücke schneiden. Aber egal, was ich mache, da kommt ein großes und ein kleines Stück. Gibt es irgendwelche Methode, die "gleichmäßige" Schneidung zu erzwingen? (Interessant nicht nur im Fall von zwei Stücken, sondern auch wenn ich in mehrere Stücke schneiden muss).
»
- Anmelden oder Registrieren um Kommentare zu schreiben

WARD-Algorithmus
Hallo,
hier eignet sich ggf. der WARD-Algorithmus, der zu ähnlich großen Clustern tendiert (ist implementiert in proc cluster), siehe etwa hier
SAS-Handbuch Uni Heidelberg.
Gruß
Roman Kolbe
Danke, aber ich arbeite mit
Danke, aber ich arbeite mit Dateien, die aus Millionen von Fällen und Dutzenden von Variablen bestehen. Schon proc fastclus dauert Stunden, proc cluster ist aber wesentlich langsamer. Und gibt auch die Clusterzugehörigkeit nicht direkt zurück. Aus diesen Gründen benutze ich proc fastclus.
Methode
Sind Sie sicher, dass PROC FASTCLUS die richtige Methode ist? FASTCLUS sucht eben nach "ähnlichen" Beobachtungen und clustert die und es kann eben sein, dass es einen großen und einen kleinen Cluster gibt. Mir ist keine Option von FASTCLUS bekannt, die gleichgroße Gruppen erzeugt. Man könnte natürlich nachträglich die Clusterzentroide nehmen und sich ein Zuordnungskriterium ausdenken, das die Beobachtungen wie gewünscht in zwei gleichgroßen Gruppen zuordnet.
Vielleicht gibt es aber auch ein anderes Verfahren, anhand der Variablenausprägungen zwei Gruppen zu finden oder auch per Zufallsauswahl. Dazu muss man natürlich mehr über Ihre Problemstellung wissen.
"Man könnte natürlich
"Man könnte natürlich nachträglich die Clusterzentroide nehmen und sich ein Zuordnungskriterium ausdenken, das die Beobachtungen wie gewünscht in zwei gleichgroßen Gruppen zuordnet."
Danke schön, dies scheint mir die beste Idee zu sein.