Frage zur Clusteranalyse (proc fastclus)

Ich muss eine Datei mit Clusteranalyse in zwei ungefähr gleich große Stücke schneiden. Aber egal, was ich mache, da kommt ein großes und ein kleines Stück. Gibt es irgendwelche Methode, die "gleichmäßige" Schneidung zu erzwingen? (Interessant nicht nur im Fall von zwei Stücken, sondern auch wenn ich in mehrere Stücke schneiden muss).

WARD-Algorithmus

Hallo,

hier eignet sich ggf. der WARD-Algorithmus, der zu ähnlich großen Clustern tendiert (ist implementiert in proc cluster), siehe etwa hier

SAS-Handbuch Uni Heidelberg.

Gruß

Roman Kolbe

Danke, aber ich arbeite mit

Danke, aber ich arbeite mit Dateien, die aus Millionen von Fällen und Dutzenden von Variablen bestehen. Schon proc fastclus dauert Stunden, proc cluster ist aber wesentlich langsamer. Und gibt auch die Clusterzugehörigkeit nicht direkt zurück. Aus diesen Gründen benutze ich proc fastclus.

Methode

Sind Sie sicher, dass PROC FASTCLUS die richtige Methode ist? FASTCLUS sucht eben nach "ähnlichen" Beobachtungen und clustert die und es kann eben sein, dass es einen großen und einen kleinen Cluster gibt. Mir ist keine Option von FASTCLUS bekannt, die gleichgroße Gruppen erzeugt. Man könnte natürlich nachträglich die Clusterzentroide nehmen und sich ein Zuordnungskriterium ausdenken, das die Beobachtungen wie gewünscht in zwei gleichgroßen Gruppen zuordnet.

Vielleicht gibt es aber auch ein anderes Verfahren, anhand der Variablenausprägungen zwei Gruppen zu finden oder auch per Zufallsauswahl. Dazu muss man natürlich mehr über Ihre Problemstellung wissen.

"Man könnte natürlich

"Man könnte natürlich nachträglich die Clusterzentroide nehmen und sich ein Zuordnungskriterium ausdenken, das die Beobachtungen wie gewünscht in zwei gleichgroßen Gruppen zuordnet."

Danke schön, dies scheint mir die beste Idee zu sein.