Spotfire®-Benutzerhandbuch

Dendrogramme und Clustering

Ein Dendrogramm ist ein in Baumform strukturiertes Diagramm, das in Wärmekarten verwendet wird, um das Ergebnis einer hierarchischen Clustering-Berechnung zu visualisieren. Das Ergebnis eines Clusterings wird abhängig von den ausgewählten Distanzmaßen entweder als Entfernung oder Ähnlichkeit zwischen den geclusterten Zeilen oder Spalten dargestellt.

Anmerkung: Dendrogramme müssen im installierten Client erstellt werden.
Unter Distanzmaße und in den detaillierten Beschreibungen der einzelnen Messgrößen erhalten Sie weitere Informationen zu den verfügbaren Distanzmaßen. Sie können hierarchisches Clustering für eine vorhandene Wärmekarte durchführen, indem Sie im Dialogfeld „Visualisierungseigenschaften“ im installierten Client den Abschnitt Dendrogramme öffnen. Sie können auch das Tool Hierarchisches Clustering verwenden, um mit einer Datentabelle als Eingabe zu clustern. Weitere Informationen zu hierarchischem Clustering und Heatmaps finden Sie unter Hierarchisches Clustering und Wärmekarte. Beachten Sie, dass beim Clustering nur numerische Spalten mit einbezogen werden.
Tipp: Dendrogramme können über die Seite Dendrogramme im Dialogfeld Visualisierungseigenschaften exportiert und importiert werden.
Anmerkung: Damit das Dendrogramm zum ersten Mal oder nach dem Ändern von Clustering-Einstellungen sichtbar wird, muss es aktualisiert werden. Klicken Sie in den Visualisierungseigenschaften auf die Schaltfläche Update oder wählen Sie automatische Updates aus.

Zeilendendrogramme

In einem Zeilendendrogramm wird die Entfernung oder Ähnlichkeit zwischen Zeilen dargestellt sowie zu welchen Knoten die einzelnen Zeilen aufgrund des Clusterings gehören. Im Folgenden finden Sie ein Beispiel für ein Zeilendendrogramm.

Die einzelnen Zeilen der geclusterten Daten werden im Zeilendendrogramm durch die Knoten ganz rechts dargestellt, die Endknoten. Jeder Knoten des Dendrogramms steht für ein Cluster aller Zeilen, die im Dendrogramm rechts des Knotens liegen. Der ganz linke Knoten des Dendrogramms steht daher für ein Cluster, das alle Zeilen enthält. Die vertikale gepunktete Linie ist die Beschneidungslinie. Sie kann im Dendrogramm zur Seite gezogen werden. Die Werte neben der Beschneidungslinie geben an, wie viele Cluster ab der aktuellen Position der Linie vorhanden sind, sowie die berechnete Entfernung oder Ähnlichkeit für diese Position. Im obigen Beispiel beträgt die berechnete Entfernung 1,59, und ab der Position der Beschneidungslinie sind drei Cluster vorhanden. Die oberen beiden Cluster, gekennzeichnet durch pinkfarbene Kreise, enthalten mindestens zwei Zeilen, während das untere Cluster nur eine einzelne Zeile enthält.

Spaltendendrogramme

Spaltendendrogramme werden auf die gleiche Weise gezeichnet wie Zeilendiagramme, sie zeigen jedoch die Entfernung oder Ähnlichkeit zwischen den Variablen (Spalten für Zellenwerte) an.

Im obigen Beispiel sind ab der Position der Beschneidungslinie zwei Cluster vorhanden. Das linke Cluster enthält zwei Spalten, während das Cluster ganz rechts nur eine einzelne Spalte enthält. Die berechnete Entfernung beträgt 6,08.

Interaktion mit Dendrogrammen

Mithilfe eines Dendrogramms lassen sich Daten in Wärmekarten ganz einfach markieren. Sie können die Maus über das Dendrogramm bewegen, um Cluster und ihre zugehörigen Zellen in der Wärmekarte zu markieren. Sie können Cluster auch durch Anklicken markieren. Dabei werden auch die zugehörigen Zellen in der Wärmekarte markiert, wie im Beispiel unten dargestellt. In der QuickInfo werden Informationen zu dem jeweiligen Cluster angezeigt.

Clustering

Wie bereits erwähnt, wird beim Durchführen eines Clusterings ein Dendrogramm zur Wärmekarte hinzugefügt. Es wird auch eine neue Spalte zur Datentabelle hinzugefügt und als verfügbar gemacht. Die Clusterspalte wird dynamisch mit Daten gefüllt; der Inhalt hängt von der Position der Beschneidungslinie ab. Im folgenden Beispiel wird dargestellt, wie die Clusterspalte und der Clusterfilter für das obige Zeilendendrogramm aussehen würden.

Die Clusterspalte enthält entsprechend der Position der Beschneidungslinie eindeutige IDs für die Clusterknoten. Im obigen Beispiel werden zwei Clusterknoten identifiziert. Test B, Test C und Test F gehören zu dem Clusterknoten mit der Kennung 3, während Test A und Test E zu dem Clusterknoten mit der Kennung 5 gehören. Die dritte Kennung, *6, ist ein Blattknoten, der Test D enthält. Die Clusterspalte macht es möglich, ganze Cluster gleichzeitig herauszufiltern. Sie können auf der Grundlage dieser Spalte auch Färbungen und Gitter für andere Visualisierungen erstellen.
Anmerkung: Wenn Sie ein Spaltendendrogramm zu einer Wärmekarte hinzufügen, die mit mehreren Spalten für Zellenwerte konfiguriert ist, können in der Clusterspalte keine Cluster-IDs angezeigt werden. Die Clusterspalte kann also nicht zum Filtern oder zum Färben bzw. für die Gitterdarstellung anderer Visualisierungen verwendet werden Zudem ist ein Spaltendendrogramm nicht vollständig interaktiv. So ist es eventuell nicht möglich, das Dendrogramm in der Wärmekarte zum Hervorheben oder Markieren zu verwenden. Sie können jedoch die Beschneidungslinie verschieben, um die berechnete Entfernung oder Ähnlichkeit sowie die Anzahl der Cluster anzuzeigen.

Sie können das Dendrogramm mithilfe der Visualisierungseigenschaften auf verschiedenen Seiten der Visualisierung positionieren und andere Aktualisierungen an den Einstellungen vornehmen. Die Option Logarithmische Skala verwenden ändert die Skala von einer linearen Skala in eine logarithmische Skala zur Basis 10, log10 (x), und Beschneidungslinie anzeigen gibt an, ob die Beschneidungslinie im Dendrogramm angezeigt werden soll. Sie können auch die Optionen Farbe der Beschneidungslinie, Erste Alternativfarbe für Cluster und die Zweite Alternativfarbe für Cluster in den Eigenschaften festlegen.

Importieren und Exportieren von Dendrogrammen

Alle Dendrogramme in Spotfire können in Form einer Datentabelle dargestellt werden. Dadurch können verschiedene Clustering-Methoden und statistische Berechnungen durchgeführt werden, die über diejenigen im Dialogfeld Clusteringeinstellungen bearbeiten hinausgehen. Sie können beispielsweise Datenfunktionen verwenden, um ein benutzerdefiniertes R-Skript auszuführen, das ein Clustering mit einer Methode Ihrer Wahl durchführt. Insbesondere können Sie beliebige Berechnungen nutzen, durch die Endknoten hierarchisch geordnet werden können. Das Ergebnis eines solchen Vorgangs ist eine Datentabelle, die Sie zur Analyse hinzufügen und dann in die Wärmekarte importieren können, um ein Dendrogramm anzuzeigen.

Außerdem ist es möglich, ein Dendrogramm aus einer Wärmekarte zu exportieren, die sich daraus ergebende Datentabelle anzuzeigen, Änderungen vorzunehmen und die Datentabelle dann wieder zurück in die Wärmekarte zu importieren. Sie können also Dendrogramme ändern.
Tipp: Sie können die Datentabelle zur Verwendung außerhalb von Spotfire exportieren, indem Sie auf Datei > Exportieren > Daten in Datei klicken und dann die gerade erstellte Datentabelle für den Export auswählen.

Ein weiterer Grund für das Exportieren eines Dendrogramms in eine Datentabelle und den späteren Rückimport ist eine verbesserte Leistung. Wenn Sie eine Clusteringmethode auf einen sehr großen Datensatz anwenden, können die Berechnungen einige Zeit dauern. Sobald Sie eine Clusteringmethode einmal durchgeführt haben und diese im Dendrogramm verwendet wird, können Sie das Dendrogramm exportieren und später wieder importieren, ohne das Clustering erneut durchführen zu müssen.

Bei der Datentabellendarstellung eines Dendrogramms in Spotfire muss ein bestimmtes Format eingehalten werden. Dieses Format wird in Format der Dendrogrammdatentabelle beschrieben.

Bezüglich R

R ist unter separaten Open Source-Softwarelizenzbestimmungen verfügbar und ist nicht Bestandteil von Spotfire. Somit ist R nicht durch die Lizenz von Spotfire abgedeckt. Cloud Software Group, Inc. leistet für R keinerlei Unterstützung, Wartung oder Garantie. Das Herunterladen und die Nutzung von R liegt vollständig in Ihrer eigenen Verantwortung und unterliegt den Open Source-Lizenzbestimmungen von R.