Méthodes de clustering
Le clustering hiérarchique commence par calculer la distance entre chaque combinaison possible de deux lignes à l'aide d'une mesure de distance préalablement sélectionnée. Une fois calculées, ces distances sont utilisées pour dériver la distance entre tous les clusters formés à partir des lignes ou des colonnes pendant le clustering.
Consultez également Mesures de distance.
Vous pouvez sélectionner l'une des méthodes de clustering suivantes :
- UPGMA
Le sigle UPGMA signifie « Unweighted Pair-Group Method with Arithmetic mean ». - WPGMA
Le sigle WPGMA signifie « Weighted Pair-Group Method with Arithmetic mean ». - Liaison unique
Cette méthode est basée sur la distance minimale. Pour calculer la distance entre deux clusters, chaque combinaison possible de deux lignes (ou colonnes) entre les deux clusters est comparée. La distance entre les clusters est identique à la distance entre les lignes (ou les colonnes) dans les clusters les moins distants. - Liaison complète
Cette méthode est basée sur la distance maximale et peut être interprétée comme l'inverse de la méthode de la liaison unique. Pour calculer la distance entre deux clusters, chaque combinaison possible de deux lignes (ou colonnes) entre les deux clusters est comparée. La distance entre les deux clusters est identique à la distance entre les deux lignes (ou colonnes) dans les clusters les plus distants. - Méthode de Ward
La méthode de Ward revient à calculer la somme incrémentale des carrés. Distance euclidienne semi carrée est la seule mesure de distance pouvant être utilisée avec cette méthode de clustering. C'est pourquoi la mesure de distance est automatiquement définie sur Distance euclidienne semi carrée lorsque la méthode de Ward est sélectionnée.
Sujet parent : Clustering hiérarchique