Guía del usuario de Spotfire®

Dendrogramas y agrupación en clúster

Un dendrograma es un gráfico con estructura de árbol que se usa en los mapas de calor para visualizar el resultado del cálculo de la agrupación jerárquica en clúster. El resultado de la agrupación en clúster se presenta como la distancia o como la similitud entre las filas o columnas agrupadas, según la medida de distancia seleccionada.

Nota: Los dendrogramas se deben crear en el cliente instalado.
Para obtener más información sobre las medidas de distancia disponibles, consulte Mediciones de distancia y la descripción detallada de cada medición. Es posible realizar la agrupación jerárquica en clúster en un mapa de calor existente desde la sección Dendrogramas del cuadro de diálogo Propiedades de la visualización del cliente instalado. También se puede usar la herramienta de Agrupación jerárquica en clúster con una tabla de datos como entrada. Para obtener más información sobre la agrupación jerárquica en clúster y los mapas de calor, consulte Agrupación jerárquica en clúster y Mapa de calor, respectivamente. Tenga en cuenta que cuando se realiza la agrupación en clúster, solo se incluyen las columnas numéricas.
Consejo: Los dendrogramas se pueden exportar o importar desde la página Dendrogramas en el cuadro de diálogo Propiedades de visualización.
Nota: Para que el dendrograma sea visible la primera vez, o después de que se haya cambiado la configuración de agrupación en clústeres, debe actualizarse. En las propiedades de visualización, haga clic en el botón Actualizar o elija las actualizaciones automáticas.

Dendrograma de filas

Los dendrogramas de filas muestran la distancia o la similitud entre filas, así como los nodos a los que pertenece cada fila como resultado de la agrupación. A continuación se muestra un ejemplo de dendrograma de filas.

Las filas individuales de los datos agrupados en clúster se representan mediante los nodos más a la derecha, los nodos de hoja, del dendrograma. Cada nodo del dendrograma representa un clúster de todas las filas situadas a su derecha en el dendrograma. El nodo más a la izquierda es, por lo tanto, un clúster que contiene todas las filas. La línea de puntos vertical es la línea de eliminación, que puede arrastrarse hacia los lados del dendrograma. Los valores situados cerca de la línea de eliminación indican el número de clústeres que empiezan en la posición actual de la línea, así como la distancia o la similitud calculada en esa posición. En el ejemplo anterior, la distancia calculada es de 1,59 y hay tres clústeres que empiezan en la posición de la línea de eliminación. Los dos superiores, indicados con los círculos rosa, contienen dos o más filas, mientras que el inferior solo contiene una fila individual.

Dendrograma de columnas

Los dendrogramas de columnas se dibujan del mismo modo que los de filas, pero muestran la distancia o la similitud ente las variables (las columnas de valores de celda).

En la posición de la línea de eliminación del ejemplo de arriba hay dos clústeres. El clúster más a la izquierda contiene dos columnas, mientras que el situado más a la derecha solo contiene una columna individual. La distancia calculada es de 6,08.

Interacción con el dendrograma

Un dendrograma facilita la acción de resaltar y marcar en el mapa de calor. Se puede pasar el puntero del ratón por encima del dendrograma para resaltar clústeres y sus celdas correspondientes en el mapa de calor. Se puede hacer clic para marcar un clúster y también se marcarán las celdas correspondientes del mapa de calor, como se muestra en el siguiente ejemplo. La sugerencia sobre herramienta muestra información sobre el clúster.

Agrupación en clúster

Como se mencionó anteriormente, cuando se realiza la agrupación en clúster, se agrega un dendrograma al mapa de calor. También se agrega una columna nueva a la tabla de datos y se pone a su disposición como un filtro. La columna de clúster es dinámica y la posición de la línea de eliminación decide su contenido. El ejemplo siguiente muestra el aspecto que tendrán la columna y el filtro de clúster para el dendrograma de filas de arriba.

La columna de clúster contiene identificadores exclusivos para los nodos de clúster correspondientes a la posición de la línea de eliminación. En el ejemplo anterior hay identificados dos nodos de clúster. Prueba B, Prueba C y Prueba F pertenecen al nodo de clúster con el identificador 3, mientras que Prueba A y Prueba E pertenecen al nodo con el identificador 5. El tercer identificador, *6, es un nodo de hoja que contiene Prueba D. La columna de clúster permite filtrar clústeres completos a la vez. También se puede usar para clasificar por color o enrejado otras visualizaciones.
Nota: Si agrega un dendrograma de columnas a un mapa de calor configurado con varias columnas de valores de celdas, la columna de clúster no puede mostrar los identificadores de ningún clúster. Esto significa que la columna de clúster no se puede usar para filtrar ni para clasificar por color o enrejado otras visualizaciones. Además, el dendrograma de columnas no será completamente interactivo. Por ejemplo, podría no ser posible usar el dendrograma para resaltar o marcar en el mapa de calor. Sin embargo, seguirá siendo posible mover la línea de eliminación para ver la distancia o la similitud calculada, así como el número de clústeres.

Puede colocar el dendrograma en diferentes lados de la visualización mediante las propiedades de visualización, así como realizar otras actualizaciones en la configuración. La opción Usar escala logarítmica cambia la escala de una escala lineal a una escala logarítmica de base 10, log10 (x), y Mostrar línea de eliminación especifica si se muestra la línea de eliminación en el dendrograma. También puede especificar el Color de línea de eliminación, el Primer color alterno de clúster y el Segundo color alterno de clúster en las propiedades.

Importación y exportación de dendrogramas

En Spotfire, todos los dendrogramas se pueden representar mediante una tabla de datos. Esto hace posible el uso de varios métodos de agrupación en clúster y de cálculos estadísticos, aparte de los incluidos en el cuadro de diálogo Editar configuración de agrupación en clúster. Por ejemplo, puede utilizar funciones de datos para ejecutar un script de R personalizado, que realiza una agrupación en clústeres con un método de su elección. En concreto, puede usar cualquier cálculo que pueda ordenar hojas de forma jerárquica. El resultado de estos procedimientos será una tabla de datos, que puede agregar al análisis e importar al mapa de calor para usarla a fin de mostrar un dendrograma.

También puede exportar un dendrograma a partir de un mapa de calor, ver la tabla de datos resultante, realizar modificaciones y volver a importarlas al mapa de calor para modificar así el dendrograma.
Consejo: Para exportar esta tabla de datos para usarla fuera de Spotfire, utilice Archivo > Exportar > Datos a archivo y seleccione exportar la tabla de datos que acaba de crear.

Otra razón para exportar un dendrograma a una tabla de datos y, posteriormente, volver a importarlo es el rendimiento. Si tiene un conjunto de datos muy grande y le aplica un método de agrupación en clúster, los cálculos podrían tardar mucho. Si ha ejecutado alguna vez un método de agrupación en clúster que se use en un dendrograma, puede exportarlo e importarlo más tarde sin tener que volver a realizar la agrupación en clúster de nuevo.

La representación de tabla de datos de un dendrograma usada en Spotfire debe tener un formato concreto. Este formato se describe en Formato de la tabla de datos del dendrograma.

Acerca de R

R está disponible bajo los términos de una licencia de software de código abierto y no forma parte de Spotfire. Por lo tanto, R no queda cubierto por la licencia de Spotfire. Cloud Software Group, Inc. no ofrece asistencia técnica, mantenimiento ni garantías de ningún tipo relacionados con R. La descarga y el uso de R son de su responsabilidad exclusiva y se rigen por los términos de la licencia de código abierto aplicables a R.