Guía del usuario de Spotfire®

Acceder a datos de Apache Spark SQL y Databricks

Puede acceder a datos de sistemas Spark SQL y Databricks en Spotfire.

Por qué y cuándo se efectúa esta tarea

Para conectarse a datos en sistemas Spark SQL o Databricks, use el conector para Apache Spark SQL. Para conocer las funciones y características disponibles cuando se trabaja con datos de estos sistemas, consulte Conector para Apache Spark SQL: características y configuraciones.

Antes de empezar

Procedimiento

  1. En el menú flotante Archivos y datos , haga clic en Conectar.
  2. En la lista de orígenes de datos, seleccione Apache Spark SQL o Databricks.
  3. En el panel de la derecha, elija si quiere crear una nueva conexión o agregar datos desde una conexión de datos compartida:

Trabajar con conexiones de datos de Apache Spark SQL y solucionar problemas relacionados

Por qué y cuándo se efectúa esta tarea

La siguiente información es específica sobre cómo trabajar con datos de una conexión de Apache Spark SQL en Spotfire.

Requisito previo: Spark Thrift Server

Para acceder a los datos en Apache Spark SQL con el conector de Spotfire para Apache Spark SQL, Spark Thrift Server debe estar instalado en el clúster. Spark Thrift Server proporciona acceso a Spark SQL a través de ODBC, y puede que no se incluya de forma predeterminada en algunas distribuciones de Hadoop.

Requisito previo: spark.shuffle.service.enabled

Si utiliza el método de carga en la base de datos al conectarse a Apache Spark 2.1 o posterior, y encuentra errores en el análisis, es posible que tenga que habilitar la opción spark.shuffle.service.enabled en el servidor de Spark.

Conexión a Databricks SQL Analytics

También puede crear una conexión Apache Spark SQL para realizar consultas de Databricks SQL Analytics. Para poder conectarse a Databricks, debe instalar el controlador ODBC de Databricks. Compruebe los requisitos del sistema para el conector de Apache Spark SQL y consulte Controladores y orígenes de datos en Spotfire para encontrar el controlador correcto.

Clúster de Databricks que no se está ejecutando

Al conectarse a un clúster de Databricks que aún no se está ejecutando, el primer intento de conexión activará el inicio del clúster. Esto puede tardar varios minutos. El menú de selección de Base de datos se rellenará una vez que Spotfire se conecte correctamente. Es posible que deba hacer clic en Conectar nuevamente si se supera el tiempo de espera de la conexión.

Tablas y vistas temporales de Apache Spark SQL en consultas personalizadas

Si está creando una consulta personalizada y desea utilizar datos de una tabla o una vista temporal de Apache Spark SQL, debe hacer referencia a estos objetos utilizando sus nombres calificados, especificando tanto el nombre como la ubicación del objeto. Los nombres calificados requeridos tienen el formato siguiente:

databaseName.tempViewName

De forma predeterminada, las vistas temporales globales se almacenan en la base de datos global_temp. El nombre de la base de datos puede variar, y se puede ver en la jerarquía de tablas de base de datos disponibles en Spotfire. Para seleccionar todas las columnas de una vista temporal global denominada myGlobalTempView, que se almacena en la base de datos global_temp:

SELECT * FROM global_temp.myGlobalTempView

Las vistas temporales/tablas (enumeradas en Spotfire bajo "Vistas temporales" o "Tablas temporales") siempre se encuentran en la base de datos #temp. Para seleccionar todas las columnas de una vista temporal denominada myTempView:

SELECT * FROM #temp.myTempView

Etiquetado de agente de usuario

Si el controlador ODBC que utiliza admite la opción UserAgentEntry, Spotfire incluye la siguiente cadena como UserAgentEntry en las consultas:

TIBCOSpotfire/<ProductVersion>