Acceder a datos de Apache Spark SQL y Databricks
Puede acceder a datos de sistemas Spark SQL y Databricks en Spotfire.
Por qué y cuándo se efectúa esta tarea
Antes de empezar
- El conector de Apache Spark SQL requiere un controlador en el equipo que ejecuta Spotfire. Consulte Controladores y orígenes de datos en Spotfire.
- Para asegurarse de que su base de datos sea compatible, consulte los requisitos del sistema para el conector de Apache Spark SQL.
Procedimiento
-
En el menú flotante Archivos y datos
, haga clic en Conectar.
- En la lista de orígenes de datos, seleccione Apache Spark SQL o Databricks.
- En el panel de la derecha, elija si quiere crear una nueva conexión o agregar datos desde una conexión de datos compartida:
- Conector para Apache Spark SQL: características y configuraciones
Puede conectarse y acceder a datos de bases de datos Spark SQL y Databricks con el conector de datos para Apache Spark SQL. En esta página puede encontrar información sobre las capacidades, configuraciones disponibles y otros aspectos que debe tener en cuenta al trabajar con conexiones de datos a Apache Spark SQL.
Trabajar con conexiones de datos de Apache Spark SQL y solucionar problemas relacionados
Por qué y cuándo se efectúa esta tarea
Requisito previo: Spark Thrift Server
Para acceder a los datos en Apache Spark SQL con el conector de Spotfire para Apache Spark SQL, Spark Thrift Server debe estar instalado en el clúster. Spark Thrift Server proporciona acceso a Spark SQL a través de ODBC, y puede que no se incluya de forma predeterminada en algunas distribuciones de Hadoop.
Requisito previo: spark.shuffle.service.enabled
Si utiliza el método de carga en la base de datos al conectarse a Apache Spark 2.1 o posterior, y encuentra errores en el análisis, es posible que tenga que habilitar la opción spark.shuffle.service.enabled en el servidor de Spark.
Conexión a Databricks SQL Analytics
También puede crear una conexión Apache Spark SQL para realizar consultas de Databricks SQL Analytics. Para poder conectarse a Databricks, debe instalar el controlador ODBC de Databricks. Compruebe los requisitos del sistema para el conector de Apache Spark SQL y consulte Controladores y orígenes de datos en Spotfire para encontrar el controlador correcto.
Clúster de Databricks que no se está ejecutando
Al conectarse a un clúster de Databricks que aún no se está ejecutando, el primer intento de conexión activará el inicio del clúster. Esto puede tardar varios minutos. El menú de selección de Base de datos se rellenará una vez que Spotfire se conecte correctamente. Es posible que deba hacer clic en Conectar nuevamente si se supera el tiempo de espera de la conexión.
Tablas y vistas temporales de Apache Spark SQL en consultas personalizadas
Si está creando una consulta personalizada y desea utilizar datos de una tabla o una vista temporal de Apache Spark SQL, debe hacer referencia a estos objetos utilizando sus nombres calificados, especificando tanto el nombre como la ubicación del objeto. Los nombres calificados requeridos tienen el formato siguiente:
databaseName.tempViewName
De forma predeterminada, las vistas temporales globales se almacenan en la base de datos global_temp. El nombre de la base de datos puede variar, y se puede ver en la jerarquía de tablas de base de datos disponibles en Spotfire. Para seleccionar todas las columnas de una vista temporal global denominada myGlobalTempView, que se almacena en la base de datos global_temp:
SELECT * FROM global_temp.myGlobalTempView
Las vistas temporales/tablas (enumeradas en Spotfire bajo "Vistas temporales" o "Tablas temporales") siempre se encuentran en la base de datos #temp. Para seleccionar todas las columnas de una vista temporal denominada myTempView:
SELECT * FROM #temp.myTempView
Etiquetado de agente de usuario
Si el controlador ODBC que utiliza admite la opción UserAgentEntry, Spotfire incluye la siguiente cadena como UserAgentEntry en las consultas:
TIBCOSpotfire/<ProductVersion>