访问来自 Apache Spark SQL 和 Databricks 的数据

您可以在 Spotfire 中访问来自 Spark SQL 和 Databricks 系统的数据。

关于此任务

要连接到 Spark SQL 或 Databricks 系统中的数据，可以使用 Apache Spark SQL 连接器。要了解使用来自这些系统的数据时可用的功能和特性，请参见Apache Spark SQL 连接器 - 功能和设置。

开始之前

Apache Spark SQL 连接器要求运行 Spotfire 的计算机上有驱动程序。请参见 Spotfire 中的驱动程序和数据源。
要确保您的数据库受支持，请参见 Apache Spark SQL 连接器的系统要求。

过程

打开“文件和数据” 浮出控件，然后单击“连接至”。
在数据源列表中，选择 Apache Spark SQL 或 Databricks。
在右侧面板中，选择是否要创建新连接或从共享数据连接添加数据：
- 打开来自库的共享数据连接
- 创建新连接

使用 Apache Spark SQL 数据连接并对其进行故障排除

关于此任务

以下是有关在 Spotfire 中使用来自 Apache Spark SQL 连接的数据的具体信息。

先决条件：Spark Thrift Server

要使用 Spotfire Connector for Apache Spark SQL 访问 Apache Spark SQL 中的数据，必须在群集上安装 Spark Thrift Server。Spark Thrift Server 通过 ODBC 提供对 Spark SQL 的访问，部分 Hadoop 发行版在默认情况下可能不包含该组件。

先决条件：spark.shuffle.service.enabled

如果您在连接到 Apache Spark 2.1 或更高版本时使用数据库内加载方法并在分析中遇到错误，则可能必须在 Spark 服务器上启用选项 spark.shuffle.service.enabled。

连接到 Databricks SQL Analytics

此外，还可以创建一个 Apache Spark SQL 连接，用于执行 Databricks SQL Analytics 查询。要连接到 Databricks，必须安装 Databricks ODBC 驱动程序。请查看 Apache Spark SQL 连接器的系统要求，并参见 Spotfire 中的驱动程序和数据源，找到正确的驱动程序。

未运行的 Databricks 群集

连接到尚未运行的 Databricks 群集时，第一次尝试连接将会触发该群集启动。这可能需要几分钟时间。成功连接 Spotfire 后，将填充“数据库”选择菜单。如果连接超时，则必须再次单击“连接”。

自定义查询中的 Apache Spark SQL 临时视图和临时表

如果要创建自定义查询并使用 Apache Spark SQL 临时表或临时视图中的数据，您必须使用限定名称引用这些对象，并指定对象的名称和位置。所需的限定名称采用以下格式：

databaseName.tempViewName

默认情况下，全局临时视图存储在 global_temp 数据库中。数据库名称可能与此不同，您可以在 Spotfire 的可用数据库表的层级中查看数据库名称。要选择名为 myGlobalTempView 且存储在 global_temp 数据库中的全局临时视图中的所有列，请使用以下语句：

SELECT * FROM global_temp.myGlobalTempView

临时视图/临时表（在 Spotfire 中的“临时视图”或“临时表”下列出）始终位于 #temp 数据库中。要选择名为 myTempView 的临时视图中的所有列，请使用以下语句：

SELECT * FROM #temp.myTempView

用户代理标记

如果您使用的 ODBC 驱动程序支持 UserAgentEntry 选项，则 Spotfire 在查询中包括以下字符串作为 UserAgentEntry：

TIBCOSpotfire/<ProductVersion>