Spotfire® 用户指南

Apache Spark SQL 连接器 - 功能和设置

您可以使用 Apache Spark SQL 数据连接器连接并访问来自 Spark SQL 数据库和 Databricks 的数据。在此页面上,可以了解相关功能、可用设置以及使用与 Apache Spark SQL 的数据连接时的注意事项。

页面内容

连接器功能

当您使用 Apache Spark SQL 连接器访问数据时,可以使用以下功能。

功能 支持?
加载方法
  • 导入(内存中)
  • 外部(数据库内)
  • 按需
自定义查询
预存程序
自定义连接属性
使用身份提供程序进行单点登录
在 Web 客户端中编写
包含在 Linux 上的 Spotfire 发行版中

数据源属性

以下是在使用 Apache Spark SQL 连接器创建数据连接时可以配置的受支持的数据源属性。

选项 说明
服务器 您的数据所在的服务器名称。

要包含 Spark Thrift Server 侦听的端口号,请将其添加到名称之后并在端口号之前附加冒号。

示例:MyDatabaseServer:10001

默认端口号:10000

身份验证方法 当登录到数据库时要使用的身份验证方法。包括以下选项:
  • 无身份验证
  • Kerberos
  • 用户名
  • 用户名和密码
  • Microsoft Azure HDInsight 服务
  • 身份提供程序 (OAuth2)
主机 FQDN [仅适用于 Kerberos 身份验证。]

Spark Thrift Server 主机的完全限定域名。有关主机 FQDN 的更多信息,请联系 Apache Spark SQL 系统管理员。

服务名称 [仅适用于 Kerberos 身份验证。]

Spark 服务器的 Kerberos 服务主体名称。例如,“spark”。有关服务名称的更多信息,请联系 Apache Spark SQL 系统管理员。

领域 [仅适用于 Kerberos 身份验证。]

Spark Thrift Server 主机的领域。如果已经为 Kerberos 设置配置了默认 Kerberos 领域,则将其保留为空。有关领域的更多信息,请联系 Apache Spark SQL 系统管理员。

身份提供程序

[仅适用于身份提供程序 (OAuth2) 身份验证。]

选择要用于登录数据源的身份提供程序。下拉菜单中提供的选项是您已向 OAuth2IdentityProviders 偏好添加的身份提供程序。

作用域

[仅适用于身份提供程序 (OAuth2) 身份验证。]

当您登录到数据源时,作用域决定了 Spotfire 代表您请求的权限。

默认值

使用您在 OAuth2IdentityProviders 偏好中为身份提供程序指定的默认作用域。

自定义

在文本框中手动输入作用域。用空格分隔值。

Scope_1 Scope_2
使用安全套接层 (SSL) 选中此复选框可使用 SSL 进行连接。

默认情况下启用 SSL。

允许公用名称与主机名不匹配 [仅在选择“使用安全套接层(SSL)”时才适用。]

如果允许证书名称与服务器的主机名不匹配,则选中此复选框。

允许自签名服务器证书 [仅在选择“使用安全套接层(SSL)”时才适用。]

选中该复选框可允许来自服务器的自签名证书。

使用系统信任库 [仅在选择“使用安全套接层(SSL)”时才适用。]

使用运行 Spotfire 的计算机上的系统信任库中的受信任证书来验证服务器身份。

Thrift 传输模式 选择向 Spark Thrift Server 发送请求时应使用的传输模式。包括以下选项:
  • 默认(Spark SQL ODBC 驱动程序将使用二进制或 SASL,具体取决于要连接到的 Spark 服务器版本。)
  • Binary
  • SASL
  • HTTP
HTTP 路径 [仅适用于 Thrift 传输模式 HTTP。]

指定与要连接到的 Spark 服务器对应的部分 URL。

注: 此部分 URL 会附加到在“服务器”字段中指定的主机和端口。

例如,要连接到 HTTP 地址 http://example.com:10002/gateway/default/spark,您可以输入以下内容:

Server: example.com:10002
HTTP Path: /gateway/default/spark
连接超时(秒) 与数据库建立连接时允许等待的最长时间(以秒为单位)。默认值为 120 秒。
命令超时 (秒) 执行一条命令所允许的最长时间(以秒为单位)。默认值为 1800 秒。
目录 从中访问数据的目录。

Apache Spark SQL 连接数据源的自定义属性

以下是允许用作 Apache Spark SQL 连接数据源中自定义属性的默认驱动程序设置列表。要了解如何更改允许的自定义属性,请参见控制允许哪些属性

默认允许的自定义属性

ADUserNameCase, AOSS_AuthMech, AOSS_CheckCertRevocation, AOSS_Min_TLS, AOSS_PWD, AOSS_TrustedCerts,
AOSS_UID, AOSS_UseSystemTrustStore, AsyncExecPollInterval, AutoReconnect, BinaryColumnLength, 
Canonicalization, CheckCertRevocation, ClientCert, ClientPrivateKey, ClientPrivateKeyPassword, 
ClusterAutostartRetry, ClusterAutostartRetryTimeout, DecimalColumnScale, DefaultStringColumnLength, 
DelegateKrbCreds, DelegationUID, DriverConfigTakePrecedence, EnableAsyncExec, EnablePKFK, 
EnableQueryResultDownload, EnableStragglerDownloadMitigation, EnableSynchronousDownloadFallback,
FastSQLPrepare, ForceSynchronousExec, HTTPAuthCookies, InvalidSessionAutoRecover, LCaseSspKeyName,
MaximumStragglersPerQuery, Min_TLS, ProxyHost, ProxyPort, ProxyPWD, ProxyUID, QueryTimeoutOverride,
RateLimitRetry, RateLimitRetryTimeout, RowsFetchedPerBlock, ServiceDiscoveryMode, ShowSystemTable, 
SocketTimeout, StragglerDownloadMultiplier, StragglerDownloadPadding, StragglerDownloadQuantile, 
ThrowOnUnsupportedPkFkRestriction, TrustedCerts, TwoWaySSL, UseNativeQuery, UseOnlySSPI, UseProxy, 
UseUnicodeSqlCharacterTypes

受支持的数据类型

设置到外部数据源的连接时,Spotfire 需要将数据源中的数据类型映射到 Spotfire 中的数据类型。以下是 Apache Spark SQL 连接器支持的数据类型。

数据库数据类型 Spotfire 数据类型
BINARY Binary
BOOLEAN Boolean
TIMESTAMP DateTime
TINYINT Integer
SMALLINT Integer
INT Integer
BIGINT LongInteger
DOUBLE Real
FLOAT SingleReal
STRING String
DECIMAL (precision (p), scale (s)) 当 p = 0 并且 s = 0 时:Currency

当 p <= 9 并且 s = 0 时:Integer

当 p <= 18 并且 s = 0 时:LongInteger

当 p <= 15 时:Real

其他:Currency
注: 临时表/临时视图中的 DECIMAL 列始终映射到 Spotfire 数据类型 Currency,因为其精度 (p, s) 为无限制 (0, 0)。

支持的函数

支持的函数是指您在处理数据库中的数据表时可以使用的函数,例如在计算的列和自定义表达式中使用。

注: 您的数据库可能无法使用某些受支持的函数。这取决于数据库中可用的函数,不同数据库版本和类型之间通常会有差异。

以下是 Apache Spark SQL 连接器支持的函数。

函数类型 支持的函数
日期和时间 DateDiffDate_AddDate_subDay, DayOfMonthFrom_utc_timestampHourMinuteMonthQuarterSecondTo_dateTo_utc_timestampWeekWeekOfYearYear
转换 SN
数学 AbsACosASinAtanBinCeilCeilingConvCosDegreesEExpFloorHexLnLogLog2Log10NegativePiPmodPositivePowPowerRadiansRandRoundSignSinSqrtTan
运算符 %+-*/
统计 AvgBit_AndBit_OrBool_AndBool_OrCorrCountCovar_popCovar_sampMaxMinPercentileStdDev_PopStdDev_SampSumUniqueCountVarianceVar_PopVar_Samp
文本 ASCIIConcatConcat_wsFind_in_setGet_json_objectInstrLengthLocateLowerLcaseLPadLTrimParse_urlRegexp_extractRegexp_replaceRepeatReverseRPadRtrimSpaceTranslateTrimUcaseUpper
其他支持的功能
  • 临时视图/临时表
  • 全局临时视图
注: 此连接器不支持合并功能。