Apache Spark SQL 连接器 - 功能和设置
您可以使用 Apache Spark SQL 数据连接器连接并访问来自 Spark SQL 数据库和 Databricks 的数据。在此页面上,可以了解相关功能、可用设置以及使用与 Apache Spark SQL 的数据连接时的注意事项。
页面内容
连接器功能
当您使用 Apache Spark SQL 连接器访问数据时,可以使用以下功能。
| 功能 | 支持? |
|---|---|
| 加载方法 |
|
| 自定义查询 | 是 |
| 预存程序 | 是 |
| 自定义连接属性 | 是 |
| 使用身份提供程序进行单点登录 | 是 |
| 在 Web 客户端中编写 | 是 |
| Linux Web Player 支持 | 是 |
数据源属性
以下是在使用 Apache Spark SQL 连接器创建数据连接时可以配置的受支持的数据源属性。
| 选项 | 说明 |
|---|---|
| 服务器 | 您的数据所在的服务器名称。 要包含 Spark Thrift Server 侦听的端口号,请将其添加到名称之后并在端口号之前附加冒号。 示例: 默认端口号: |
| 身份验证方法 | 当登录到数据库时要使用的身份验证方法。包括以下选项:
|
| 主机 FQDN | [仅适用于 Kerberos 身份验证。] Spark Thrift Server 主机的完全限定域名。有关主机 FQDN 的更多信息,请联系 Apache Spark SQL 系统管理员。 |
| 服务名称 | [仅适用于 Kerberos 身份验证。] Spark 服务器的 Kerberos 服务主体名称。例如,“spark”。有关服务名称的更多信息,请联系 Apache Spark SQL 系统管理员。 |
| 领域 | [仅适用于 Kerberos 身份验证。] Spark Thrift Server 主机的领域。如果已经为 Kerberos 设置配置了默认 Kerberos 领域,则将其保留为空。有关领域的更多信息,请联系 Apache Spark SQL 系统管理员。 |
| 身份提供程序 |
[仅适用于身份提供程序 (OAuth2) 身份验证。] 选择要用于登录数据源的身份提供程序。下拉菜单中提供的选项是您已向 OAuth2IdentityProviders 偏好添加的身份提供程序。 |
| 作用域 |
[仅适用于身份提供程序 (OAuth2) 身份验证。] 当您登录到数据源时,作用域决定了 Spotfire 代表您请求的权限。 默认值 使用您在 自定义 在文本框中手动输入作用域。用空格分隔值。
|
| Thrift 传输模式 | 选择向 Spark Thrift Server 发送请求时应使用的传输模式。包括以下选项:
|
| HTTP 路径 | [仅适用于 Thrift 传输模式 HTTP。] 指定与要连接到的 Spark 服务器对应的部分 URL。 注: 此部分 URL 会附加到在“服务器”字段中指定的主机和端口。
例如,要连接到 HTTP 地址 |
| 连接超时(秒) | 与数据库建立连接时允许等待的最长时间(以秒为单位)。默认值为 120 秒。 |
| 命令超时 (秒) | 执行一条命令所允许的最长时间(以秒为单位)。默认值为 1800 秒。 |
Apache Spark SQL 连接数据源的自定义属性
以下是允许用作 Apache Spark SQL 连接数据源中自定义属性的默认驱动程序设置列表。要了解如何更改允许的自定义属性,请参见控制允许哪些属性。
默认允许的自定义属性
ADUserNameCase, AOSS_AuthMech, AOSS_CheckCertRevocation, AOSS_Min_TLS, AOSS_PWD, AOSS_TrustedCerts,
AOSS_UID, AOSS_UseSystemTrustStore, AsyncExecPollInterval, AutoReconnect, BinaryColumnLength,
Canonicalization, CheckCertRevocation, ClientCert, ClientPrivateKey, ClientPrivateKeyPassword,
ClusterAutostartRetry, ClusterAutostartRetryTimeout, DecimalColumnScale, DefaultStringColumnLength,
DelegateKrbCreds, DelegationUID, DriverConfigTakePrecedence, EnableAsyncExec, EnablePKFK,
EnableQueryResultDownload, EnableStragglerDownloadMitigation, EnableSynchronousDownloadFallback,
FastSQLPrepare, ForceSynchronousExec, HTTPAuthCookies, InvalidSessionAutoRecover, LCaseSspKeyName,
MaximumStragglersPerQuery, Min_TLS, ProxyHost, ProxyPort, ProxyPWD, ProxyUID, QueryTimeoutOverride,
RateLimitRetry, RateLimitRetryTimeout, RowsFetchedPerBlock, ServiceDiscoveryMode, ShowSystemTable,
SocketTimeout, StragglerDownloadMultiplier, StragglerDownloadPadding, StragglerDownloadQuantile,
ThrowOnUnsupportedPkFkRestriction, TrustedCerts, TwoWaySSL, UseNativeQuery, UseOnlySSPI, UseProxy,
UseSystemTrustStore, UseUnicodeSqlCharacterTypes
受支持的数据类型
设置到外部数据源的连接时,Spotfire 需要将数据源中的数据类型映射到 Spotfire 中的数据类型。以下是 Apache Spark SQL 连接器支持的数据类型。
| 数据库数据类型 | Spotfire 数据类型 |
|---|---|
| BINARY | Binary |
| BOOLEAN | Boolean |
| TIMESTAMP | DateTime |
| TINYINT | Integer |
| SMALLINT | Integer |
| INT | Integer |
| BIGINT | LongInteger |
| DOUBLE | Real |
| FLOAT | SingleReal |
| STRING | String |
| DECIMAL (precision (p), scale (s)) | 当 p = 0 并且 s = 0 时:Currency 当 p <= 9 并且 s = 0 时:Integer 当 p <=18 并且 s = 0 时:LongInteger 当 p <= 15 时:Real 其他:Currency
注: 临时表/临时视图中的 DECIMAL 列始终映射到 Spotfire 数据类型 Currency,因为其精度 (p, s) 为无限制 (0, 0)。 |
支持的函数
支持的函数是指您在处理数据库中的数据表时可以使用的函数,例如在计算的列和自定义表达式中使用。
以下是 Apache Spark SQL 连接器支持的函数。
| 函数类型 | 支持的函数 |
|---|---|
| 日期和时间 |
DateDiff、Date_Add、Date_sub、Day、DayOfMonth、From_utc_timestamp、Hour、Minute、Month、Quarter、Second、To_date、To_utc_timestamp、Week、WeekOfYear、Year
|
| 转换 | SN
|
| 数学 |
Abs、ACos、ASin、Atan、Bin、Ceil、Ceiling、Conv、Cos、Degrees、E、Exp、Floor、Hex、Ln、Log、Log2、Log10、Negative、Pi、Pmod、Positive、Pow、Power、Radians、Rand、Round、Sign、Sin、Sqrt、Tan
|
| 运算符 |
%, +, -, *, /
|
| 统计 |
Avg、Bit_And、Bit_Or、Bool_And、Bool_Or、Corr、Count、Covar_pop、Covar_samp、Max、Min、Percentile、StdDev_Pop、StdDev_Samp、Sum、UniqueCount、Variance、Var_Pop、Var_Samp
|
| 文本 |
ASCII、Concat、Concat_ws、Find_in_set、Get_json_object、Instr、Length、Locate、Lower、Lcase、LPad、LTrim、Parse_url、Regexp_extract、Regexp_replace、Repeat、Reverse、RPad、Rtrim、Space、Translate、Trim、Ucase、Upper
|
- 临时视图/临时表
- 全局临时视图