Acessando dados do Apache Spark SQL e Databricks
Você pode acessar dados dos sistemas Spark SQL e Databricks no Spotfire.
Por Que e Quando Desempenhar Esta Tarefa
Antes de Iniciar
- O conector do Apache Spark SQL requer um driver no computador que executa o Spotfire. Consulte Drivers e fontes de dados no Spotfire.
- Para garantir que seu banco de dados seja compatível, consulte os requisitos do sistema para o conector do Apache Spark SQL.
Procedimento
-
Abra o submenu Arquivos e dados
e clique em Conectar a.
- Na lista de fontes de dados, selecione Apache Spark SQL ou Databricks.
- No painel à direita, escolha se deseja criar uma nova conexão ou adicionar dados de uma conexão de dados compartilhada:
- Conector para o Apache Spark SQL — Recursos e configurações
Você pode conectar-se e acessar dados de bancos de dados Spark SQL e Databricks com o conector de dados para o Apache Spark SQL. Nesta página, você pode encontrar informações sobre os recursos, configurações disponíveis e itens a serem considerados ao trabalhar com conexões de dados com o Apache Spark SQL.
Trabalhando e solucionando problemas de conexões de dados do Apache Spark SQL
Por Que e Quando Desempenhar Esta Tarefa
Pré-requisito: Spark Thrift Server
Para acessar dados no Apache Spark SQL com o conector Spotfire para Apache Spark SQL, o Spark Thrift Server deve ser instalado no seu cluster. O Spark Thrift Server fornece acesso ao Spark SQL via ODBC e pode não estar incluído por padrão em algumas distribuições do Hadoop.
Pré-requisito: spark.shuffle.service.enabled
Se você usar o método de carregamento no banco de dados ao se conectar ao Apache Spark 2.1 ou posterior e encontrar erros na sua análise, talvez seja necessário habilitar a opção spark.shuffle.service.enabled
no servidor Spark.
Conectando-se ao Databricks SQL Analytics
Você também pode criar uma conexão com o Apache Spark SQL para realizar consultas do Databricks SQL Analytics. Para poder se conectar ao Databricks, é necessário instalar o driver ODBC do Databricks. Verifique os requisitos do sistema para o conector do Apache Spark SQL e consulte Drivers e fontes de dados no Spotfire para encontrar o driver correto.
Cluster do Databricks que não está em execução
Ao conectar-se a um cluster Databricks que ainda não está em execução, a primeira tentativa de conexão acionará a inicialização do cluster. Isso pode levar vários minutos. O menu de seleção de Banco de Dados será preenchido assim que o Spotfire for conectado com êxito. Talvez seja clicar novamente em Conectar se a conexão expirar.
Exibições e tabelas temporárias do Apache Spark SQL em consultas personalizadas
Se você estiver criando uma consulta personalizada e quiser usar dados de uma tabela ou exibição temporária do Apache Spark SQL, deverá fazer referência a esses objetos usando seus nomes qualificados, especificando tanto o nome quanto a localização do objeto. Os nomes qualificados necessários têm o seguinte formato:
databaseName.tempViewName
Por padrão, as exibições temporárias globais são armazenadas no banco de dados global_temp
. O nome do banco de dados pode variar, e você pode vê-lo na hierarquia de tabelas de banco de dados disponíveis no Spotfire. Para selecionar todas as colunas de uma exibição temporária global denominada myGlobalTempView
, que está armazenada no banco de dados global_temp:
SELECT * FROM global_temp.myGlobalTempView
As exibições/tabelas temporárias (listadas no Spotfire em "Exibições temporárias" ou "Tabelas temporárias") estão sempre localizadas no banco de dados #temp
. Para selecionar todas as colunas em uma exibição temporária denominada myTempView
:
SELECT * FROM #temp.myTempView
Marcação de agentes de usuário
Se o driver ODBC que você estiver usando oferecer suporte para a opção UserAgentEntry
, o Spotfire incluirá a seguinte string como UserAgentEntry
nas consultas:
TIBCOSpotfire/<ProductVersion>