Acessando dados do Apache Spark SQL e Databricks

Você pode acessar dados dos sistemas Spark SQL e Databricks no Spotfire.

Por Que e Quando Desempenhar Esta Tarefa

Para se conectar aos dados em sistemas Spark SQL ou Databricks, você usa o conector para o Apache Spark SQL. Para saber mais sobre a funcionalidade e os recursos disponíveis ao trabalhar com dados desses sistemas, consulte Conector para o Apache Spark SQL — Recursos e configurações.

Antes de Iniciar

O conector do Apache Spark SQL requer um driver no computador que executa o Spotfire. Consulte Drivers e fontes de dados no Spotfire.
Para garantir que seu banco de dados seja compatível, consulte os requisitos do sistema para o conector do Apache Spark SQL.

Procedimento

Abra o submenu Arquivos e dados e clique em Conectar a.
Na lista de fontes de dados, selecione Apache Spark SQL ou Databricks.
No painel à direita, escolha se deseja criar uma nova conexão ou adicionar dados de uma conexão de dados compartilhada:
- Abrindo uma conexão de dados compartilhada da biblioteca
- Criar nova conexão

Trabalhando e solucionando problemas de conexões de dados do Apache Spark SQL

Por Que e Quando Desempenhar Esta Tarefa

Veja a seguir informações específicas sobre como trabalhar com dados de uma conexão do Apache Spark SQL no Spotfire.

Pré-requisito: Spark Thrift Server

Para acessar dados no Apache Spark SQL com o conector Spotfire para Apache Spark SQL, o Spark Thrift Server deve ser instalado no seu cluster. O Spark Thrift Server fornece acesso ao Spark SQL via ODBC e pode não estar incluído por padrão em algumas distribuições do Hadoop.

Pré-requisito: spark.shuffle.service.enabled

Se você usar o método de carregamento no banco de dados ao se conectar ao Apache Spark 2.1 ou posterior e encontrar erros na sua análise, talvez seja necessário habilitar a opção spark.shuffle.service.enabled no servidor Spark.

Conectando-se ao Databricks SQL Analytics

Você também pode criar uma conexão com o Apache Spark SQL para realizar consultas do Databricks SQL Analytics. Para poder se conectar ao Databricks, é necessário instalar o driver ODBC do Databricks. Verifique os requisitos do sistema para o conector do Apache Spark SQL e consulte Drivers e fontes de dados no Spotfire para encontrar o driver correto.

Cluster do Databricks que não está em execução

Ao conectar-se a um cluster Databricks que ainda não está em execução, a primeira tentativa de conexão acionará a inicialização do cluster. Isso pode levar vários minutos. O menu de seleção de Banco de Dados será preenchido assim que o Spotfire for conectado com êxito. Talvez seja clicar novamente em Conectar se a conexão expirar.

Exibições e tabelas temporárias do Apache Spark SQL em consultas personalizadas

Se você estiver criando uma consulta personalizada e quiser usar dados de uma tabela ou exibição temporária do Apache Spark SQL, deverá fazer referência a esses objetos usando seus nomes qualificados, especificando tanto o nome quanto a localização do objeto. Os nomes qualificados necessários têm o seguinte formato:

databaseName.tempViewName

Por padrão, as exibições temporárias globais são armazenadas no banco de dados global_temp. O nome do banco de dados pode variar, e você pode vê-lo na hierarquia de tabelas de banco de dados disponíveis no Spotfire. Para selecionar todas as colunas de uma exibição temporária global denominada myGlobalTempView, que está armazenada no banco de dados global_temp:

SELECT * FROM global_temp.myGlobalTempView

As exibições/tabelas temporárias (listadas no Spotfire em "Exibições temporárias" ou "Tabelas temporárias") estão sempre localizadas no banco de dados #temp. Para selecionar todas as colunas em uma exibição temporária denominada myTempView:

SELECT * FROM #temp.myTempView

Marcação de agentes de usuário

Se o driver ODBC que você estiver usando oferecer suporte para a opção UserAgentEntry, o Spotfire incluirá a seguinte string como UserAgentEntry nas consultas:

TIBCOSpotfire/<ProductVersion>