Guida per l'utente di Spotfire® Web Client

Accesso ai dati da Apache Spark SQL e Databricks

È possibile accedere ai dati dai sistemi Spark SQL e Databricks in Spotfire.

Informazioni su questa attività

Per connettersi ai dati in sistemi Spark SQL o Databricks, usare il connettore per Apache Spark SQL. Per informazioni sulle funzionalità e caratteristiche disponibili quando si lavora con i dati di questi sistemi, vedere Connettore per Apache Spark SQL: funzionalità e impostazioni.

Prima di iniziare

Procedura

  1. Aprire il riquadro a comparsa File e dati e fare clic su Connetti a.
  2. Nell'elenco delle origini dati selezionare Apache Spark SQL o Databricks.
  3. Nel pannello a destra, scegliere se creare una nuova connessione o aggiungere dati da una connessione dati condivisa:

Utilizzo e risoluzione dei problemi relativi alle connessioni dati di Apache Spark SQL

Informazioni su questa attività

Di seguito sono riportate informazioni specifiche sull'utilizzo dei dati da una connessione Apache Spark SQL in Spotfire.

Prerequisito: Spark Thrift Server

Per poter accedere ai dati in Apache Spark SQL con il connettore di Spotfire per Apache Spark SQL, nel cluster dev'essere installato Spark Thrift Server. Spark Thrift Server fornisce l'accesso a Spark SQL attraverso ODBC e in alcune distribuzioni Hadoop potrebbe non essere incluso per impostazione predefinita.

Prerequisito: spark.shuffle.service.enabled

se si utilizza il metodo di caricamento interno al database quando si effettua la connessione ad Apache Spark 2.1 o versione successiva e si riscontrano errori nell'analisi, può essere necessario abilitare l'opzione spark.shuffle.service.enabled sul server Spark.

Connessione a Databricks SQL Analytics

È inoltre possibile creare una connessione SQL di Apache Spark per eseguire query di Databricks SQL Analytics. Per poter stabilire la connessione a Databricks, è necessario installare il driver ODBC di Databricks. Verificare i requisiti di sistema per il connettore SQL di Apache Spark e vedere Driver e origini dati in Spotfire per individuare il driver giusto.

Cluster Databricks non in esecuzione

quando si stabilisce una connessione a un cluster Databricks che non è già in esecuzione, il primo tentativo di connessione attiverà l'avvio del cluster. Questa fase può richiedere diversi minuti. Il menu di selezione del database verrà popolato non appena Spotfire verrà connesso. In caso di timeout della connessione sarà necessario fare di nuovo clic su Connetti.

Viste e tabelle temporanee di Apache Spark SQL in query personalizzate

Se si sta creando una query personalizzata e si desidera utilizzare dati provenienti da una tabella o una vista temporanea di Apache Spark SQL, è necessario fare riferimento a questi oggetti utilizzando i rispettivi nomi completi, specificando sia il nome che la posizione dell'oggetto. I nomi completi richiesti sono espressi nel seguente formato:

databaseName.tempViewName

Per impostazione predefinita, le viste temporanee globali sono archiviate nel database global_temp. Il nome del database può variare ed è possibile visualizzarlo nella gerarchia delle tabelle del database disponibili in Spotfire. Per selezionare tutte le colonne da una vista temporanea globale denominata myGlobalTempView, archiviata nel database global_temp:

SELECT * FROM global_temp.myGlobalTempView

Le viste/tabelle temporanee (elencate in Spotfire sotto "Viste temporanee" o "Tabelle temporanee") vengono sempre archiviate nel database #temp. Per selezionare tutte le colonne contenute in una vista temporanea denominata myTempView:

SELECT * FROM #temp.myTempView

Apporre un tag all'agente utente

Se il driver ODBC utilizzato supporta l'opzione UserAgentEntry, Spotfire include la seguente stringa come UserAgentEntry nelle query:

TIBCOSpotfire/<ProductVersion>