Accesso ai dati da Apache Spark SQL e Databricks
È possibile accedere ai dati dai sistemi Spark SQL e Databricks in Spotfire.
Informazioni su questa attività
Prima di iniziare
- Il connettore Apache Spark SQL richiede un driver sul computer che esegue Spotfire. Vedere Driver e origini dati in Spotfire.
- Per assicurarsi che il proprio database sia supportato, consultare i requisiti di sistema per il connettore Apache Spark SQL.
Procedura
-
Aprire il riquadro a comparsa File e dati
e fare clic su Connetti a.
- Nell'elenco delle origini dati selezionare Apache Spark SQL o Databricks.
- Nel pannello a destra, scegliere se creare una nuova connessione o aggiungere dati da una connessione dati condivisa:
- Connettore per Apache Spark SQL: funzionalità e impostazioni
È possibile connettersi e accedere ai dati dai database Spark SQL e Databricks con il connettore dati per Apache Spark SQL. In questa pagina sono illustrate le funzionalità, le impostazioni disponibili e gli aspetti da considerare quando si utilizza una connessioni dati a Apache Spark SQL.
Utilizzo e risoluzione dei problemi relativi alle connessioni dati di Apache Spark SQL
Informazioni su questa attività
Prerequisito: Spark Thrift Server
Per poter accedere ai dati in Apache Spark SQL con il connettore di Spotfire per Apache Spark SQL, nel cluster dev'essere installato Spark Thrift Server. Spark Thrift Server fornisce l'accesso a Spark SQL attraverso ODBC e in alcune distribuzioni Hadoop potrebbe non essere incluso per impostazione predefinita.
Prerequisito: spark.shuffle.service.enabled
se si utilizza il metodo di caricamento interno al database quando si effettua la connessione ad Apache Spark 2.1 o versione successiva e si riscontrano errori nell'analisi, può essere necessario abilitare l'opzione spark.shuffle.service.enabled sul server Spark.
Connessione a Databricks SQL Analytics
È inoltre possibile creare una connessione SQL di Apache Spark per eseguire query di Databricks SQL Analytics. Per poter stabilire la connessione a Databricks, è necessario installare il driver ODBC di Databricks. Verificare i requisiti di sistema per il connettore SQL di Apache Spark e vedere Driver e origini dati in Spotfire per individuare il driver giusto.
Cluster Databricks non in esecuzione
quando si stabilisce una connessione a un cluster Databricks che non è già in esecuzione, il primo tentativo di connessione attiverà l'avvio del cluster. Questa fase può richiedere diversi minuti. Il menu di selezione del database verrà popolato non appena Spotfire verrà connesso. In caso di timeout della connessione sarà necessario fare di nuovo clic su Connetti.
Viste e tabelle temporanee di Apache Spark SQL in query personalizzate
Se si sta creando una query personalizzata e si desidera utilizzare dati provenienti da una tabella o una vista temporanea di Apache Spark SQL, è necessario fare riferimento a questi oggetti utilizzando i rispettivi nomi completi, specificando sia il nome che la posizione dell'oggetto. I nomi completi richiesti sono espressi nel seguente formato:
databaseName.tempViewName
Per impostazione predefinita, le viste temporanee globali sono archiviate nel database global_temp. Il nome del database può variare ed è possibile visualizzarlo nella gerarchia delle tabelle del database disponibili in Spotfire. Per selezionare tutte le colonne da una vista temporanea globale denominata myGlobalTempView, archiviata nel database global_temp:
SELECT * FROM global_temp.myGlobalTempView
Le viste/tabelle temporanee (elencate in Spotfire sotto "Viste temporanee" o "Tabelle temporanee") vengono sempre archiviate nel database #temp. Per selezionare tutte le colonne contenute in una vista temporanea denominata myTempView:
SELECT * FROM #temp.myTempView
Apporre un tag all'agente utente
Se il driver ODBC utilizzato supporta l'opzione UserAgentEntry, Spotfire include la seguente stringa come UserAgentEntry nelle query:
TIBCOSpotfire/<ProductVersion>