Zugreifen auf Daten aus Apache Spark SQL und Databricks

Sie können in Spotfire auf Daten aus Spark SQL- und Databricks-Systemen zugreifen.

Warum und wann dieser Vorgang ausgeführt wird

Um eine Verbindung zu Daten in Spark SQL- oder Databricks-Systemen herzustellen, verwenden Sie den Connector für Apache Spark SQL. Weitere Informationen zu den Funktionen, die Ihnen beim Arbeiten mit Daten aus diesen Systemen zur Verfügung stehen, finden Sie unter Connector für Apache Spark SQL – Funktionen und Einstellungen.

Vorbereitungen

Der Apache Spark SQL-Connector erfordert einen Treiber auf dem Computer, auf dem Spotfire ausgeführt wird. Weitere Informationen finden Sie unter Treiber und Datenquellen in Spotfire
Um sicherzustellen, dass Ihre Datenbank unterstützt wird, lesen Sie die Systemanforderungen für den Apache Spark SQL-Connector.

Prozedur

Klicken Sie im Flyout Dateien und Daten auf Verbinden mit.
Wählen Sie in der Liste der Datenquellen Apache Spark SQL oder Databricks aus.
Wählen Sie im rechten Bereich aus, ob Sie eine neue Verbindung erstellen oder Daten aus einer gemeinsam genutzten Datenverbindung hinzufügen möchten:
- Öffnen einer gemeinsam genutzten Datenverbindung aus der Bibliothek
- Neue Verbindung erstellen

Arbeiten mit Apache Spark SQL-Datenverbindungen und Problembehandlung

Warum und wann dieser Vorgang ausgeführt wird

Im Folgenden finden Sie Informationen speziell zum Arbeiten mit Daten aus einer Apache Spark SQL-Verbindung in Spotfire.

Voraussetzungen: Spark Thrift Server

Um mit dem Spotfire Connector für Apache Spark SQL in Apache Spark SQL auf Daten zuzugreifen, muss der Spark Thrift Server auf Ihrem Cluster installiert sein. Spark Thrift Server ermöglicht den Zugriff auf Spark SQL über ODBC; er ist möglicherweise bei einigen Hadoop-Distributionen nicht standardmäßig enthalten.

Voraussetzung: spark.shuffle.service.enabled

Wenn Sie die datenbankinterne Lademethode bei der Verbindung mit Apache Spark 2.1 oder höher verwenden und Fehler in Ihrer Analyse auftreten, sollte die Option spark.shuffle.service.enabled auf dem Spark-Server aktiviert werden.

Herstellen einer Verbindung mit Databricks SQL Analytics

Sie können auch eine Apache Spark SQL-Verbindung zum Ausführen von Databricks SQL Analytics-Abfragen erstellen. Um in Spotfire eine Verbindung zu Databricks herstellen zu können, müssen Sie den Databricks-ODBC-Treiber installieren. Überprüfen Sie die Systemanforderungen für den Apache Spark SQL-Connector. Den richtigen Treiber finden Sie unter Treiber und Datenquellen in Spotfire.

Databricks-Cluster, der nicht ausgeführt wird

Wenn Sie eine Verbindung zu einem Databricks-Cluster herstellen, der noch nicht ausgeführt wird, wird der Cluster beim ersten Verbindungsversuch gestartet. Dies kann einige Minuten dauern. Das Auswahlmenü Datenbank wird ausgefüllt, sobald Spotfire erfolgreich verbunden wurde. Möglicherweise müssen Sie erneut auf Verbinden klicken, wenn die Verbindung aufgrund einer Zeitüberschreitung getrennt wird.

Temporäre Ansichten und Tabellen von Apache Spark SQL in benutzerdefinierten Abfragen

Wenn Sie eine benutzerdefinierte Abfrage erstellen und Daten aus einer temporären Tabelle oder Ansicht von Apache Spark SQL verwenden möchten, müssen Sie mit ihren qualifizierten Namen auf diese Objekte verweisen, wobei sowohl der Name als auch der Speicherort des Objekts angegeben werden. Die erforderlichen qualifizierten Namen haben das folgende Format:

databaseName.tempViewName

Standardmäßig werden globale temporäre Ansichten in der Datenbank global_temp gespeichert. Der Datenbankname kann variieren und ist in der Hierarchie der verfügbaren Datenbanktabellen in Spotfire sichtbar. So wählen Sie alle Spalten aus einer globalen temporären Ansicht mit dem Namen myGlobalTempView aus, die in der Datenbank „global_temp“ gespeichert ist:

SELECT * FROM global_temp.myGlobalTempView

Temporäre Ansichten/Tabellen (in Spotfire unter „Temporäre Ansichten“ oder „Temporäre Tabellen“ aufgeführt) befinden sich immer in der Datenbank #temp. So wählen Sie alle Spalten in einer temporären Ansicht mit dem Namen myTempViewaus:

SELECT * FROM #temp.myTempView

Benutzer-Agent-Tagging

Wenn der von Ihnen verwendete ODBC-Treiber die UserAgentEntry-Option unterstützt, fügt Spotfire die folgende Zeichenfolge als UserAgentEntry in Abfragen ein:

TIBCOSpotfire/<Produktversion>