Zugreifen auf Daten aus Apache Spark SQL und Databricks
Sie können in Spotfire auf Daten aus Spark SQL- und Databricks-Systemen zugreifen.
Warum und wann dieser Vorgang ausgeführt wird
Vorbereitungen
- Der Apache Spark SQL-Connector erfordert einen Treiber auf dem Computer, auf dem Spotfire ausgeführt wird. Weitere Informationen finden Sie unter Treiber und Datenquellen in Spotfire
- Um sicherzustellen, dass Ihre Datenbank unterstützt wird, lesen Sie die Systemanforderungen für den Apache Spark SQL-Connector.
Prozedur
-
Klicken Sie im Flyout Dateien und Daten
auf Verbinden mit.
- Wählen Sie in der Liste der Datenquellen Apache Spark SQL oder Databricks aus.
- Wählen Sie im rechten Bereich aus, ob Sie eine neue Verbindung erstellen oder Daten aus einer gemeinsam genutzten Datenverbindung hinzufügen möchten:
- Connector für Apache Spark SQL – Funktionen und Einstellungen
Mit dem Daten-Connector für Apache Spark SQL können Sie eine Verbindung zu Spark SQL-Datenbanken und Databricks herstellen und auf Daten aus diesen zugreifen. Auf dieser Seite finden Sie Informationen zu den Funktionen, den verfügbaren Einstellungen und den Besonderheiten, die Sie beachten sollten, wenn Sie mit Datenverbindungen zu Apache Spark SQL arbeiten.
Arbeiten mit Apache Spark SQL-Datenverbindungen und Problembehandlung
Warum und wann dieser Vorgang ausgeführt wird
Voraussetzungen: Spark Thrift Server
Um mit dem Spotfire Connector für Apache Spark SQL in Apache Spark SQL auf Daten zuzugreifen, muss der Spark Thrift Server auf Ihrem Cluster installiert sein. Spark Thrift Server ermöglicht den Zugriff auf Spark SQL über ODBC; er ist möglicherweise bei einigen Hadoop-Distributionen nicht standardmäßig enthalten.
Voraussetzung: spark.shuffle.service.enabled
Wenn Sie die datenbankinterne Lademethode bei der Verbindung mit Apache Spark 2.1 oder höher verwenden und Fehler in Ihrer Analyse auftreten, sollte die Option spark.shuffle.service.enabled auf dem Spark-Server aktiviert werden.
Herstellen einer Verbindung mit Databricks SQL Analytics
Sie können auch eine Apache Spark SQL-Verbindung zum Ausführen von Databricks SQL Analytics-Abfragen erstellen. Um in Spotfire eine Verbindung zu Databricks herstellen zu können, müssen Sie den Databricks-ODBC-Treiber installieren. Überprüfen Sie die Systemanforderungen für den Apache Spark SQL-Connector. Den richtigen Treiber finden Sie unter Treiber und Datenquellen in Spotfire.
Databricks-Cluster, der nicht ausgeführt wird
Wenn Sie eine Verbindung zu einem Databricks-Cluster herstellen, der noch nicht ausgeführt wird, wird der Cluster beim ersten Verbindungsversuch gestartet. Dies kann einige Minuten dauern. Das Auswahlmenü Datenbank wird ausgefüllt, sobald Spotfire erfolgreich verbunden wurde. Möglicherweise müssen Sie erneut auf Verbinden klicken, wenn die Verbindung aufgrund einer Zeitüberschreitung getrennt wird.
Temporäre Ansichten und Tabellen von Apache Spark SQL in benutzerdefinierten Abfragen
Wenn Sie eine benutzerdefinierte Abfrage erstellen und Daten aus einer temporären Tabelle oder Ansicht von Apache Spark SQL verwenden möchten, müssen Sie mit ihren qualifizierten Namen auf diese Objekte verweisen, wobei sowohl der Name als auch der Speicherort des Objekts angegeben werden. Die erforderlichen qualifizierten Namen haben das folgende Format:
databaseName.tempViewName
Standardmäßig werden globale temporäre Ansichten in der Datenbank global_temp gespeichert. Der Datenbankname kann variieren und ist in der Hierarchie der verfügbaren Datenbanktabellen in Spotfire sichtbar. So wählen Sie alle Spalten aus einer globalen temporären Ansicht mit dem Namen myGlobalTempView aus, die in der Datenbank „global_temp“ gespeichert ist:
SELECT * FROM global_temp.myGlobalTempView
Temporäre Ansichten/Tabellen (in Spotfire unter „Temporäre Ansichten“ oder „Temporäre Tabellen“ aufgeführt) befinden sich immer in der Datenbank #temp. So wählen Sie alle Spalten in einer temporären Ansicht mit dem Namen myTempViewaus:
SELECT * FROM #temp.myTempView
Benutzer-Agent-Tagging
Wenn der von Ihnen verwendete ODBC-Treiber die UserAgentEntry-Option unterstützt, fügt Spotfire die folgende Zeichenfolge als UserAgentEntry in Abfragen ein:
TIBCOSpotfire/<Produktversion>