TIBCO Data Virtualization データへの TIBCO Data Science - Team Studio からのアクセス

TIBCO Data Science - Team Studio から TIBCO Data Virtualization のデータにアクセスするには、3つの方法があります。

  1. TIBCO Data Virtualization マネージド データ アクセス

    これはデフォルトのデータアクセス方法であり、幅広い種類のデータ ソースをサポートしています。データベース、リモートファイルシステム、共有ファイルシステムなどの異なるソースからのデータは、Apache Spark クラスタから読み込まれる前に TIBCO Data Virtualization を通過します。Apache Spark の遅延評価の性質により、処理に必要なデータのみが取得され、Apache Spark クラスタに送信される。これは、TIBCO Data Virtualization のプッシュダウン機能を利用することで可能になります。計算後、結果はTIBCO Data Virtualization に返された後、それぞれのデータ ソースに書き戻されます。

    サポートされるデータベースデータ ソースの例としては、PostgreSQL、Oracle、Redshift などの JDBC 対応データベースがあります。サポートされるリモートファイルシステムと共有ファイルシステムデータ ソースの例としては、HDFS、NFS ドライブ、Amazon S3 があります。これはデータにアクセスする最も遅い方法です。この方法を使用するには、Spark Cluster データ ソースの構成中に tds.datavirt.sharedDataVolumes パラメータを削除する必要があります。

    TIBCO Data Virtualization managed Data Acces
  2. 共有ボリューム最適化データ アクセス

    この方法は、共有ボリューム内のファイルへのアクセスを最適化する。共有ファイル システムからのデータは Apache Spark クラスタから直接読み込まれ、計算後に同じ共有ファイルシステムに書き戻されます。TIBCO Data Virtualization は、共有ファイル システムにデータを書き込む際にメタデータを保存します。サポートされるデータ ソースの例としては、HDFS、NFS ドライブ、Amazon S3 があります。ファイルの読み書きが Apache Spark クラスタから直接行われるため、これはデータへのアクセス方法としては最速です。つまり、データはクラスタ間で移動しません。データ アクセス用の共有ボリュームの構成については、「共有ボリュームのデータ アクセス構成」を参照してください。

    Shared Volume Optimized Data Access
  3. リモート ソースの共有ボリューム最適化データ アクセス

    このメソッドは、リモート ソースへのデータ書き込みを最適化します。この方法では、リモート ソースからのデータの読み込みは、TIBCO Data Virtualization が管理するデータ アクセスを通じて行われます。計算後、メタデータは TIBCO Data Virtualization に保存され、結果はターゲット ボリューム(データベースまたはリモート ファイル システム)に書き込む前に、共有補助ボリュームに一時的に書き込まれます。共有ファイル システムは共有補助ボリュームとして機能します。結果は、TIBCO Data Virtualization を使用して、リモート ソースまたはターゲット ボリュームに移動されます。データアクセス用の共有ボリュームの構成については、「共有ボリュームのデータ アクセス構成」を参照してください。

    ノート: これはデータ アクセスの推奨方法です。
    Shared Volume Optimized Data Access for Remote Sources