R 実行

R 実行は、TIBCO Data Science - Team Studio のシームレスな拡張機能として使用することができ、既存の R コード化されたモデルを含めることができます。

機能

SQL クエリを書いたり、Oracle や PostgreSQL などの SQL 構文の違いを知らなくても、TIBCO Data Science - Team Studio がサポートするあらゆるデータベースに保存された入力データセットに対して、R スクリプトを書いて実行することができます。

これにより、TIBCO Data Science - Team Studio のオペレーターは、有効な R モデルに先行または後続することができます。これには、カラムや行のフィルター(R の事前または事後)、ヒストグラム(R の事後)、入力データ ソース自体(データベーステーブルまたは Hadoop 区切りファイル)などが含まれます。

R スクリプトを作成し、TIBCO Data Science - Team Studio がサポートする Hadoop データストア(CDH4/5 の場合は HDFS、Pivotal HD 2.x、Hortonworks、Apache、MapR の場合は MapR ファイル システムなど)に格納された入力データセットに対して実行することで、これらのデータストアに直接アクセスする際の複雑さやセキュリティの問題に対処する必要がありません。

重要: この設計は、異なる Hadoop、つまり HDFS/MapR FS バージョンを使用して、異なるクラスターに同時にアクセスする必要があるという問題にも対処します。

入力データ フレームが指定されている場合にのみデータが R に取り込まれるため、他の場所 (入力をバイパスする Web など) からデータを取り込みたい場合、または入力を無視して単純に出力を生成したい場合に時間を節約できます (たとえば、モンテカルロ シミュレーション、乱数生成など)。R スクリプトでの入力データ フレーム機能の使用方法については、以下を参照してください。

出力データ フレームを指定した場合、TIBCO Data Science - Team Studio でサポートされているデータベースや Hadoop データストアに保存することができます。R スクリプトでの出力データフレーム機能の使用方法は以下を参照してください。

ノート: 直接のデータベース権限は必要ありません。新しいテーブルを作成したり、データを挿入したりするための SQL クエリの作成方法を知る必要はありません。効率的なバッチ挿入の方法やトランザクションの管理方法を知る必要はありません。

要件

R コネクタを TIBCO Data Science - Team Studio のデプロイメントを行ったサーバにインストールする必要があります。詳細については、『システム管理者』を参照してください。

重要

R 実行オペレーターはバッチ オペレーターです。

  • R コマンドまたは関数を対話的に実行し、インタープリターが生成する内容を確認し、次の実験を実行するためにセッションの状態をメモリに保存することはできません。この意味で、R 実行オペレーターは、R シェル/インタープリター/REPL (読み取り評価印刷ループ) または RStudio IDE の R セッションとは異なります。
  • 対話型のユーザー入力を期待する R スクリプトを実行すると、R はユーザー入力を待機するため、オペレーターがハングすることに注意してください。R 実行によって実行されるスクリプトでは、対話型の関数を使用してはなりません。これには、install.packages の対話モードが含まれており、パッケージの取得元のリポジトリーを対話的に指定する必要があります。 install.packages の場合、リポジトリーを明示的に指定することでこれを回避できます。これにより、R が対話型のユーザー入力を待つことがなくなります。

    install.packages(pkgs = c('dplyr'),
    repos = c('http://cran.cnr.berkeley.edu/'))

  • うっかりコードに対話型関数を含めると、上記のようにオペレーターがハングアップしますが、TIBCO Data Science - Team Studio のユーザー インターフェースの [Stop] リンクでフローを停止でき、ワークフロー全体を停止できます。結果がすぐに返されることを期待しているにもかかわらず、オペレーターが非常に長い時間スタックしている場合は、フローを停止し、インタラクティブなユーザー コードがないか確認してください。
  • 有効な R コードを作成し、その実行結果をコンソール出力と結果のデータ フレームで確認する必要があります。
  • 最初に非常に小さな入力データセットで R コードを試して、ロジックをテストします。
  • 出力データ フレーム (以下を参照) を作成せずにコードを段階的に記述し、コンソールに出力することは、RStudio で既にデバッグされていない限り、コードを迅速にデバッグできることを意味します。
  • TIBCO Data Science - Team Studio では、コンソール出力を可視化することができますが、TIBCO Data Science - Team Studio では、R コードを使用してプロットを可視化することはできません。プロットを視覚化するには、TIBCO Data Science - Team Studio ユーザーは、R 実行オペレーターからの出力を後続のオペレーターに渡すか、Spotfire または Tableau とリンクする必要があります。R 実行は、R コードの構文エラー、データ タイプの不一致などの問題を特定するのに役立つメッセージを生成します。詳細については、「R 実行エラー メッセージ」を参照してください。

R 実行オペレーターを実行する前に、データをクリーンアップします。設計上、R 実行オペレーターはデータ クリーニングを行いません。指定されたデータをそのまま使用します。データがクリーンではないことがわかっている場合 (たとえば、データにヘッダーが含まれている、値が欠落している、または正しくないなど)、他のデータを使用してください。TIBCO Data Science - Team Studio オペレーターまたは R コマンドを使用してデータをクリーンアップします。

TIBCO Data Science - Team Studio 製品は、R Connector for TIBCO Data Science - Team Studio (R コネクタ) を使用することで、統計計算およびグラフィックスのための R 言語および環境(https://www.r-project.org/)を使用するために拡張することができます。これは無償のオープンソース ソフトウェア ライセンス条項の対象であり、GitHub で入手可能です。

R コネクタは、TIBCO Data Science - Team Studio 製品の一部ではないため、製品のライセンスの範囲外です。従って、R コネクタは、サポート、メンテナンス、または保証に関する条項を含む、TIBCO Data Science - Team Studio 製品との契約条項の対象とはなりません。R コネクタのダウンロードおよび使用は、お客様ご自身の判断によるものであり、R コネクタに適用される無償オープンソース ライセンス条項に従うものとします。

同様に、統計コンピューティングおよびグラフィックス用の R 言語および環境、および関連パッケージ (「R エンジンおよび R パッケージ」) は、製品のライセンスの範囲内には含まれません。従って、R エンジンおよび R パッケージは、サポート、メンテナンス、または保証に関する条項を含め、TIBCO Data Science - Team Studio 製品に関するお客様の契約条項の対象とはなりません。R エンジンまたは R パッケージのダウンロードと使用は、お客様ご自身の裁量で行われ、同様に適用される無料のオープンソース ライセンス条項が適用されます。TIBCO は、R アルゴリズムの精度、R パッケージのバグ、R エンジンの安定性、ユーザーの R コードのロジック、または R 自体のライセンスへの影響については責任を負いません。R エンジンのライセンスは、GNU General Public License (GPL)、バージョン 2 およびバージョン 3 です。R パッケージは、GPL、Affero GPL (AGPL)、BSD 2-clause および 3-clause ライセンス、Artistic ライセンス、MIT ライセンスなど、さまざまなライセンスで提供されています (詳細については、こちらを参照)。このようなオープンソース ライセンスについて質問がある場合は、ソフトウェア ライセンス弁護士に相談してアドバイスを求めてください。