Python 実行用の Notebooks のセットアップ

Python Notebooks は非常に柔軟なツールです。ビジュアル ワークフローの Python 実行オペレーター内に作業を組み込むために、ノートブックを準備するためのベスト プラクティスをいくつか紹介します。

Python 実行用のノートブックのセットアップに関する提案

自動生成されたタグ Ready For Python Execute は、ノートブックを Python 実行オペレーターにアタッチできることを示します。この属性を実現するには、次のものが必要です。

  • 引数 use_input_substitution = True または use_output_substitution = True を使用してノートブックに指定された少なくとも 1 つの入力または出力。
  • ノートブックの入力引数 execution_label は個別であり、次の文字カラムの 1 つだけを使用します。"1""2"、または "3"
  • use_input_substitution = True で定義されたすべての入力と出力は、同じタイプのデータ ソース (Hadoop またはデータベース) から取得される必要があります。

ツールバーから [セル] > [すべて実行] をクリックしてノートブック全体を実行します。セルを順番どおりに実行しないでください。これにより、Python 実行オペレーターに渡されるメタデータ情報で問題が発生する可能性があります。すべてのセルを実行した後、ワークフローでノートブックを実行する前にノートブックを保存します。

次の手順を使用して、置換用の入力を作成できます。

  1. データセットをワークスペースに関連付けます。
  2. ノートブック ツールバーで、[データ] をクリックします。
  3. データセットを選択し、[インポート] をクリックします。

    これにより、データを読み取る関数を含むセルが生成されます (たとえば、データベース テーブルを選択したか、HDFS 内のファイルを選択したかに応じて、cc.read_input_file または cc.read_input_table など)。

  4. use_input_substitution=Falseuse_input_substitution=True に変更します。
  5. execution_label という名前付き引数を関数に追加します。この引数は文字列値 "1""2"、または "3"を持つ必要があり、ビジュアル ワークフロー Python 実行オペレーター。次のようになります。
    df_account=cc.read_input_table(table_name='account'、schema_name='demo'、database_name='miner_demo'、use_input_substitution=True、execution_label="1")
  6. 生成されたセルを実行します。これにより、データがフェッチされ、ノートブックにデータフレームが作成され、この情報がビジュアル ワークフロー エディターの Python 実行オペレーターの有効な入力として保存されます。

置換用の出力を作成します。

  1. テーブルまたはファイルのどちらに書き込むかに応じて、cc.write_output_file または cc.write_output_table 関数を使用します。Notebooks で help(cc.write_output_table) を実行すると、関数の引数を確認できます。
  2. セルを実行します。これにより、データセットが書き込まれ、この情報がビジュアル ワークフロー エディターの Python 実行オペレーターの有効な出力として保存されます。
  3. Python 実行オペレーターを使用する前に、ノートブックをクリーンアップして対話型コード (help() 関数など) をすべて削除していることを確認してください。

以下のいずれかの条件が存在する場合、ノートブックは無効になります。

  • 重複した実行ラベルがある。
  • "1""2"、または "3"ではない実行ラベルが付いている。

    ノート: これらの値は二重引用符で囲まれた文字列です。

  • HDFS と DB 入力を置換でミックスしている。

    ノート: 置換なしのミックス入力が許可されます。

  • 置換付きの出力が複数ある。

Team Studio コマンダーの機能

TIBCO Data Science - Team Studio コマンダーは、Python 環境と TIBCO Data Science - Team Studio 環境を接続するノートブックで利用可能な一連の機能です。これには、データ関連付けの追加、ファイルのインポート、結果の出力などの機能が含まれます。詳細なドキュメントにアクセスするには、ノートブックから help(cc) を実行します。