Python 実行用の Notebooks のセットアップ
Python Notebooks は非常に柔軟なツールです。ビジュアル ワークフローの Python 実行オペレーター内に作業を組み込むために、ノートブックを準備するためのベスト プラクティスをいくつか紹介します。
Python 実行用のノートブックのセットアップに関する提案
自動生成されたタグ Ready For Python Execute は、ノートブックを Python 実行オペレーターにアタッチできることを示します。この属性を実現するには、次のものが必要です。
- 引数
use_input_substitution = Trueまたはuse_output_substitution = Trueを使用してノートブックに指定された少なくとも 1 つの入力または出力。 - ノートブックの入力引数
execution_labelは個別であり、次の文字カラムの 1 つだけを使用します。"1"、"2"、または"3"。 use_input_substitution = Trueで定義されたすべての入力と出力は、同じタイプのデータ ソース (Hadoop またはデータベース) から取得される必要があります。
ツールバーから をクリックしてノートブック全体を実行します。セルを順番どおりに実行しないでください。これにより、Python 実行オペレーターに渡されるメタデータ情報で問題が発生する可能性があります。すべてのセルを実行した後、ワークフローでノートブックを実行する前にノートブックを保存します。
次の手順を使用して、置換用の入力を作成できます。
- データセットをワークスペースに関連付けます。
- ノートブック ツールバーで、[データ] をクリックします。
- データセットを選択し、[インポート] をクリックします。
これにより、データを読み取る関数を含むセルが生成されます (たとえば、データベース テーブルを選択したか、HDFS 内のファイルを選択したかに応じて、cc.read_input_file または cc.read_input_table など)。
- use_input_substitution=False を use_input_substitution=True に変更します。
execution_labelという名前付き引数を関数に追加します。この引数は文字列値"1"、"2"、または"3"を持つ必要があり、ビジュアル ワークフロー Python 実行オペレーター。次のようになります。df_account=cc.read_input_table(table_name='account'、schema_name='demo'、database_name='miner_demo'、use_input_substitution=True、execution_label="1")
- 生成されたセルを実行します。これにより、データがフェッチされ、ノートブックにデータフレームが作成され、この情報がビジュアル ワークフロー エディターの Python 実行オペレーターの有効な入力として保存されます。
置換用の出力を作成します。
- テーブルまたはファイルのどちらに書き込むかに応じて、
cc.write_output_fileまたはcc.write_output_table関数を使用します。Notebooks で help(cc.write_output_table) を実行すると、関数の引数を確認できます。 - セルを実行します。これにより、データセットが書き込まれ、この情報がビジュアル ワークフロー エディターの Python 実行オペレーターの有効な出力として保存されます。
- Python 実行オペレーターを使用する前に、ノートブックをクリーンアップして対話型コード (
help()関数など) をすべて削除していることを確認してください。
以下のいずれかの条件が存在する場合、ノートブックは無効になります。
- 重複した実行ラベルがある。
"1"、"2"、または"3"ではない実行ラベルが付いている。ノート: これらの値は二重引用符で囲まれた文字列です。- HDFS と DB 入力を置換でミックスしている。ノート: 置換なしのミックス入力が許可されます。
- 置換付きの出力が複数ある。