Python 実行 (HD)
TIBCO Data Science - Team Studio のワークフローから、現在のワークスペースに保存されている Jupyter ノートブックを実行します。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | ツール |
| データ ソース タイプ | HD |
| 出力を他のオペレーターに送信 | はい |
| データ処理ツール | PySpark |
ノートブックのセットアップ: ノートブックを Python 実行オペレーターで使用するには、自動生成されたタグ Ready For Python Execute がワークスペースに表示されている必要があります。この属性は、次の条件が満たされる場合に設定されます。
- 引数
use_input_substitution = Trueまたはuse_output_substitution = Trueを使用して、ノートブックに少なくとも 1 つの入力または出力が指定されています。 - ノートブックの入力引数
実行ラベルは個別であり、次の文字カラムのいずれか 1 つのみになります。:1、2、または3 - たとえば、Notebook のコードは次のようになります。
df_account=cc.read_input_table(table_name='account', schema_name='demo', database_name='miner_demo',use_input_substitution=True, execution_label="1") use_input_substitution = Trueで定義された入力/出力はすべて Hadoop 入力である必要があります (この場合、ノートブックは Python 実行 (HD) オペレーターで使用できます)。
入力
ノートブック構成で許可されている置換用の入力数に応じて、選択したノートブックの代替入力として使用する 0 から 3 つの入力。
最大 3 つの入力を置換できます。置換を指定したくない場合は、ノートブックで定義された入力を使用します。Python Execute を実行するには、置換された各入力に、互換性のあるデータ タイプを持つ対応するノートブック入力内のカラムのスーパーセットが含まれている必要があります。 1 つのデータセットを出力することも、ワークフロー内のターミナル オペレーターの場合は 0 個のデータセットを出力することもできます。
ノートブックの入力と出力の構成に応じて、オペレーターはソース オペレーター (ノートブックで置換用の入力が選択されていない場合) またはターミナル オペレーター (ノートブックで出力が指定されていない場合) になります。単一の出力が指定されている場合、オペレーターはこの出力を後続のオペレーターに送信します。
制限事項
選択したノートブックに引数 use_output_substitution = True で定義された表形式の出力がない場合、Python 実行 オペレーターは後続のオペレーターにデータを送信せず、ターミナル オペレーターとみなされます。次のオペレーターは実行できませんが、ユーザーは引き続き後続のオペレーターとの接続を描画できます。
Parquet 入力と Avro 入力は、PySpark ノートブックでのみサポートされます (つまり、ノートブックの cc.read_input_file メソッドには sqlContext 引数を指定する必要があります)。
選択したノートブックが日時形式の変数を含む出力を送信するように設定されている場合、Python 実行 オペレーターはそれらを文字列変数として次のオペレーターに送信します。 (その後、ユーザーは変数オペレーターでそれらを正しい形式に変換できます。)
構成
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| ノート | 現在のワークスペースで実行する Python/PySpark ノートブックを選択します。このリストに表示するには、ノートブックが Python 実行で使用できるように設定されている必要があります。 ノート: [選択したノートブックを開く] をクリックすると、新しいブラウザ タブでノートブックが開きます。 |
| 入力 1 の置換 | オプション。引数 execution_label = 1 を使用して、ノートブック入力の代わりに使用する接続された入力を選択します。ノートブックにそのような入力が含まれており、ワークフローで代替を選択しない場合、ノートブックで定義された入力を使用して実行されます。 |
| 代替入力 2 | オプション。引数 execution_label = 2 を使用して、ノートブック入力の代わりに使用する接続された入力を選択します。ノートブックにそのような入力が含まれており、ワークフローで代替を選択しない場合、ノートブックで定義された入力を使用して実行されます。 |
| 入力 3 の置換 | オプション。引数 execution_label = 3 を使用して、ノートブック入力の代わりに使用する接続された入力を選択します。ノートブックにそのような入力が含まれており、ワークフローで代替を選択しない場合、ノートブックで定義された入力を使用して実行されます。 |
| データ ソース (HD) | ノートブックの実行からの出力を保存する Hadoop データ ソースを選択します (定義されている場合)。 入力が Python 実行 オペレーターに接続されている場合、データ ソース (HD) は入力のデータ ソースと一致する必要があります。 |
| 出力ディレクトリ | 出力ファイルを保存する場所。 |
| 出力名 | 結果を含める名前。 |
| 出力を上書き | そのパスにある既存のデータを削除するかどうかを指定します。
|
出力
オペレーター結果パネルには、端末かどうかに応じて 1 つまたは 2 つのタブが表示されます。
-
出力 (オペレーターが端末でない場合のみ利用可能):
-
選択したパラメーターとノートブックの実行結果のサマリー:
use_output_substitution = True を持つ出力が含まれている場合、オペレーターは表形式のデータセットを後続のオペレーターに送信します。ノートブックに出力が定義されていない場合、このオペレーターは端末になります。
例