ワンホット エンコーディング
選択したカテゴリー カラムのセットに対してワンホット エンコーディングを実行します。ワンホット スキーム (「one-of-K」スキームとも呼ばれる) を使用してカテゴリー特徴量をエンコードし、入力カラムの個別のカテゴリーごとにバイナリ カラムを出力します。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | トランスフォーム |
| データ ソース タイプ | HD |
| 出力を他のオペレーターに送信 | はい1 |
| データ処理ツール | Spark |
ワンホット エンコーディング オペレーターは、カテゴリカル変数をネイティブにサポートしていないアルゴリズムのカテゴリカル予測子を数値 (バイナリ) 予測子に変換するのに役立ちます。
入力
単一の HDFS 表形式データセット。
Null 値: ワンホット エンコードを実行する前に、オペレーターは、指定された [エンコードするカラム] に Null 値を含む行をフィルタリングします。次に、オペレーターは、[Null データにより削除された行をファイルに書き込む] パラメーターの値に従って、Null 値を持つこれらの行を処理します。Null データにより削除された行の数は、ビジュアル出力の [サマリー] タブにレポートされます。
制限事項
[エンコードするカラム] で選択した各カラムのカテゴリーの最大数のデフォルト値は 30 です。この値は、[高度な Spark 設定] メニュー (パラメータ [最大カラム個別カテゴリー]) で変更できます。
構成
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| エンコードするカラム
*必須 |
ワンホット エンコーディングを実行するカテゴリー カラムを選択します。 |
| エンコードされたカラムを保持 | エンコードする入力カラムを出力に保持するかどうかを定義します - [はい] または [いいえ] (デフォルト)。 |
| 最後のカテゴリーを削除 | [はい] (デフォルト) を選択すると、エンコードするカラムの最後のカテゴリーを削除する必要があります。それ以外の場合は、[いいえ] を選択します。 たとえば、「categ」をエンコードするカラムに 3 つのカテゴリー(「a」、「b」、「c」) が含まれており、このパラメーターに [はい] が選択されている場合、出力データセットには次のエンコードされた 2 つのカテゴリのみが含まれます。バイナリカラム: 「categ_a」 および 「categ_b」(「categ_c」 は削除されます。) |
| 出力カラム プレフィックス | (オプション) すべての出力エンコードカラム名の前に追加する文字カラムを指定します。このオプションは、後続のオペレーターでエンコードされたカラムをすべて選択する場合に便利です。エンコードされたカラムはすべて同じプレフィックスで始まるため、最初の文字でのフィルタリングと選択が簡素化されます。 |
| Null データにより削除された行をファイルに書き込む | Null 値を含む行 ([エンコードするカラム] 内のみ) は分析から削除されます。このパラメーターを使用して、Null 値を含むデータをファイルに書き込むように指定します。ファイルは残りの出力と同じディレクトリに書き込まれます。ファイル名には接尾辞 _baddata が追加されます。
|
| ストレージ フォーマット | 結果を保存する形式を選択します。保存形式はオペレーターの種類によって決まります。 一般的な形式は、Avro、CSV、TSV、または Parquet です。 |
| 圧縮 | 出力の圧縮のタイプを選択します。 利用可能な Parquet 圧縮オプション。
利用可能な Avro 圧縮オプション。
|
| 出力ディレクトリ | 出力ファイルを保存する場所。 |
| 出力名 | 結果を含める名前。 |
| 出力を上書き | そのパスにある既存のデータを削除するかどうかを指定します。
|
| 高度な Spark 設定の自動最適化 |
|
出力
- 出力 プレビュー:

- サマリー: 選択パラメーターが出力され、入力および出力の場所からは Null データが削除されています。

その他の注意事項
- ユーザーは、ワンホット エンコーディング オペレーターの構成プロパティを変更します。
- ユーザーは、ワンホット エンコーディング オペレーターに接続されている入力を変更します。
- ユーザーは、ワンホット エンコーディング オペレーターのステップ実行結果をクリアします。
この場合、後続のオペレーターに送信される出力スキーマは、設計時に定義された部分スキーマになります (したがって、後続のオペレーターは無効になる可能性があります)。新しい出力スキーマを送信するには、ワンホット エンコーディング オペレーターを再度実行する必要があります。