ワンホット エンコーディング

選択したカテゴリー カラムのセットに対してワンホット エンコーディングを実行します。ワンホット スキーム (「one-of-K」スキームとも呼ばれる) を使用してカテゴリー特徴量をエンコードし、入力カラムの個別のカテゴリーごとにバイナリ カラムを出力します。

情報一覧

パラメーター

説明
カテゴリー トランスフォーム
データ ソース タイプ HD
出力を他のオペレーターに送信 はい1
データ処理ツール Spark

ワンホット エンコーディング オペレーターは、カテゴリカル変数をネイティブにサポートしていないアルゴリズムのカテゴリカル予測子を数値 (バイナリ) 予測子に変換するのに役立ちます。

ノート: TIBCO Data Science - Team Studio で利用可能な ML アルゴリズムのほとんどは、すでに前処理ステップとしてワンホット エンコーディングを直接含んでいます。

入力

単一の HDFS 表形式データセット。

値が不正または欠落しています
ダーティー データ: 区切られたデータを解析する場合、ワンホット エンコーディングオペレーターは、ダーティー データ (数値カラムの文字カラム、整数カラムのダブル、値の数が正しくない行など) を解析中に削除します。これらの行は、Spark が処理できないため、サイレントに削除されます。

Null 値: ワンホット エンコードを実行する前に、オペレーターは、指定された [エンコードするカラム] に Null 値を含む行をフィルタリングします。次に、オペレーターは、[Null データにより削除された行をファイルに書き込む] パラメーターの値に従って、Null 値を持つこれらの行を処理します。Null データにより削除された行の数は、ビジュアル出力の [サマリー] タブにレポートされます。

制限事項

[エンコードするカラム] で選択した各カラムのカテゴリーの最大数のデフォルト値は 30 です。この値は、[高度な Spark 設定] メニュー (パラメータ [最大カラム個別カテゴリー]) で変更できます。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
エンコードするカラム

*必須

ワンホット エンコーディングを実行するカテゴリー カラムを選択します。
エンコードされたカラムを保持 エンコードする入力カラムを出力に保持するかどうかを定義します - [はい] または [いいえ] (デフォルト)。
最後のカテゴリーを削除 [はい] (デフォルト) を選択すると、エンコードするカラムの最後のカテゴリーを削除する必要があります。それ以外の場合は、[いいえ] を選択します。

たとえば、「categ」をエンコードするカラムに 3 つのカテゴリー(「a」、「b」、「c」) が含まれており、このパラメーターに [はい] が選択されている場合、出力データセットには次のエンコードされた 2 つのカテゴリのみが含まれます。バイナリカラム: 「categ_a」 および 「categ_b」(「categ_c」 は削除されます。)

出力カラム プレフィックス (オプション) すべての出力エンコードカラム名の前に追加する文字カラムを指定します。このオプションは、後続のオペレーターでエンコードされたカラムをすべて選択する場合に便利です。エンコードされたカラムはすべて同じプレフィックスで始まるため、最初の文字でのフィルタリングと選択が簡素化されます。
Null データにより削除された行をファイルに書き込む Null 値を含む行 ([エンコードするカラム] 内のみ) は分析から削除されます。このパラメーターを使用して、Null 値を含むデータをファイルに書き込むように指定します。ファイルは残りの出力と同じディレクトリに書き込まれます。ファイル名には接尾辞 _baddata が追加されます。

  • ファイルに Null 行を書き込まない (デフォルト) - Null 値データを削除して結果 UI に表示しますが、外部ファイルには書き込みません。

  • Null 行の書き込みまたはカウントを行わない (最速) - Null 値データを削除しますが、カウントして結果 UI に表示しません。

  • すべての Null 行をファイルに書き込む - Null 値データを削除し、削除されたすべての行を外部ファイルに書き込みます。

ストレージ フォーマット 結果を保存する形式を選択します。保存形式はオペレーターの種類によって決まります。

一般的な形式は、AvroCSVTSV、または Parquet です。

圧縮 出力の圧縮のタイプを選択します。

利用可能な Parquet 圧縮オプション。

  • GZIP
  • Deflate
  • Snappy
  • 圧縮なし

利用可能な Avro 圧縮オプション。

  • Deflate
  • Snappy
  • 圧縮なし
出力ディレクトリ 出力ファイルを保存する場所。
出力名 結果を含める名前。
出力を上書き そのパスにある既存のデータを削除するかどうかを指定します。
  • はい - パスが存在する場合は、そのファイルを削除し、結果を保存します。
  • いいえ - パスがすでに存在する場合は失敗します。
高度な Spark 設定の自動最適化
  • [はい] は、デフォルトの Spark 最適化設定の使用を指定します。
  • [いいえ] を選択すると、カスタマイズされた Spark 最適化を提供できます。 [設定の編集] をクリックして、Spark の最適化をカスタマイズします。詳細については、「詳細設定ダイアログ」を参照してください。

出力

ビジュアル出力
  • 出力 プレビュー:

  • サマリー: 選択パラメーターが出力され、入力および出力の場所からは Null データが削除されています。

データ出力
エンコードされたカラムを含むデータセット。

その他の注意事項

セミ・ターミナル オペレーター
部分的なスキーマは設計時に後続のオペレーターに送信できますが、最終的な出力スキーマを確認するには、後続のオペレーターに対してオペレーターを実行する必要があります。
ノート: 次のいずれかが発生すると、相関フィルター オペレーターの最終出力スキーマがクリアされます。
  • ユーザーは、ワンホット エンコーディング オペレーターの構成プロパティを変更します。
  • ユーザーは、ワンホット エンコーディング オペレーターに接続されている入力を変更します。
  • ユーザーは、ワンホット エンコーディング オペレーターのステップ実行結果をクリアします。

この場合、後続のオペレーターに送信される出力スキーマは、設計時に定義された部分スキーマになります (したがって、後続のオペレーターは無効になる可能性があります)。新しい出力スキーマを送信するには、ワンホット エンコーディング オペレーターを再度実行する必要があります。