DISTINCT (HD)

選択したカラムにわたる一意の値の組み合わせを返します。

情報一覧

パラメーター

説明
カテゴリー トランスフォーム
データ ソース タイプ HD
出力を他のオペレーターに送信 はい
データ処理ツール MapReduce

ノート: DISTINCT (HD) オペレーターは、Hadoop データのみに使用されます。データベース データの場合は、DISTINCT (DB) オペレーターを使用します。

重複レコードの削除は、多くの場合、データ分析とモデリングを開始する前に必要な手順です。フィールド (または選択したフィールド) に同じ値を持つレコードはすべて重複とみなされ、DISTINCT オペレーターを使用してこれらのエントリを削除できます。

ユース ケースの例は、個人のデータが異なる住所または会社情報で複数回表示されるマーケティング データベースに適用される可能性があります。

入力

前のオペレーターからの Hadoop データセット。

値が不正または欠落しています
このオペレーターは、入力計算から Null 値を除外することによって、Null 値を処理します。この動作を防ぐには、最初のトレーニング データに対して Null 値置換 (DB) オペレーターを使用して、不正な値または欠落している値を置き換えます。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
カラム名の順序 一意の値の組み合わせ基準として使用するカラムを指定します。少なくとも 1 つのカラムを選択する必要があります。
結果を保存しますか? 結果を保存するかどうかを指定します。
  • true - 結果が保存されます。
  • false - データセットは保存せずに次のオペレーターに渡されます。
結果ロケーション オペレーターの結果が保存される HDFS ディレクトリ。これはメイン ディレクトリであり、そのサブディレクトリは 結果名で指定されます。 [ファイルの選択] をクリックして Hadoop ファイル エクスプローラー ダイアログ を開き、ストレージの場所を参照します。テキストを直接編集しないでください。
結果名 結果を保存するファイルの名前。
上書き そのパスとファイル名の既存のデータを削除するかどうかを指定します。
  • はい - パスが存在する場合は、そのファイルを削除し、結果を保存します。
  • いいえ - パスがすでに存在する場合は失敗します。
ストレージ フォーマット 結果を保存する形式を選択します。保存形式はオペレーターの種類によって決まります。

一般的な形式は、AvroCSVTSV、または Parquet です。

圧縮 出力の圧縮のタイプを選択します。

利用可能な Parquet 圧縮オプション。

  • GZIP
  • Deflate
  • Snappy
  • 圧縮なし

利用可能な Avro 圧縮オプション。

  • Deflate
  • Snappy
  • 圧縮なし
Spark を使用する [はい] (デフォルト) の場合、Spark を使用して計算時間を最適化します。
高度な Spark 設定の自動最適化
  • [はい] は、デフォルトの Spark 最適化設定の使用を指定します。
  • [いいえ] を選択すると、カスタマイズされた Spark 最適化を提供できます。 [設定の編集] をクリックして、Spark の最適化をカスタマイズします。詳細については、「詳細設定ダイアログ」を参照してください。

出力

ビジュアル出力

表示される出力テーブルまたはビューのデータ行 (最大 100 行のデータ)。

次の例では、3 つの列 (iyear、imonth、および iday) が個別の基準として選択されています。各結果行には、3 つのデータカラムの値の一意の組み合わせが含まれます。

データ出力
個別データテーブルのデータセット。