アソシエーション ルール

アソシエーション ルール モデリングとは、データセット内で頻繁に発生するパターンを決定するプロセスを指します。たとえば、データ内の頻繁に発生する組み合わせや、一緒に束ねられたアイテムのセット、サブシーケンス、または部分構造を識別します。

情報一覧

パラメーター

説明
カテゴリー モデル
データ ソース タイプ HD
出力を他のオペレーターに送信 はい
データ処理ツール Spark

関連付けルールの詳細については、データセット内のパターン を参照してください。

入力

スパース アイテム セット (または「バスケット」) カラムを含む HDFS 表形式データセット (個別のアイテムをキーとして、頻度を値として持つキー/値ディクショナリ)。

入力は、[グループ・バイ] 節でトランザクション [ID] カラムを使用し、[折りたたみするカラム] チェックボックスで [アイテム] カラムを使用する 折りたたみ オペレーターによって生成される可能性が最も高くなります。例を参照してください。

値が不正または欠落しています
選択した [アイテム セット カラム] の選択した [アイテム セット カラム] に Null 値がある場合、行はデータセットから削除されます。削除された Null 値の数は、出力の [サマリー] セクションにリストされます ([Null データにより削除された行をファイルに書き込む]で選択したオプションに応じて異なります)。選択した [アイテム セット カラム] のディクショナリ内に不正なキー・バリュー ペアがある場合、オペレーターは実行時に失敗し、意味のあるエラー メッセージが表示されます。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
アイテム セット カラム 各トランザクション (IDグループ...) のアイテム セット (または「バスケット」) を表す辞書カラムを選択します。

サポートされるデータ タイプ: TIBCO Data Science - Team Studio Sparse

このカラムは、折りたたみ オペレーターの出力カラムである可能性が最も高くなります (上記の「入力」セクションを参照)。

頻繁に使用されるアイテム セットの最大サイズ 相関ルールの生成に使用するために、頻繁に使用されるアイテム セットに含めることができるアイテムの最大数を指定します。可能な値の範囲は 1 ~ 50 です。デフォルト値: 5
最低限のサポート 関連付けルールのサポートは、関連付けルールにリストされているすべての項目を含むグループの割合です。 [最小サポート] は、関連付けルールにリストされているすべての項目を含むグループまたはトランザクションの下限しきい値パーセンテージを指定します。

  • したがって、関連付けルールは、[サポート] 値がこの [最小サポート] 値以上である場合にのみ有効とみなされます。
  • 可能な値の範囲は、0.001 から 1 までの任意の 10 進数値です。デフォルト値は 0.3、つまりアイテム セットを含むトランザクションの少なくとも 30% です。

ルールの最小信頼度

アソシエーション ルールの [信頼度] は、ルール本体を含むすべてのグループの中でルール ヘッドが出現する頻度を示すパーセンテージ値です。 [信頼度] の値は、このルールの信頼性を示します。値が大きいほど、この一連の項目が関連付けられる頻度が高くなります。 [最小信頼度] は、ルールが発生する必要な頻度の下限しきい値パーセンテージを指定します。

ルール X => Y の場合:

**

  • したがって、[信頼度] の測定値は、ルールの信頼性を示します。値が大きいほど、この一連の項目が関連付けられる頻度が高くなります。たとえば、リスト {肉、ジャガイモ}の [信頼度] が 85% の場合、肉とジャガイモ (前提) が購入された回数の 85% でジャガイモ (ルール本体) も購入されたことを意味します。
  • 可能な値の範囲は、0 ~ 1 の間の任意の 10 進数値です。デフォルト値は 0.7 です。これは、項目が 70% の確率で関連付けられる必要があることを意味します。

最小ルール リフト

アソシエーション・ルールのリフト (Lift) とは、XY が独立であった場合に期待されるルール( = support (XUY) )に対する、観測されたサポートの比率のことです。

ルールのリフトが 1 の場合、前件 X の発生確率と後件 Y の発生確率が互いに独立していることを意味します。 2 つのイベントが互いに独立している場合、それら 2 つのイベントを含むルールを描画する必要はありません。

リフトが 1 より大きい場合、これら 2 つの発生が互いに依存する度合いがわかり、これらのルールは将来のデータセットの結果を予測するのに役立つ可能性があります。

リフトの値は、ルールの信頼性とデータセット全体の両方を考慮することです。

  • デフォルト値は 1.5 です
  • 可能な値の範囲は、0 ~ 10E5 の任意の 10 進数値です。

     

    ノート: 有効なルール - 有効な関連付けルールとみなされるには、ルールが次の要件をすべて満たしている必要があります。

    • アイテムセットの最低限のサポート
    • 最小ルール信頼度
    • 最小ルール リフト

    は、X Y の項目の結合のサポートを意味することに注意してください。私たちは通常、アイテムのセットではなくイベントの確率の観点から考えるため、これはやや混乱します。 を同時確率 として書き直すことができます。ここで、 は、それぞれトランザクションにアイテムセット が含まれるイベントです。

Null データにより削除された行をファイルに書き込む

アイテム セット カラムに Null 値がある行は分析から削除されます。このパラメーターを使用すると、Null 値を含むデータをファイルに書き込むように指定できます。

ファイルは残りの出力と同じディレクトリに書き込まれます。ファイル名は bad_data です。

  • Null 行の書き込みまたはカウントを行わない (最速) - Null 値データを削除しますが、カウントして結果 UI に表示しません。
  • Null 行を書き込まない - Null 値データを削除しますが、外部ファイルには書き込みません。
  • 最大 1000 行の Null 行をファイルに書き込む - Null 値データを削除し、そのデータの最初の 1000 行を外部ファイルに書き込みます。
  • すべての Null 行をファイルに書き込む - Null 値データを削除し、削除されたすべての行を外部ファイルに書き込みます。

ストレージ フォーマット 結果を保存する形式を選択します。保存形式はオペレーターの種類によって決まります。

一般的な形式は、AvroCSVTSV、または Parquet です。

圧縮 出力の圧縮のタイプを選択します。

利用可能な Parquet 圧縮オプション。

  • GZIP
  • Deflate
  • Snappy
  • 圧縮なし

利用可能な Avro 圧縮オプション。

  • Deflate
  • Snappy
  • 圧縮なし
出力ディレクトリ 出力ファイルを保存する場所。
出力名 結果を含める名前。
出力を上書き そのパスにある既存のデータを削除するかどうかを指定します。
  • はい - パスが存在する場合は、そのファイルを削除し、結果を保存します。
  • いいえ - パスがすでに存在する場合は失敗します。
高度な Spark 設定の自動最適化
  • [はい] は、デフォルトの Spark 最適化設定の使用を指定します。
  • [いいえ] を選択すると、カスタマイズされた Spark 最適化を提供できます。 [設定の編集] をクリックして、Spark の最適化をカスタマイズします。詳細については、「詳細設定ダイアログ」を参照してください。

出力

ビジュアル出力
  • 関連付けルール 出力 (後続のオペレーターに送信されるメイン出力)。ここに例を示します。

    ユーザーが指定した基準から選択されたルールと、これらのルールの重要度の関連尺度が表示されます。

    • サポート (パラメーターセクション - 最小サポートを参照)
    • 信頼度: (パラメーターセクション - 最小ルール信頼度を参照)
    • リフト: (パラメーター セクション - 最小ルール リフトを参照)
    • 確信度: ルールの確信度は、Y なしで X が発生する予想頻度 (つまり、 XY が独立しており、観測された不正確な予測の頻度で割った場合、ルールは不正確な予測を行います。たとえば、ルール (X => Y) の確信度が 1.2 の場合、間の関連性が低い場合、このルールは 20% 頻繁に (1.2 倍の頻度で) 不正確になることを意味します。XY は純粋にランダムな偶然でした。確信度が高いほど、ルールの信頼性が高くなります。

      ノート: Null 確信度 - 不正確な確信度の観測頻度が 0 (つまり、信頼度が 1) の場合、ルールの有確信度は計算できず、Null 値が表示されます。
    • 頻繁に使用されるアイテム セット データセット (HDFS に保存):

    • 選択されたパラメータ、Null 値により削除された行、生成されたルール、および出力場所のサマリー

データ出力

このオペレーターの出力は、ルール メトリックに基づいてさらにフィルタリングできる (たとえば、行フィルターを使用して) 関連付けルール データセットです。

ノート: 頻繁に使用するアイテムのデータセットも HDFS に保存されており、キャンバス上にドラッグしてさらに分析することができます。

その他の注意事項

FP-Growth パフォーマンス - 選択された最小サポートが非常に低い (0 に近い) 場合、FP-Growth アルゴリズムでは処理が遅くなる可能性があります。速度が遅いと感じた場合は、次のいずれかの解決策を試してください。

  • 最小サポートの値を増やします。
  • [Spark の詳細設定]で Spark エグゼキュターのメモリやパーティションの数を増やします。