アソシエーション ルール
アソシエーション ルール モデリングとは、データセット内で頻繁に発生するパターンを決定するプロセスを指します。たとえば、データ内の頻繁に発生する組み合わせや、一緒に束ねられたアイテムのセット、サブシーケンス、または部分構造を識別します。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | モデル |
| データ ソース タイプ | HD |
| 出力を他のオペレーターに送信 | はい |
| データ処理ツール | Spark |
関連付けルールの詳細については、データセット内のパターン を参照してください。
入力
スパース アイテム セット (または「バスケット」) カラムを含む HDFS 表形式データセット (個別のアイテムをキーとして、頻度を値として持つキー/値ディクショナリ)。
入力は、[グループ・バイ] 節でトランザクション [ID] カラムを使用し、[折りたたみするカラム] チェックボックスで [アイテム] カラムを使用する 折りたたみ オペレーターによって生成される可能性が最も高くなります。例を参照してください。
構成
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| アイテム セット カラム | 各トランザクション (ID、グループ...) のアイテム セット (または「バスケット」) を表す辞書カラムを選択します。 サポートされるデータ タイプ: TIBCO Data Science - Team Studio Sparse このカラムは、折りたたみ オペレーターの出力カラムである可能性が最も高くなります (上記の「入力」セクションを参照)。 |
| 頻繁に使用されるアイテム セットの最大サイズ | 相関ルールの生成に使用するために、頻繁に使用されるアイテム セットに含めることができるアイテムの最大数を指定します。可能な値の範囲は 1 ~ 50 です。デフォルト値: 5 |
| 最低限のサポート | 関連付けルールのサポートは、関連付けルールにリストされているすべての項目を含むグループの割合です。 [最小サポート] は、関連付けルールにリストされているすべての項目を含むグループまたはトランザクションの下限しきい値パーセンテージを指定します。
|
| ルールの最小信頼度 |
アソシエーション ルールの [信頼度] は、ルール本体を含むすべてのグループの中でルール ヘッドが出現する頻度を示すパーセンテージ値です。 [信頼度] の値は、このルールの信頼性を示します。値が大きいほど、この一連の項目が関連付けられる頻度が高くなります。 [最小信頼度] は、ルールが発生する必要な頻度の下限しきい値パーセンテージを指定します。 ルール X => Y の場合:
|
| 最小ルール リフト |
アソシエーション・ルールのリフト (Lift) とは、X と Y が独立であった場合に期待されるルール( = support (XUY) )に対する、観測されたサポートの比率のことです。
ルールのリフトが 1 の場合、前件 X の発生確率と後件 Y の発生確率が互いに独立していることを意味します。 2 つのイベントが互いに独立している場合、それら 2 つのイベントを含むルールを描画する必要はありません。 リフトが 1 より大きい場合、これら 2 つの発生が互いに依存する度合いがわかり、これらのルールは将来のデータセットの結果を予測するのに役立つ可能性があります。 リフトの値は、ルールの信頼性とデータセット全体の両方を考慮することです。
|
| Null データにより削除された行をファイルに書き込む |
アイテム セット カラムに Null 値がある行は分析から削除されます。このパラメーターを使用すると、Null 値を含むデータをファイルに書き込むように指定できます。 ファイルは残りの出力と同じディレクトリに書き込まれます。ファイル名は bad_data です。
|
| ストレージ フォーマット | 結果を保存する形式を選択します。保存形式はオペレーターの種類によって決まります。 一般的な形式は、Avro、CSV、TSV、または Parquet です。 |
| 圧縮 | 出力の圧縮のタイプを選択します。 利用可能な Parquet 圧縮オプション。
利用可能な Avro 圧縮オプション。
|
| 出力ディレクトリ | 出力ファイルを保存する場所。 |
| 出力名 | 結果を含める名前。 |
| 出力を上書き | そのパスにある既存のデータを削除するかどうかを指定します。
|
| 高度な Spark 設定の自動最適化 |
|
出力
- 関連付けルール 出力 (後続のオペレーターに送信されるメイン出力)。ここに例を示します。

ユーザーが指定した基準から選択されたルールと、これらのルールの重要度の関連尺度が表示されます。
- サポート (パラメーターセクション - 最小サポートを参照)
- 信頼度: (パラメーターセクション - 最小ルール信頼度を参照)
- リフト: (パラメーター セクション - 最小ルール リフトを参照)
- 確信度: ルールの確信度は、Y なしで X が発生する予想頻度 (つまり、 X と Y が独立しており、観測された不正確な予測の頻度で割った場合、ルールは不正確な予測を行います。たとえば、ルール (X => Y) の確信度が 1.2 の場合、間の関連性が低い場合、このルールは 20% 頻繁に (1.2 倍の頻度で) 不正確になることを意味します。X と Y は純粋にランダムな偶然でした。確信度が高いほど、ルールの信頼性が高くなります。
ノート: Null 確信度 - 不正確な確信度の観測頻度が 0 (つまり、信頼度が 1) の場合、ルールの有確信度は計算できず、Null 値が表示されます。
-
- 頻繁に使用されるアイテム セット データセット (HDFS に保存):

- 頻繁に使用されるアイテム セット データセット (HDFS に保存):
-
- 選択されたパラメータ、Null 値により削除された行、生成されたルール、および出力場所のサマリー。

- 選択されたパラメータ、Null 値により削除された行、生成されたルール、および出力場所のサマリー。
このオペレーターの出力は、ルール メトリックに基づいてさらにフィルタリングできる (たとえば、行フィルターを使用して) 関連付けルール データセットです。
例

その他の注意事項
FP-Growth パフォーマンス - 選択された最小サポートが非常に低い (0 に近い) 場合、FP-Growth アルゴリズムでは処理が遅くなる可能性があります。速度が遅いと感じた場合は、次のいずれかの解決策を試してください。
- 最小サポートの値を増やします。
- [Spark の詳細設定]で Spark エグゼキュターのメモリやパーティションの数を増やします。
**
は、
として書き直すことができます。ここで、
と
は、それぞれトランザクションにアイテムセット
と
が含まれるイベントです。