データセット内のパターン
データセット内のパターンは「アソシエーション(関連付け)」と呼ばれます。これは、データセット内で頻繁に発生する項目、サブシーケンス、部分構造などのセットです。よくあるパターンとしても知られています。
アソシエーション ルール オペレーターを使用して、データ内の頻繁なパターンを検出できます。アソシエーション ルール オペレーターの使用方法の詳細については、「アソシエーション ルール」を参照してください。
アソシエーション ルール モデリングで検出できるデータ固有の規則性の具体例としては、次のようなものがあります。
- 頻繁に使用されるアイテムセット: たとえば、牛乳やパンなどのアイテムのセットは、トランザクション データセット内に頻繁に一緒に表示される可能性があります。
- よく一緒に購入される商品は何ですか?これは一般に、ショッピング バスケット分析またはマーケット バスケット分析と呼ばれます。
- 頻繁に使用される部分構造: 部分構造は、サブグラフ、サブツリー、サブラティスなど、サブシーケンスのアイテムセットと組み合わせることができるさまざまな構造形式を参照できます。たとえば、新薬に敏感な特定の DNA 構造などの部分構造は、バイオテクノロジー医薬品試験データセットで頻繁に発生する可能性があります。
- 特定のイベントに関連付けられたデータの部分構造とは何ですか?
アソシエーション ルールは、一見無関係に見えるデータ間の関係を定義する if/then ステートメントです。相関ルールの例としては、「顧客が卵を 12 個購入した場合、牛乳も購入する可能性が 80% である」などがあります。
- ルールの
if部分は、多くの場合前提と呼ばれます。 - ルールの
then部分は結論です。
したがって、前提とは、結論の項目や条件と組み合わせてよく見られる項目や条件であると考えられます。
アソシエーション ルールは次の分析を実行します。
- MLLib 形式の FP-Growth アルゴリズムの並列バージョンを適用することにより、データ内で頻繁に使用される項目セットを検索します。
- 並列アソシエーション ルール アルゴリズムを実行して、結果として 1 つの項目を持ち、モデラーが指定したサポート、信頼性、およびリフト基準を満たす、未カバーのアソシエーション ルールのリストを生成します。
- サポート は、項目が入力内で一緒に表示される頻度を示します。
- 信頼度 は、if/then ステートメントが true であると判明した回数の割合を示します。
- リフト は、前件と後件が独立していた場合に期待されるサポートに対する観測されたサポートの比率を測定します (前件と後件が他のものに依存する度合いであり、ルールが価値のあるものになります)。
使用例
アソシエーション ルール モデリングは、本質的にカテゴリカルな教師なしトランザクション データを分析する場合に役立ちます。このような頻繁なパターンを見つけることは、買い物かご分析などのさまざまなビジネス ユース ケースに適用できます。一緒に(または順番に)頻繁に購入される商品セットを検索することによって、顧客の購買習慣を調査するような場合です。その他の一般的な使用例としては、クロスマーケティング、商品クラスタリング、カタログ デザイン、店舗レイアウト、販売キャンペーン分析、Web ログ(「クリック ストリーム」)分析、DNA 配列分析などがあります。