カイ 2 乗、適合度
分布の適合度についてピアソンのカイ 2 乗検定を計算します。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | 予測 |
| データ ソース タイプ | HD |
| 出力を他のオペレーターに送信 | はい |
| データ処理ツール | Spark |
カイ 2 乗オペレーターの詳細については、「ピアソンのカイ 2 乗演算」を参照してください。
入力
このオペレーターには 2 つの入力が必要です。1 つは観測されたイベントとその頻度を含むデータセット、もう 1 つはイベントの予想頻度を表すデータセットです。どちらのデータセットにも、イベント名を表すカテゴリー カラムと、イベントの頻度を示す数値カラムが必要です。頻度は絶対頻度である必要があります (相対頻度 - 比率を使用すると、統計が不正確になります)。
次の入力 (事前に集計されているかどうかにかかわらず) は有効とみなされます (つまり、一意のカテゴリの頻度は、実行時に集計される複数の行に分割できます)。
| コンバージョン | カウント |
|---|---|
| 解約済み | 500 |
| 保持 | 250 |
| 非アクティブ | 250 |
| コンバージョン | カウント |
|---|---|
| 解約済み | 499 |
| 解約済み | 1 |
| 非アクティブ | 250 |
| 残留 | 250 |
2 つの入力データセット (期待頻度と観測頻度) は、まったく同じデータ形式である必要はありませんが、カイ 2 乗統計量は、観測頻度と期待頻度のペアごとの比較であるため、同じ異なるイベントに対応する必要があります。各イベントの結果。
observed_freq_sum/Expected_freq_sum の係数を用いて [期待頻度数カラム] の頻度数を自動的に再スケーリングします。制限事項
このオペレーターは、それぞれが数値カラムとカテゴリー カラムを持つ任意の 2 つのデータセットを受け入れることができます。ただし、2 つのデータセットのカテゴリー カラムに対応するイベント名が含まれており、数値カラムが絶対頻度を表していない限り、結果は意味がありません。たとえば、頻度は負でない必要があり、1 つのデータセット内の頻度は (集計されたかどうかにかかわらず) イベントの数である必要があります。
構成
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| 観測されたデータセット | 観測された頻度に対応する入力データセットの名前 (両方の入力データセットがドロップダウンに表示されます)。 |
| 観測されたイベント カラム | 上で選択した観測データセットのイベント名のカラム。これはカテゴリー カラムである必要があります。イベントはカラム内で複数回発生する可能性があります。 |
| 観測頻度カラム | イベントの絶対頻度の尺度を含む、観測データセット内のカラム。 |
| 期待されるデータセット | 2 番目のデータセットは、観測されたデータセット内のイベントの理論的に予想される頻度を表します。 |
| 予想されるイベント カラム | 指定された [期待されるデータセット] のイベント名カラム。このカラムはカテゴリー カラムである必要があります。イベントはカラム内で複数回発生する可能性があります。この場合、頻度は、すべての頻度の合計でスケールされた、同じ名前のイベントの頻度の合計です。観測されたイベントカラムのイベントは、予想されるカラムのイベントと一致する必要があります。分析は、両方のデータセットに出現するイベントについてのみ完了できます。 |
| 期待頻度カラム | 予想されるイベントカラムの各イベントの絶対頻度。 |
| 有意性のしきい値 | 帰無仮説が棄却される信頼水準。実際には、この値は出力の [帰無仮説の拒否] カラムを決定するために使用されます。P 値 (イベント分布の分散が偶然により発生した確率を表す) がこの値より小さい場合、帰無仮説を棄却します。 |
| Null データにより削除された行をファイルに書き込む | イベント名または頻度カラムに Null 値が含まれる行は、各入力データセットから削除されます。このパラメーターを使用すると、Null 値を含むデータをファイルに書き込むように指定できます。このパラメーターは、観測された入力データセットと予想される入力データセットの両方の Null 値に適用されます。 観測されたデータセット内のヌルデータは、次の場所に書き込まれます。 @default_tempdir/tsds_out/@user_name/@flow_name/@operator_name_uuid_bad_data_observed 予期されるデータセット内の Null データは、次の場所に書き込まれます。 @default_tempdir/tsds_out/@user_name/@flow_name/@operator_name_uuid_bad_data_expected
|
| ストレージ フォーマット | 結果を保存する形式を選択します。保存形式はオペレーターの種類によって決まります。 一般的な形式は、Avro、CSV、TSV、または Parquet です。 |
| 圧縮 | 出力の圧縮のタイプを選択します。 利用可能な Parquet 圧縮オプション。
利用可能な Avro 圧縮オプション。
|
| 出力ディレクトリ | 出力ファイルを保存する場所。 |
| 出力名 | 結果を含める名前。 |
| 出力を上書き | そのパスにある既存のデータを削除するかどうかを指定します。
|
| 高度な Spark 設定の自動最適化 |
|
出力
このオペレーターは、次の 3 つのタブのビジュアル出力を生成します。
- 出力 - 次のオペレーターに渡される出力のプレビューを表示します。出力は、カイ 2 乗適合度テストの結果です。この出力の構造は、カイ 2 乗、独立性テスト オペレーターと同じです。ただし、自由度はイベント結果の数に対応し、独立変数は 1 つだけです。

- イベント頻度 - 両方のデータセット内のイベントのスケーリングされた頻度の表を表示します。この表には、観測されたデータセットと予想されるデータセットの両方に出現するイベントのみが含まれていることに注意してください。参加中にイベントがドロップされた場合、これらのイベントの最初の 10 個をリストしたメッセージがログに表示されます。これはカイ 2 乗分析の基礎となる表です。

- サマリー - ほとんどの内容と同様TIBCO Data Science - Team Studio トランスフォーメーション オペレーターと同様に、このオペレーターには、HDFS 上の結果ロケーションを提供し、Null 値により行が削除されたかどうかを報告する概要タブが含まれています。このオペレーターの場合、[期待されるデータセット] 入力と [観測されたデータセット] 入力の両方で削除された行を報告します。不正なデータ レポートの正確な形式は、[Null データにより削除された行をファイルに書き込む] パラメーターによって制御されます。
例