セッション化
時系列データに対するセッション化の適用を有効にして、行 (およびユーザー ID) ごとにアクションが属するセッションを示す session_id カラムを作成します。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | トランスフォーム |
| データ ソース タイプ | HD |
| 出力を他のオペレーターに送信 | はい |
| データ処理ツール | Spark |
セッションは、タスクを完了する際のユーザーのアクションの順序付きリストとして説明できます。セッションの境界がどのように定義されるかについては、以下の表の セッション境界 パラメーターを参照してください。
セッション化は、ログ/クリックストリーム分析のための Web 分析で最もよく使用されますが、予知メンテナンスや IoT などの他の分野でもよく使用されます。
入力
このオペレーターには、少なくとも datetime カラムを含む単一の表形式の入力が必要です。
- ダーティ データ: 区切りデータを解析する場合、セッション化オペレーターは解析中にダーティ データ (数値カラムの文字列、整数カラムのダブル、値の数が正しくない行など) を削除します。これらの行は、Spark が処理できないため、内部処理として削除されます。
- Null 値: セッション化を適用する前に、オペレーターは Timestamp カラムまたは Status カラムのいずれかに Null 値を含む行をフィルタリングします。次に、オペレーターは、[Null データにより削除された行をファイルに書き込む] パラメーターの値に従って、Null 値を持つこれらの行を処理します。Null データにより削除された行の数は、ビジュアル出力の サマリー タブにレポートされます。
構成
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| セッション境界 | セッション境界を定義する方法を選択します。
|
| タイムスタンプ カラム | データセット内の各アクションのタイムスタンプを含む日時カラムを選択します。 |
| 時間間隔のしきい値 (秒) | [セッション境界] が [時間間隔のしきい値] に設定されている場合にのみ必要です。 新しいセッションを定義するために使用される、非アクティブのしきい値を秒単位で入力します。 |
| ステータス カラム | [セッション境界] が [ステータスの変更] に設定されている場合にのみ必要です。 新しいセッションを定義するための割り当ての変更を検出するために使用するカラムを指定します。 |
| ユーザー ID カラム | 入力データセットを分割し、個別のユーザーごとにセッション ID を作成するために使用するユーザー ID カラムを選択します。 |
| 保持するカラム | 出力に保持する入力カラムを選択します。 |
| Null データにより削除された行をファイルに書き込む | Null 値を含む行は分析から削除されます。このパラメーターを使用して、Null 値を含むデータをファイルに書き込むように指定します。 ファイルは残りの出力と同じディレクトリに書き込まれます。ファイル名には接尾辞 _baddata が追加されます。
|
| ストレージ フォーマット | 結果を保存する形式を選択します。保存形式はオペレーターの種類によって決まります。 一般的な形式は、Avro、CSV、TSV、または Parquet です。 |
| 圧縮 | 出力の圧縮のタイプを選択します。 利用可能な Parquet 圧縮オプション。
利用可能な Avro 圧縮オプション。
|
| 出力ディレクトリ | 出力ファイルを保存する場所。 |
| 出力名 | 結果を含める名前。 |
| 出力を上書き | そのパスにある既存のデータを削除するかどうかを指定します。
|
| 高度な Spark 設定の自動最適化 |
|
出力
例

