セッション化

時系列データに対するセッション化の適用を有効にして、行 (およびユーザー ID) ごとにアクションが属するセッションを示す session_id カラムを作成します。

情報一覧

パラメーター

説明
カテゴリー トランスフォーム
データ ソース タイプ HD
出力を他のオペレーターに送信 はい
データ処理ツール Spark

セッションは、タスクを完了する際のユーザーのアクションの順序付きリストとして説明できます。セッションの境界がどのように定義されるかについては、以下の表の セッション境界 パラメーターを参照してください。

ノート: 各ユーザー ID の最初のセッションは 0 から始まります。

セッション化は、ログ/クリックストリーム分析のための Web 分析で最もよく使用されますが、予知メンテナンスや IoT などの他の分野でもよく使用されます。

入力

このオペレーターには、少なくとも datetime カラムを含む単一の表形式の入力が必要です。

値が不正または欠落しています
  • ダーティ データ: 区切りデータを解析する場合、セッション化オペレーターは解析中にダーティ データ (数値カラムの文字列、整数カラムのダブル、値の数が正しくない行など) を削除します。これらの行は、Spark が処理できないため、内部処理として削除されます。
  • Null 値: セッション化を適用する前に、オペレーターは Timestamp カラムまたは Status カラムのいずれかに Null 値を含む行をフィルタリングします。次に、オペレーターは、[Null データにより削除された行をファイルに書き込む] パラメーターの値に従って、Null 値を持つこれらの行を処理します。Null データにより削除された行の数は、ビジュアル出力の サマリー タブにレポートされます。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
セッション境界 セッション境界を定義する方法を選択します。

  • 時間間隔のしきい値 - このユーザーが一定時間非アクティブな場合に新しいユーザー セッションを定義します。
  • ステータスの変更 - 割り当てが変更された場合に新しいユーザー セッションを定義します。

タイムスタンプ カラム データセット内の各アクションのタイムスタンプを含む日時カラムを選択します。
時間間隔のしきい値 (秒) [セッション境界][時間間隔のしきい値] に設定されている場合にのみ必要です。

新しいセッションを定義するために使用される、非アクティブのしきい値を秒単位で入力します。

ステータス カラム [セッション境界][ステータスの変更] に設定されている場合にのみ必要です。

新しいセッションを定義するための割り当ての変更を検出するために使用するカラムを指定します。

ユーザー ID カラム 入力データセットを分割し、個別のユーザーごとにセッション ID を作成するために使用するユーザー ID カラムを選択します。
保持するカラム 出力に保持する入力カラムを選択します。
Null データにより削除された行をファイルに書き込む Null 値を含む行は分析から削除されます。このパラメーターを使用して、Null 値を含むデータをファイルに書き込むように指定します。

ファイルは残りの出力と同じディレクトリに書き込まれます。ファイル名には接尾辞 _baddata が追加されます。

  • Null 行をファイルに書き込まない - Null 値データを削除して結果 UI に表示しますが、外部ファイルには書き込みません。

  • Null 行の書き込みまたはカウントを行わない (最速) - Null 値データを削除しますが、カウントして結果 UI に表示しません。

  • すべての Null 行をファイルに書き込む - Null 値データを削除し、削除されたすべての行を外部ファイルに書き込みます。

ストレージ フォーマット 結果を保存する形式を選択します。保存形式はオペレーターの種類によって決まります。

一般的な形式は、AvroCSVTSV、または Parquet です。

圧縮 出力の圧縮のタイプを選択します。

利用可能な Parquet 圧縮オプション。

  • GZIP
  • Deflate
  • Snappy
  • 圧縮なし

利用可能な Avro 圧縮オプション。

  • Deflate
  • Snappy
  • 圧縮なし
出力ディレクトリ 出力ファイルを保存する場所。
出力名 結果を含める名前。
出力を上書き そのパスにある既存のデータを削除するかどうかを指定します。
  • はい - パスが存在する場合は、そのファイルを削除し、結果を保存します。
  • いいえ - パスがすでに存在する場合は失敗します。
高度な Spark 設定の自動最適化
  • [はい] は、デフォルトの Spark 最適化設定の使用を指定します。
  • [いいえ] を選択すると、カスタマイズされた Spark 最適化を提供できます。 [設定の編集] をクリックして、Spark の最適化をカスタマイズします。詳細については、「詳細設定ダイアログ」を参照してください。

出力

ビジュアル出力
new_session カラムと session_id カラムを含む出力データセット。

ユーザー パラメーターと出力場所のサマリー。

データ出力
このオペレーターを後続のオペレーターに接続します。