データの準備とモデルのデプロイ

多くの場合、データ サイエンス チームは、モデル化する前にさまざまな異なるソースからデータを準備します。

このデータは、リレーショナル データベース、フラット ファイル、または Hadoop の構造化データおよび非構造化データから生成される可能性があります。単一のワークフローは、これらすべてのソースに接続して、最終的な統合表現に集約およびクレンジングすることができます。その後、データ オペレーターを使用して、HDFS 内のフォルダーなど、目的の分析サンドボックスに移動できます。

チームは通常、ジョブ スケジューラーを使用してこれらのフローを運用し、最新のライブ データのクレンジングおよび集約されたバージョンで分析サンドボックスを定期的に更新します。同じジョブには、新しいデータが利用可能になるとすぐにトレーニング済みモデルを更新する後続のモデリング フローを含めることができます。