Hadoop での不正データ処理
MapReduce ジョブでデータの各行を処理する前に、TIBCO Data Science - Team Studio は、まず、データが「クリーン」かどうかを確認します。
このオペレーターに使用されている各カラムについて、行内の対応する値が正しいデータ タイプである場合、その行はクリーンであるとみなされます。行がダーティである場合、その行はフィルターで除外されます。実行の最後に、無効なデータにより除外された行の数がコンソールに表示されます。
一般に、すべてのモデルは上記のように不良データを除外します。ただし、予測子は不良データを除外しません。代わりに、予測子には行が含まれますが、この場合は予測は行われません。