About Data Sampling

ソースデータのランダムサンプリングは、精度の低下を伴いますが、インデックス作成とDiscoveryプロセスのパフォーマンスを向上させます。一般に、Discoveryは重要な関係を検出し、レビューのために偽の否定的な情報を提示することはありません。

データソースサンプリングの必要性は、データ量、使用可能なメモリ、ソースシステムとTDV間で利用可能な帯域幅によって決まります。インデックス作成に時間がかかりすぎる場合は、データサンプリングを有効にするとよいでしょう。データサンプリングを有効にすると、テーブルまたはビューの行の一部のみがインデックス化されます。

サンプリングがどのように機能するかは、インデックスを作成する対象や検出されるデータソースの種類に依存します。

テーブルの場合、データサンプリングは2つのスタジオ設定パラメータとテーブルのカーディナリティによって有効化および制御されます。Discoveryは、これらの両方が真である場合にのみ、データサンプリング・アルゴリズムを適用します。

• テーブルのカーディナリティが、「Sampling Size」設定パラメータで指定されたデータサンプリングのしきい値を超えている。

<div id="ww947095" class="Body"サンプリングが有効で閾値を超えた場合、テーブルのインデックスが作成される行数は次の式で計算されます。

例えば、100万行のテーブルがあり、Sampling Sizeが100000に設定されている場合、テーブルの10%がインデックス化されることになります。

どの行のインデックスを作成するかは、乱数発生器によって制御されます。

データサンプリングが有効でない場合、テーブルのカーディナリティのしきい値を超えても、データサンプリングは行われません。

テーブルがOracle、DB2、MySQL、Netezza、Microsoft SQL Serverのいずれかのデータソースに存在する場合、データサンプリングはそのデータソースにプッシュされます。そうでない場合は、すべてのデータがTDVに取り込まれ、そこでサンプリングされます。

ビューの場合、データサンプリングは次の2つのStudio設定パラメータによって有効化および制御されます。

「データサンプリングの設定」を参照ください。

すべての行は、Sampling Sizeのしきい値までインデックスが作成されます。サンプリングが有効な場合、Discoveryは減少するスケールでインデックス作成を開始します。つまり、Sampling Sizeのしきい値を超えると、Discoveryはその半分の行のインデックス作成を開始します。(Sampling Size ×2)に達すると、4分の1の数の行にインデックスが付けられます。どの行のインデックスを作成するかは、乱数発生器によって制御されます。

データサンプリングが有効でない場合、閾値を超えたとしてもデータサンプリングは行われません。