Discovery ガイド > Discoveryの紹介 > データサンプリングについて
 
データサンプリングについて
ソースデータのランダムサンプリングは、精度の低下を伴いますが、インデックス作成とDiscoveryプロセスのパフォーマンスを向上させます。一般に、Discoveryは重要な関係を検出し、レビューのために偽の否定的な情報を提示することはありません。
データソースサンプリングの必要性は、データ量、使用可能なメモリ、ソースシステムとTDV間で利用可能な帯域幅によって決まります。インデックス作成に時間がかかりすぎる場合は、データサンプリングを有効にするとよいでしょう。データサンプリングを有効にすると、テーブルまたはビューの行の一部のみがインデックス化されます。
サンプリングがどのように機能するかは、インデックスを作成する対象や検出されるデータソースの種類に依存します。
テーブルデータサンプリング
ビューデータサンプリング
テーブルデータサンプリング
テーブルの場合、データサンプリングは2つのスタジオ設定パラメータとテーブルのカーディナリティによって有効化および制御されます。Discoveryは、これらの両方が真である場合にのみ、データサンプリング・アルゴリズムを適用します。
Sampling Is Enabled」設定パラメータがオンになっている。
テーブルのカーディナリティが、「Sampling Size」設定パラメータで指定されたデータサンプリングのしきい値を超えている。
<div id="ww947095" class="Body"サンプリングが有効で閾値を超えた場合、テーブルのインデックスが作成される行数は次の式で計算されます。
Sampling Size/Cardinality=% of rows indexed
 
例えば、100万行のテーブルがあり、Sampling Sizeが100000に設定されている場合、テーブルの10%がインデックス化されることになります。
どの行のインデックスを作成するかは、乱数発生器によって制御されます。
データサンプリングが有効でない場合、テーブルのカーディナリティのしきい値を超えても、データサンプリングは行われません。
テーブルがOracle、DB2、MySQL、Netezza、Microsoft SQL Serverのいずれかのデータソースに存在する場合、データサンプリングはそのデータソースにプッシュされます。そうでない場合は、すべてのデータがTDVに取り込まれ、そこでサンプリングされます。
ビューデータサンプリング
ビューの場合、データサンプリングは次の2つのStudio設定パラメータによって有効化および制御されます。
Sampling Is Enabled
Sampling Size
データサンプリングの設定」を参照ください。
すべての行は、Sampling Sizeのしきい値までインデックスが作成されます。サンプリングが有効な場合、Discoveryは減少するスケールでインデックス作成を開始します。つまり、Sampling Sizeのしきい値を超えると、Discoveryはその半分の行のインデックス作成を開始します。(Sampling Size ×2)に達すると、4分の1の数の行にインデックスが付けられます。どの行のインデックスを作成するかは、乱数発生器によって制御されます。
データサンプリングが有効でない場合、閾値を超えたとしてもデータサンプリングは行われません。