SVM の使用例
次のモデルは、SVM 分類モデルを使用して森林被覆のさまざまな特性を評価する方法を示しています。
Forest Cover データの分類
このデータセットは、カリフォルニア大学アーバイン校のサイト http://archive.ics.uci.edu/ml/datasets/Covertype から取得したもので、このケースで使用される正確なバージョン (ヘッダーが追加されたもの) は covtype.csv (75.2MB) です。
Forest Cover データセットは、データ サイエンティストが使用する標準データセットです。ソース データセットは、土壌の種類、標高、傾斜角、傾斜角、その他の森林変数に基づいて、予想される森林被覆の種類を決定するためのデータを提供します。これには、581,012 の観測値、54 の属性カラム (10 の量的変数、4 つのバイナリ荒野エリア、および 40 のバイナリ土壌タイプ変数)、および 1 つのラベル カラム (cov_type) が含まれています。 cov_type で考えられる分類には、スプルース/モミ (タイプ 1)、ロッジポール パイン (タイプ 2)、ポンデローザ パイン (タイプ 3)、コットンウッド/ヤナギ (タイプ 4)、スプルース/モミ、アスペン (タイプ 5) が含まれます。 )、ダグラス・ファー(タイプ6)があります。
最初の数行とカラムを以下に示します。
ワークフロー
SVM 分類モデルは、次のワークフローを使用して、データを分析するために迅速にセットアップできます。
SVM 分類設定パラメーターは次のように設定されます。
カラム cover_type が依存カラムとして選択され、カラムの選択では、他の 54 カラムすべてが SVM の属性として選択されます。
SVM 分類を初めて実行する場合は、[線形カーネル タイプ] を選択する必要があります。
結果
SVM 分類モデルを実行すると、次のトレーニング エラー曲線が生成されます。約 40 回の反復の後、モデルの精度は安定し、かなり良好なモデルとみなせます。
SVM 予測器の出力は次のようになります (同じデータセットの最後にさらに 3 つのカラムがあります)。
C_cover_type の詳細には、6 つの cover_type クラスごとの信頼度の値が示されています。 C_cover_type は、予測クラス P_cover_type に関連付けられた最も高い信頼値を示します。このモデルは、必ずしも正しい種類の森林被覆を予測しているとは限りません。実際、一部の観測では、予測されたクラス (P_cover_type) が実際のクラス (cover_type) と同じではありません。
次のステップとして、モデラーは、次のように、データを 2 つのグループに分割し、データの前半に基づいてモデルを構築し、残りの半分でその精度を評価する交差検証ワークフローの実行を検討する必要があります。