ビデオ: チャイルドーシート不使用の危険性(急ブレーキ時)【JAFユーザーテスト】 2024
完璧な世界では、機械学習アルゴリズムがこれまでに学んだことのないデータをテストすることができます。しかし、新鮮なデータを待つことは、時間とコストの面で必ずしも実現可能ではありません。
最初の簡単な救済策として、データをトレーニングセットとテストセットにランダムに分けることができます。一般的な分割は、テストの場合は25〜30%、トレーニングの場合は残りの75〜70%です。応答と機能のデータを同時に分割し、各応答とその機能の対応を維持します。
<! - 1 - >2番目の救済策は、学習アルゴリズムを調整する必要がある場合に発生します。この場合、テスト分割データは、スヌーピングと呼ばれる別の種類のオーバーフィッティングを引き起こすため、適切な方法ではありません。スヌーピングを克服するには、検証セットと呼ばれる3番目の分割が必要です。提案された分割は、トレーニングの70%、検証のための20%、テストのための10%という3つに分割されたサンプルを持つことです。
<! - 2 - >データの最初の順序にかかわらず、ランダムに分割を実行する必要があります。そうでなければ、注文は 過大評価 (意味のある注文がある場合)または 過小評価 (配布が多すぎる場合)を起こす可能性があるため、テストは信頼できません。解決策として、テストセットの分布がトレーニングの分布とあまり変わらないこと、および分割データで順次の順序が発生することを確認する必要があります。
<! - 3 - >たとえば、識別番号が使用可能な場合は、セット内で連続しているかどうかを確認します。場合によっては、ランダムサンプリングを厳密に遵守しても、特にサンプル数が少ない場合には、セット間で類似の分布を得ることはできません。
n> 10,000などのサンプル数nが高い場合は、ランダムに分割されたデータセットを作成することができます。データセットがより小さい場合は、平均、モード、中央値、分散などの基本的な統計値とトレーニングとテストセットの機能を比較することで、テストセットが適切でないかどうかを理解するのに役立ちます。分割が正しいかどうか分からないときは、新しい分割を再計算してください。