目次:
- もう1つのベストプラクティスは、モデリング対象のドメインの人口が多いことをデータで確認することです。オーバートレーニングされたモデルが知っているのは、トレーニングを受けたサンプルデータセットの特定の機能です。冬にスノーシューズの販売にしかモデルを訓練しない場合、他の季節のデータで再び実行されると悲惨に失敗しても驚かないでください。
- データセットをトレーニングデータとテストデータの2つの部分に分割します。
ビデオ: 超強力テクニカル!バイナリーオプション反転するポイントがわかるフィボナッチを使って高勝率エントリーポイント紹介! 2024
カーブフィッティング は、予測分析で使用されるプロセスで、データ系列の実際の(元の)データ点に最もよく適合する数学的関数を表す曲線。
曲線は、すべてのデータポイントを通過するか、データの大部分にとどまり、データから傾向を引き出すためにいくつかのデータポイントを無視することができます。いずれの場合も、すべてのデータ点をトレンドを描き、予測を助ける曲線に合わせるという目的で、1つの数学関数がデータ本体全体に割り当てられます。
<! (補間と呼ばれるプロセス)
-
すべてのデータポイントの正確なフィットを見つけることによって、曲線フィットを達成することができます。データの大部分は、データから傾向を引き出すためにいくつかのデータ点を無視しながら実行されます。 データスムージングを使用して、平滑化されたグラフを表す関数 <! - 2 - >
-
曲線フィッティングを使用して、可能なデータ点を埋めることで欠損値を置き換えるか、アナリストがデータを視覚化するのを助けることができます。
-
予測分析モデルを生成するときは、モデルをデータサンプルに完全に合わせるように調整しないでください。このようなモデルは、悲惨なことに、データサンプル外の類似した様々なデータセットを予測するのに失敗します。モデルを特定のデータサンプルにあまりにも近づけすぎるのは、
overfitting
と呼ばれる典型的な間違いです。
<!オーバーフィットの悩み 本質的に、モデルのオーバーフィットは、サンプルデータのみを表すようにモデルをオーバートラップするときに起こります。これは、データ全体を良好に表現するものではありません。今後のより現実的なデータセットがなければ、モデルは誤動作やリスクに悩まされ、運用に移行し、ビジネスへの影響が深刻になる可能性があります。 モデルをオーバーフィットすることは、一般的なトラップです。なぜなら、人々は機能するモデルを作成したいからです。モデルが完全に実行されるまで変数やパラメータを微調整しすぎてデータを残さないようにすることができます。間違っているのは人間です。幸運なことに、現実的なソリューションを作成するのも人間です。
モデルをサンプルデータセットにオーバーフィットさせないために、サンプルデータとは別のテストデータを使用できるようにしてください。次に、モデルを操作可能にする前に、モデルのパフォーマンスを個別に測定することができます。したがって、過適合に対する1つの一般的な防護策は、データをトレーニングデータとテストデータの2つの部分に分割することです。テストデータに対するモデルのパフォーマンスは、モデルが現実世界のために準備されているかどうかについて多くのことを教えてくれます。もう1つのベストプラクティスは、モデリング対象のドメインの人口が多いことをデータで確認することです。オーバートレーニングされたモデルが知っているのは、トレーニングを受けたサンプルデータセットの特定の機能です。冬にスノーシューズの販売にしかモデルを訓練しない場合、他の季節のデータで再び実行されると悲惨に失敗しても驚かないでください。
オーバーフィットを回避する方法
繰り返す価値があります。モデルの調整が多すぎると、オーバーフィットになりやすいです。そのような微妙な調整の1つは、分析に多すぎる変数を含めることです。これらの変数は最小限に抑えてください。あなたが必要とする変数は、結果に大きな違いをもたらすと思われるものだけを含めてください。
この洞察は、あなたがいるビジネスドメインの親密な知識からのみ得られます。ドメイン専門家の専門知識が、あなたが過当な罠に陥るのを防ぐのに役立ちます。
モデルの過適合を避けるためのベストプラクティスのチェックリストを次に示します。
人口全体を代表するデータセットを選択しました。
データセットをトレーニングデータとテストデータの2つの部分に分割します。
変数を分析して、手元にある仕事の健全な最小限に保ちます。
ドメイン知識の専門家の助けを借りてください。例えば、株式市場において、古典的な分析手法は、過去のデータに対してモデルを実行して、最良の取引戦略を探すことを裏付けるものである(999)。最近の強気相場から得られたデータに対して新しいモデルを実行し、分析に使用された変数の数を微調整した後、アナリストは最適な取引戦略のように見えるものを作成すると仮定する。もし彼が戻ってテストデータを生産した年の間に取引できるのであれば
。残念ながら、彼はできません。彼が現在の弱気市場でそのモデルを適用しようとする場合、以下を見てください。狭い時期に最適化されたモデルと現在の現実に合わない条件を適用して損失を被ります。 (仮説的利益のために)
-
このモデルは、サンプルデータを作成した文脈の誇張を含んでいる、過度のものであったため、その特定のもの、異常値、および欠点を伴って、消滅した強気市場に対してのみ働いた。そのデータセットを取り囲んでいるすべての状況は、将来的には繰り返されないかもしれませんし、人口全体の真の表現でも、おそらく繰り返されることはありません。
-
モデルの出力が高すぎる場合、ヒントを詳しく見てください。ドメインナレッジエキスパートの助けを借りて、あなたの結果が真実であるかどうかを確かめ、より多くのテストデータでそのモデルを実行してさらに比較することができます。