予測分析モデルのデータを準備する方法 - ダミー

ビデオ: 重回帰分析をSEOの例題で理解する。【回帰分析シリーズ３】 2025

予測分析の目的を定義したら、次にモデルを作成するために使用するデータを特定して準備します。一般的な手順は次のようになります。

データソースを特定します。

データは、異なるフォーマットであったり、さまざまな場所に存在したりする可能性があります。
そのデータへのアクセス方法を特定します。

場合によっては、第三者のデータまたは組織内の別の部門が所有するデータなどを取得する必要があります。
<！ - 1 - >
分析に含める変数を検討します。

一つの標準的なアプローチは、広範囲の変数から始め、モデルの予測値を提供しない変数を取り除くことです。
派生変数を使用するかどうかを決定します。

多くの場合、派生変数（株価を分析するために使用される収益対価の比など）は、生変数よりもモデルに直接的な影響が大きくなります。
<！ - 2 - >
データの品質を調べ、その状態と限界の両方を理解しようとします。

モデルの予測精度は、選択した変数とデータの品質に直接関係しています。この時点でいくつかのデータに固有の質問に答える必要があります。
- データは完成していますか？
- 異常値はありますか？
- データをクレンジングする必要がありますか？
  <！ - 3 - >
- 不足している値を記入するか、そのままの状態に保つか、またはそれらを完全に削除する必要がありますか？

データとそのプロパティを理解することで、モデル構築に最も役立つアルゴリズムを選択するのに役立ちます。例：

回帰アルゴリズムを使用して、時系列データを分析できます。分類アルゴリズムは、離散データを分析するために使用することができる。
相関アルゴリズムを、相関属性を有するデータに使用することができる。
モデルのトレーニングとテストに使用されるデータセットには、解決しようとしている問題に答えるための関連するビジネス情報が含まれている必要があります。どの顧客が解約される可能性が高いかを判断するなどの目的がある場合、選択したデータセットには、過去に変わった顧客に関する情報と、そうでない顧客に関する情報が含まれている必要があります。

データを採掘し、根本的な関係（例えば、クラスタリングアルゴリズムで構築されたもの）を理解するために作成されたモデルの中には、特定の最終結果を念頭におく必要はありません。

モデルを構築しているときにデータを扱うときに、アンダーフィッティングとオーバーフィットが発生します。

アンダーフィッティング

アンダーフィット

は、モデルがデータ内の関係を検出できない場合です。これは通常、予測力のある必須変数が分析に含まれていないことを示しています。例えば、株式市場のデータのみを含む株式分析（全体的な株価が上昇している）は、株式の全体的なパフォーマンスを大幅に修正する可能性のある危機やバブルを考慮していません。雄牛（

および）の両方の市場にまたがるデータを含めることができない場合（全体の株価が下落している場合）、モデルは可能な限り最良のポートフォリオ選択を生成しません。オーバーフィット（Overfitting）

オーバーフィット（Overfitting）

は、モデルに予測能力がないデータが含まれているが、分析しているデータセットにのみ固有のデータです。 Noise - データセット内のランダムな変化 - がモデルに入り込み、異なるデータセットでモデルを実行すると、モデルの予測パフォーマンスと精度が大幅に低下します。付随するサイドバーに例があります。モデルが特定のデータセットで正常に動作し、異なるデータセットでテストしたときにパフォーマンスが低下する場合は、オーバーフィットと思われます。