個人財務 Pythonを使用してデータサイエンスの正しい変数を選択する方法 - ダミー

Pythonを使用してデータサイエンスの正しい変数を選択する方法 - ダミー

目次:

ビデオ: 「社会人のためのデータサイエンス入門」ダイジェスト講義 2025

ビデオ: 「社会人のためのデータサイエンス入門」ダイジェスト講義 2025
Anonim

Pythonで適切な変数を選択すると、ノイズの量を減らすことでデータサイエンスの学習プロセスを改善することができます(役に立たない情報)が含まれています。したがって、変数の選択は予測の分散を効果的に減らすことができます。

  • 一変量アプローチ: 目標結果に最も関連する変数を選択します。

    <! - 1 - >
  • 貪欲または後方アプローチ: 学習プロセスから除外できる変数のみを、パフォーマンスを損なうことなく保持します。

単変量測定による選択

変数をそのターゲットとの関連レベルで選択する場合、クラスSelectPercentileは、最良の関連機能の一定割合を保持するための自動手順を提供します。関連付けに使用できるメトリックは

<! - 2 - >
  • f_regression:数値ターゲットにのみ使用され、線形回帰のパフォーマンスに基づいています。

  • f_classif:カテゴリターゲットにのみ使用され、分散分析(ANOVA)統計テストに基づいています。

  • chi2:予測変数とその目標との間の非線形関係にあまり敏感でないカテゴリ目標のカイ二乗統計を実行します。

    <! - 3 - >

分類問題の候補を評価するとき、f_classifとchi2は同じトップ変数のセットを提供する傾向があります。両方のアソシエーションメトリックから選択項目をテストすることは、まだ良い習慣です。 SelectPercentileはトップパーセンタイルアソシエーションを直接選択するだけでなく、学習プロセスに参加するフィーチャを除外するパーセンタイルを簡単に決定できるように、最適な変数をランク付けすることもできます。 SelectKBestクラスはその機能に似ていますが、kは数字でありパーセンタイルではなく、上位k個の変数を選択します。

はスケートンから。 feature_selection skewarnからSelectPercentileをインポートします。 feature_selectionインポートf_regression Selector_f = SelectPercentile(f_regression、percentile = 25)Selector_f。 zipのn、sのfit(X、y)(boston。feature_names、Selector_f。scores_):print 'F-score:%3。フィーチャCRIM F-スコア:フィーチャZN F-スコアの場合:75フィーチャー:INDUS F-スコアの場合:153.95フィーチャー%s(%特徴CHAS Fスコア:特徴NOX Fスコアのための112. 59:特徴RM RMスコアのための85:83。機能AGEのF-スコア:33.機能のための58 F-スコア:機能RAD F-スコアのための85.91:機能TAX F-スコアのための76.機能PTRATIO F-スコアのための175.11:63。フィーチャBのF-スコア:601フィーチャLSTATの場合は62フィーチャの出力レベルを使用すると、機械学習モデルで最も重要な変数を選択するのに役立ちますが、発生する可能性のある問題については注意が必要です。 >関連性の高い変数の中には、学習プロセスでノイズとして機能する重複した情報を導入することで、相関性が高いものもあります。

いくつかの変数は、特にバイナリ変数(変数が存在するときは値1を、変数が存在しないときは0を使用して状態または特性を示します)がペナルティされる可能性があります。たとえば、出力には、バイナリ変数CHASがターゲット変数との関連性が最も低いものとして表示されていることがわかります(前の例から、クロスバリデーションフェーズの影響を受けることがわかります)。

単変量選択プロセスは、膨大な数の変数を選択し、他のすべてのメソッドが計算上実行不可能になったときに、大きな利点をもたらします。最良の手順は、SelectPercentileの値を使用可能な変数の半分またはそれ以上に減らし、変数の数を管理可能な数に減らし、結果として貪欲な検索などのより洗練されたより正確な方法の使用を可能にすることです。

  • 欲張り検索を使用する

  • 単変量選択を使用する場合は、保持する変数の数を自分で決定する必要があります。欲張り選択は、学習モデルに関与する機能の数を、エラー測定によって測定された性能。

データに適合するRFECVクラスは、有用な機能の数に関する情報を提供し、それらを指摘し、メソッド変換によってXデータを縮小変数セットに自動的に変換することができます。次の例はsklearnの

です。 feature_selection import RFECVセレクタ= RFECV(エスティメータ=回帰、cv = 10、スコアリング= "平均誤差比較")セレクタ。最適なフィーチャ数:6

RFECVから属性support_を呼び出すことによって、最適な変数セットへのインデックスを取得することができます(「最適フィーチャ数:%d」%セレクタ。n_features_)あなたがそれに合った後のクラス。

プリントボストン。 feature_names [セレクタ。現在、一変量検索の結果とは対照的にCHASが最も予測的な特徴の1つに含まれていることに注意してください。RFECVメソッドは、変数予測でフィーチャが果たす役割を直接評価するため、バイナリ、カテゴリ、数値のいずれであっても重要です。

RFECVメソッドは、一変量のアプローチと比較して確かに効率的です。高度に相関するフィーチャを考慮し、評価尺度(通常はカイ2乗またはFスコアではない)を最適化するように調整されています貪欲なプロセスであるため、計算が要求され、ベストプラクティスのみを近似することができます。

RFECVはデータから最適な変数のセットを学習するので、選択は過大になる可能性があります。これは、他のすべての機械学習アルゴリズムで起こることです。トレーニングデータの異なるサンプルでRFECVを試してみると、使用する最良の変数を確認できます。

Pythonを使用してデータサイエンスの正しい変数を選択する方法 - ダミー

エディタの選択

SketchUpのステータスバー - ダミー

SketchUpのステータスバー - ダミー

SketchUpのステータスバーには、モデリング中に使用するコンテキスト情報が含まれています。モデリングウィンドウの下の狭い情報には、情報の良さが満載されています。コンテキスト固有の指示:ほとんどの場合、ここでは何をしているのかを確認するためにここでチェックします。モディファイアキー(組み合わせて使用​​するキーボードストローク)

スケッチツールにインテリジェントに反応するよう設計されたダミー

スケッチツールにインテリジェントに反応するよう設計されたダミー

ダイナミックコンポーネント(DC) SketchUpが提供する真の魔法に最も近いもの。あなたがそれらを拡大縮小するときに、伸ばしたり歪んだりするのではなく、寸法を変更するはずの部品は、他の部分はしません。

SketchUpの投影テクスチャ曲線にテクスチャを追加する方法 - 複雑な曲線に画像を描くためのダミー

SketchUpの投影テクスチャ曲線にテクスチャを追加する方法 - 複雑な曲線に画像を描くためのダミー

SketchUpのサーフェスには、このメソッドの代わりはありません。地形の塊は、複雑な曲面の良い例です - 凹凸、ねじれ、波紋、多方向。扱っているカーブが単純な押し出しよりも複雑な場合は、この画像マッピングテクニックを使用する必要があります。キー...

エディタの選択

QuickBooks 2013のアイテムリストにSales Tax ItemまたはGroupを追加する方法 - ダミー

QuickBooks 2013のアイテムリストにSales Tax ItemまたはGroupを追加する方法 - ダミー

販売税の対象となる商品を販売する場合、QuickBooks 2013請求書には、これらの売上税を請求して追跡する広告申込情報も含まれます。これを行うには、売上税明細を登録します。販売税項目を登録するには、新規項目ウィンドウを表示し、タイプ...から販売税項目を選択します。

QuickBooks 2012のアイテムリストにサービスアイテムを追加する方法 - ダミー

QuickBooks 2012のアイテムリストにサービスアイテムを追加する方法 - ダミー

QuickBooks 2012でサービスアイテムを使用して、サービスを表すアイテムを購入または請求します。たとえば、CPAは、個人や企業に対して納税申告書を作成します。納税申告書を準備するためにクライアントに請求する場合、納税申告書の請求書に表示される明細はサービス項目です。 ...

QuickBooks 2013のアイテムリストにサービスアイテムを追加する方法 - ダミー

QuickBooks 2013のアイテムリストにサービスアイテムを追加する方法 - ダミー

QuickBooks 2013のサービスアイテムを使用して、サービスを表すアイテムを購入または請求します。たとえば、CPAは、個人や企業に対して納税申告書を作成します。納税申告書を準備するためにクライアントに請求する場合、納税申告書の請求書に表示される明細はサービス項目です。 ...

エディタの選択

WordPressブログのユーザーと著者を管理する方法 - ダミー

WordPressブログのユーザーと著者を管理する方法 - ダミー

WordPressユーザーページには、あなたのブログのすべてのユーザーが表示されます。各ユーザーのユーザー名、名前、電子メールアドレス、ブログの役割、およびブログに投稿された投稿の数が表示されます。フォロワー:このデフォルトロールは、...

WordPress Permalinkをサーバーと連携させる方法 - ダミー

WordPress Permalinkをサーバーと連携させる方法 - ダミー

デフォルト以外のオプションを使用してWordPressサイトのパーマリンクの場合、WordPressは特定のルールまたはディレクティブを.txtファイルに書き込みます。あなたのWebサーバー上のhtaccessファイル。 permalinkによると、htaccessファイルはあなたのWebサーバーと交信して、パーマリンクをどのように提供すべきかを示します。

WordPressブログを修正する方法 - ダミー

WordPressブログを修正する方法 - ダミー

WordPressブログをインストールした後、それがリンクされているウェブサイトに合ったブログ。既存のテーマ(スキン)を変更したり、WordPressをインストールした後に使用できる代替語句を選択することができます。選択したテンプレートがメインWebサイトに似ていることを確認してください。ただし、WordPressは...