ビデオ: 重回帰分析をSEOの例題で理解する。【回帰分析シリーズ3】 2024
アルゴリズムが予測分析モデルを構築するために使用できる形式にデータを取得する必要があります。これを行うには、データを理解し、データの構造を知るためにしばらく時間を費やさなければなりません。データの構造を調べる関数を入力します。コマンドとその出力は次のようになります: >> str(autos) 'data。フレーム ':398 obs。 9変数のうち、$ V1:num 18 15 18 16 17 15 14 14 14 15 … $ V2:int 8 8 8 8 8 8 8 8 8 8 … $ V3:num 307 350 318 304 302 429 454 440 455 390 … $ V4:chr "130. 0" "165. 0" "150. 0" "150. 0" … $ V5:num 3504 3693 3436 3433 3449 … $ V6:num 12 11. 5 11 12 10. 10 10 9 8 。5 10 8. 5 … $ V7:int 70 70 70 70 70 70 70 70 70 70 … $ V8:int 1 1 1 1 1 1 1 1 1 1 … $ V9:305レベルの要素 "amc ambassador brougham" 、…:
50 37 232 15 162 142 55 224 242 2 …構造を見ると、データの準備やクリーンアップがあることがわかります。必要なタスクの一覧は次のとおりです。
<! --1 - >
列名の名前を変更します。-
これは厳密には必要ではありませんが、この例では、理解して覚えておくことができる列名を使用する方が良いです。
V4(
-
馬力 )のデータ型を 数値 データ型に変更します。 この例では、馬力は連続的な数値であり、文字データ型ではありません。
欠損値を処理します。
-
<! - 2 - >
ここで馬力には6つの値がありません。離散値を持つ属性を因子に変更します。
-
シリンダ、モデル年、原点は離散値を持ちます。
V9(
-
車名 )属性を破棄します。 ここで車名は、作成しているモデルに価値を追加しません。 origin属性が指定されていない場合は、car name属性から起点を導出できます。
<!
colnames(autos)< -
c( "mpg"、 "cylinders"、 "displacement"、 "horsepower"、
autos $ horsepower < -次のコードを使用して、馬力のデータ型を数値に変更します。として。数値(自動車$馬力)
馬力の値のすべてが数字の文字列表現ではないため、プログラムは文句を言うでしょう。 「?」と表現された欠損値がいくつかありました。 " キャラクター。 Rはそれぞれのインスタンスを変換するので、これは今のところうまくいきますか? NAに入れる。
連続変数の欠損値を処理する一般的な方法は、各欠損値を列全体の平均で置き換えることです。次のコード行はそれを行います: >> autos $ horsepower [is。na(autos $ horsepower)] < - 平均(autos $ horsepower、na。rm = TRUE)
これは重要なことです。平均関数のrm-TRUE。この関数は、NULL値を持つ列を計算に使用しないように指示します。それがなければ、関数は戻ります。
次に、離散値を持つ属性を因子に変更します。 3つの属性が離散的であると識別されています。次の3行のコードは属性を変更します。 >> autos $ carName < - nULL
最後に、次のコード行を使用してデータフレームから属性を削除します。 >> autos $ origin autos $ modelYear autos $ cylinders < この時点で、モデリングプロセスのデータの準備は完了です。以下は、データ準備プロセス後の構造のビューです: >> str(autos) 'データ。フレーム ':398 obs。 8つの変数のうち、$ mpg:num 18 15 18 16 17 15 14 14 14 15 … $ cylinders:Factor w / 5レベル "3"、 "4"、 "5"、 "6"、…:
5 5 5 5 5 5 5 5 5 5 … $ displacement:num 307 350 318 304 302 429 454 440 455 390 … $馬力:num 130 165 150 150 140 198 220 215 225 190 … $ weight:num 3504 3693 3436 3433 3449 … $加速度:num 12 11 5 5 12 10 10. 5 10 9 8. 5 10 8. 5 … $ modelYear:13レベルの "70"、 "71"、 "72"、…:
1 1 1 1 1 1 1 1 1 1 1 … $原点:3レベルの「1」、「2」、「3」:1 1 1 1 1 1 1 1 1 …