ビデオ: Getting Started with Machine Learning | Introduction to Machine Learning, Part 4 2024
予測分析を実行するには、アルゴリズムを使用してモデルを構築するための形式にデータを取得する必要があります。これを行うには、データを理解し、その構造を知るのに時間をかけなければなりません。データの構造を調べる関数を入力します。 >> str(seeds) 'データのようになります。フレーム '210 obs。 8つの変数:$ V1:num 15. 3 14. 9 14. 3 13. 8 16 1 … $ V2:num 14. 8 14. 6 14. 1 13. 9 15 … $ V3:num 0. 871 0 881 0.905 0. 895 0.903 … $ V4:5. 5. 5. 5. 5. 5. 5. 5. 5. 5. 66 5. $ 5.5 3. $ 3.31 3. 33 3. 34 3. 38 3。 56 … $ V6:num 2. 22 1. 02 2. 7 2. 26 1. 35 … $ V7:num 5. 22 4. 96 4. 83 4. 8 5. 17 … $ V8:int 1 1 1 1 1 1 1 1 1 1 …
構造を見ると、データに1つの前処理ステップと1つの便利なステップが必要であることがわかります。
<! --1 - >
列名の名前を変更します。-
これは厳密には必要ではありませんが、この例では、理解して覚えておくことができる列名を使用する方が便利です。 カテゴリ値を持つ属性を係数に変更します。
-
ラベルには3つのカテゴリーがあります。 列名を変更するには、 >> colnames(seed)< -
c( "面積"、 "周長"、 "コンパクト"、 "長さ"、 "幅" 「非対称」、「長さ2」、「種別」)
次に、カテゴリ値を持つ属性を係数に変更します。次のコードは、データ型を係数に変更します。<! ----- >> seeds $ seedType < - factor(seeds $ seedType)
このコマンドは、モデリングプロセスのデータの準備を完了します。以下は、データ準備プロセス後の構造を示す図である: >> str(雑草)データ。フレーム '210 obs。 8つの変数のうち、$ area:num 15. 3 14. 9 14. 3 13. 8 16 1 … $周辺:num 14. 8 14. 6 14. 1 13. 9 15 … $ compactness:num 0. 871 0 881 0. 905 0. 895 0. 903 … $ length:num 5. 76 5. 55 5. 29 5. 32 5. 66 … $ width:num 3. 31 3. 33 3. 34 3. 38 3。 56 … $アシンメトリ:num 2. 22 1. 02 2. 7 2. 26 1. 35 … $ length2:num 5. 22 4. 96 4. 83 4. 8 5. 17 … $ seedType:3レベルのファクター"1"、 "2"、 "3":1 1 1 1 1 1 1 1 1 1 …