ビデオ: データ内容と書式設定11-2 / エクセル2007(Excel2007)動画解説 2024
人間は見ているデータを解釈するときに経験を使いますが、コンピュータではできません。データマイニングソフトウェアは、各列のデータの種類を識別するために最善を尽くしますが、データ型はしばしばあいまいです。
郵便番号のリストが表示されたら、それらを追加したり引いたりしないでください。それらは場所を表していることがわかります。あなたは郵便番号を見て認識する経験がたくさんあるので、これを理解しています。コンピュータは、ZIPコードを整数または連続測定値として解釈することがあります。最後に、適切なフォーマットを定義するのはあなた次第です。
<! - 1 - >データフォーマットとロールを設定するための関数(モデル化のための依存変数を示すなど)は、データマイニングアプリケーションのさまざまな場所に埋め込むことができます。データマイニングアプリケーションを開く前に、データファイル内の変数の形式と役割を定義することもできます(OrangeとWekaのネイティブデータ形式でもこれが可能です)。
<! - 2 - >次の図に示すツールのように、この目的のために作成されたツールを使用するか、他の手順でこれらのプロパティを定義することができます。
<! - 3 - >各データマイニングアプリケーションには、独自の変数タイプのセットと、各タイプの使用方法に関する独自の制限があります。これらの制限のいくつかは理論に基づいています。たとえば、文字だけでなく数値を加算したり減算したりすることができます。しかし、他のものは、アプリケーションの設計方法の問題かもしれません。
たとえば、あるアプリケーションの特定のモデリングツールでカテゴリ変数と連続変数の両方を予測できますが、別のアプリケーションで同様のツールを使用すると、どちらか一方のみのモデリングが可能になる場合があります。