ビデオ: リニア中央新幹線の建設現場を公開 首都圏で初(17/11/25) 2024
データマイニングでは、データ構成の要件が非常に厳しくなっています。彼らは、エキゾチックで複雑で難しい要件ではありませんが、厳格です。図は、データマイニングソフトウェアの表として見たデータのサンプルを示しています。
各行は不動産の1小包を表します。不動産の小包についての情報は、列にまとめられています。最初の列には納税識別番号(TAXKEY)が表示され、2番目の列には事前評価(P_A_LAND)からの土地の査定額が格納されます。
<! - 1 - >ある行のすべての入力は、特定の土地の1つの土地に関係します。いずれかの列のすべての項目は同じタイプの情報です。スタイルや読みやすさに理由があるため、空白の行や列はありません。このデータは、不動産の区画間の相違を調べるために適切に構成されています。
不動産の代わりに人を調査すると、各人物がデータの1行で表され、人物に関するすべての詳細が列にまとめられます。胸部X線を調べると、各胸部X線はデータ内の1つの行で表され、胸部X線に関するすべての詳細は列に編成されます。
<! - 2 - >データ分析の用語では、あなたが研究しているもの - 行のもの - は ケース または レコードと呼ばれます。 列にあるそれらの詳細は 変数 と呼ばれます。また、特に フィールド、 と呼ばれる列がデータベースのコンテキストで聞こえます。したがって、データマイニングでは、ケースごとに1つの行と各変数に1つの列で構成されたデータが必要です。多くのデータソースがすでにこのように編成されています。統計家はこの方法で習慣によってデータを整理する。データベースの専門家は、このアプローチを多くの作業に使用することはできませんが、通常は
フラットテーブルと呼んでいれば必要なものを理解できます。 <! - 3 - >
データ構造に微妙な違いがあります。いくつかのタイプのソフトウェアは、データの前のヘッダーに記述情報を使用します(OrangeおよびWekaデータマイニングアプリケーションに関連する特定の特殊フォーマットなど)。いくつかの複雑な分析手順には、追加またはわずかに異なる要件があります(これはまれです)。しかし、データの中核は行内のケースと列内の変数を持っています。