目次:
ビデオ: Pattern Recognition①(Simon Clippingdale,2017/12/7) 2024
ベクトルとしてそれぞれを考えると、計算を使ってデータの例を簡単に比較できます。以下の情報は、学習目的でベクトル間の距離を計算するなどのタスクを実行するためのベクトル間の類似性を測定する方法を説明しています。
類似性を理解する
ベクトル形式では、例の各変数を一連の座標として見ることができ、それぞれが異なる空間次元の位置を指しています。ベクトルに2つの要素がある場合、つまり2つの変数しかない場合は、East-West軸の位置の最初の番号を使用し、North-West軸の位置の最初の番号を使用して、サウス軸。
<! - 1 - > グラフのポイントとしてプロットされた値の例。例えば、カッコ(1,2)(3,2)と(3,3)の間の数字はすべてポイントの例です。各例は、x(水平軸)とy(垂直軸)のリストの最初の値を使用してマップ上に簡単に配置して印刷できる値の順序付きリスト(タプルと呼ばれます)です。結果は散布図です。
<!データ・セットがマトリックス形式で多数の数値フィーチャー(列)を持つ場合、理想的にはフィーチャーの数はデータ・スペースの次元を表し、行(例)は各フィーチャーポイントは、数学的にベクトルです。ベクトルに2つ以上の要素がある場合、視覚化は面倒になります。なぜなら、3次元以上の次元を表すことは容易ではないからです(結局、我々は3次元の世界に住んでいます)。<! - 3 - >
しかし、サイズ、形状、または色を他の次元に使うなど、いくつかの方法でより多くの次元を伝えるように努力することができます。明らかに、これは簡単な作業ではなく、結果は直感的ではありません。しかし、次元を2つずつ考慮しながら、多くのグラフを体系的に印刷することによって、データ空間内の点の位置を把握することができます。このようなプロットは散布図の行列と呼ばれます。多次元性を心配しないでください。 2次元または3次元で学習したルールを複数の次元に拡張するので、ルールが2次元空間で動作する場合は、複数の次元でも動作します。したがって、すべての例は最初に二次元の例を参照しています。学習のための計算距離
アルゴリズムは、距離測定を使用する数のベクトルを使用することによって学習することができる。あなたのベクトルが意味する空間は、距離が特定の条件を尊重する空間です。
負の距離は存在せず、開始点と終了点が一致する場合にのみ距離がゼロになります(
非負
- )。 距離は点と点の間で同じで、その逆もあります( symmetry
- と呼ばれます)。初期点と最終点との間の距離は、最初の点から3番目の点までの距離より常に大きく、またはそれよりも悪くなり、そこから最後の点までの距離( 三角不等式< - ショートカットがないことを意味します)。 距離を測定する距離は、ユークリッド距離、マンハッタン距離、およびチェビシェフ距離である。これらは数値ベクトルに適用できるすべての距離です。ユークリッド距離
- 最も一般的なのはユークリッド距離であり、2つのベクトルのl2ノルムとしても記述されている(l1、l2、およびlinfinityのノルムのこの議論を読む)。二次元平面では、ユークリッド距離は2点を結ぶ直線として再構成され、2つのベクトルの要素の差の平方根の平方根として計算されます。前のプロットでは、点(1,2)と(3,3)間のユークリッド距離はRでsqrt((1-3)^ 2 +(2-3)^ 2)として計算することができます。マンハッタン距離 マンハッタン距離(2つのベクトルの11ノルムとも呼ばれる)も有用な尺度である。マンハッタンの距離は、ベクトルの要素の差の絶対値を合計して計算します。ユークリッド距離が最短ルートを示している場合、マンハッタン距離は都市内を移動するタクシーの方向に似た最長ルートになります。 (距離はタクシーまたは都市ブロック距離とも呼ばれます)。たとえば、ポイント(1,2)と(3,3)の間のマンハッタンの距離は、abs(1-3)とabs Chebyshev distance チェビシェフ距離または最大メトリックは、ベクトルの要素間の絶対差の最大値をとります。これは、王がチェスの試合でどのように動くか、または倉庫物流において、クレーンをある場所から別の場所に移動するためにオーバーヘッドクレーンが必要とする操作を表す距離測定値です。
機械学習では、チェビシェフ距離は、多くの次元を考慮する必要がある場合に役立ちます。チェビシェフ距離は絶対に違いが最も大きいものを選んで、チェビシェフでは無関係または重複しています。上記の例では、距離は単純に2であり、最大値は(1-3)とabs(2-3)の間です。