ビデオ: Tesla Autopilot Bikers Will Die? Kman's Tear-down of FUD Roboticists Article 2024
評価データは機械学習に限界があります。推奨システムがうまくいくためには、あなたと同様に評価データを取得することで、リコメンダーシステムは複数の顧客の経験から学ぶことができます。評価データは、判断(星や数字を使って製品を評価するなど)やファクト
<! - 1 - >データソースやタイプに関係なく、評価データは常に行動に関するものです。実際のおすすめシステムは、さまざまな方法でレーティングデータから学習します:
- コラボレーティブフィルタリング: 一致する動画を見て、それを見て、映画を見る経験に基づいて評価する必要があります。過去に使用された映画や商品の類似点に基づいています。あなたと似ている人や、好きな人に似た人が好きです。
- コンテンツベースのフィルタリング: あなたが映画を視聴したという事実を超えています。あなたとムービーに関連するフィーチャを調べて、フィーチャが表すより大きなカテゴリに基づいて一致するものがあるかどうかを判断します。たとえば、あなたがアクション映画が好きな女性の場合、推薦者はこれらの2つのカテゴリの共通部分を含む提案を探します。
- ナレッジベースの推奨事項: ユーザーが提示したプリファレンスや製品の説明などのメタデータに基づいています。機械学習に依存し、ユーザーや製品の特性を判断するのに十分な行動データがない場合に効果的です。これは、 コールドスタート と呼ばれ、コラボレーティブフィルタリングまたはコンテンツベースのフィルタリングにアクセスできないため、最も難しい推奨タスクの1つです。
コラボレーションフィルタリングを使用する場合、類似性を計算する必要があります。ユークリッド、マンハッタン、チェビシェフの距離以外にも、この情報の残りの部分でコサインの類似性が議論されています。コサイン類似度 は、2つのベクトル間の角度コサイン距離を測定します。これは、把握するのが難しい概念のように見えるかもしれませんが、データ空間の角度を測定する方法に過ぎません。 フィーチャと2つのポイントからなる空間を想像してください。ポイント間の距離を測定できます。たとえば、ユークリッド距離を使用することができます。これは、次元数が少ない場合には最適ですが、次元数の呪縛のために複数の次元を持つ場合、悲惨な結果になります。
<!コサイン距離の背後にあるアイデアは、空間原点に接続された2つの点(すべての次元がゼロである点)によって作成された角度を使用することです。ポイントが近くにある場合、そこに何次元があるにせよ、角度は狭い。それらが遠く離れていると、角度がかなり大きくなります。コサインの類似性は、コサイン距離をパーセンテージとして実装し、ユーザが他のユーザと似ているかどうか、または同じユーザがそれを好むために別の映画に関連付けることができるかどうかを示すのに非常に効果的です。次の例では、最も類似した映画である映画を映画50、
スターウォーズに配置します。 "MovieLense [、50]、MovieLense [、-50]"類似したムービーの類似度(MovieLense [、50]、
(1995年)「トイストーリー(1995)」 「コサイン」、「999」=「アイテム」)
コルネーム(類似のムービー) "エンパイア・ストライク・バック、(1980)"
[3] "ロスト・アークのレイダーズ(1981)"
"ジェダイの帰還(1983)"