目次:
- 予測にキーワードベース検索を使用する方法分析
- このプロジェクトは、市場における既存の大規模な企業の検索と分析を調査し、世界銀行のデータを整理する最先端のフレームワークのプロトタイプを構築することを目的としていた。その大部分は、文書、出版物、 、ブリーフ、および事例研究。
ビデオ: 【日本語字幕】【Detroit:Become Human】コナー役のブライアン・デカートによる実況プレイ配信 part1 2024
あなたの予測分析データは、あなたが探したい情報を見つける方法を知る必要があります。
-
基本的なキーワード検索を超えて準備する
-
データを意味的に検索可能にする
予測にキーワードベース検索を使用する方法分析
<! - 1 - >大量のデータを検索する必要があるとします。問題にアプローチする1つの方法は、(明らかに)単語からなる検索クエリを発行することです。検索ツールは、データベース、データウェアハウス内の一致する単語を検索したり、データが存在するテキストを検索したりします。
次の検索クエリを発行しているとします。 米国大統領がアフリカを訪問 検索結果は、 大統領、米国、訪問、アフリカ という単語のうちの1つまたは組み合わせを含むテキストで構成されます。あなたは、あなたが探している正確な情報を得るかもしれませんが、必ずしもそうではありません。
上記の言葉のどれもが含まれていない文書はどうでしょうか?次のもののいくつかの組み合わせ: オバマのケニアへの旅
最初に検索した単語はそこにありませんが、検索結果は意味的に (有意義)です。意味的に取り出せるようにデータを準備するにはどうすればよいですか?どのように従来のキーワード検索を超えて行くことができますか?あなたが読んで続けるなら、あなたの答えが見つかります。 <!予測分析に意味ベース検索を使用する方法
セマンティック検索の作品をどのように描写するかは、Anasse Bariが世界銀行グループ世界の貧困と戦うことです。このプロジェクトは、市場における既存の大規模な企業の検索と分析を調査し、世界銀行のデータを整理する最先端のフレームワークのプロトタイプを構築することを目的としていた。その大部分は、文書、出版物、 、ブリーフ、および事例研究。
この大量の貴重な知識は、世銀の世界貧困削減の主な使命に使用されるリソースです。しかし、構造化されていないということは、アクセス、キャプチャ、共有、理解、検索、データマイニング、および視覚化を行うことは難しいことです。
世界銀行は世界中に多くの部門を持つ巨大な組織です。主要部門の1つは、枠組みを持つことに努力しており、バリ銀行のチームが世界銀行の人的開発ネットワークであることを支援するためのリソースを割り当てる準備が整っていました。
ヒューマン・ディベロップメント・ネットワークの副社長は、あいまいさから生じる1つの問題を概説しました。彼の部門は、全体的に同じ意味を持ちニュアンスが異なるいくつかの用語と概念を使用しました。例えば、
気候学、気候変動、ガスオゾン層破壊、
温室効果ガス
などの用語はすべて意味的には関連していたが、意味は同一ではなかった。彼は、誰かがこれらの用語を検索したときに、関連する概念を含む文書を抽出するのに十分スマートな検索機能を望んでいました。 Bariチームが選択したそのプロトタイプのフレームワークは、ソフトウェアベースのソリューションであるUIMA(Unstructured Information Management Architecture)でした。もともとIBMリサーチが設計したUIMAは、Jeopardyのゲームを受賞した有名なIBM Watsonを動かすツールの1つであるIBM Content AnalyticsなどのIBMソフトウェアで利用できます。 Bariチームは、IBM Content Managementとエンタープライズ・サーチの非常に才能のあるチームと協力し、後でIBM Watsonチームと協力して、このプロジェクトで協力しました。 非構造化情報管理(UIM)
ソリューションは、大量の非構造化情報(テキスト、オーディオ、ビデオ、イメージなど)を分析し、関連する知識を発見、整理、提供するソフトウェアシステムです。クライアントまたはアプリケーションのエンドユーザ。
ドメインの
オントロジー は、ドメイン特有の概念と関連用語の配列です。 UIMAベースのソリューションは、データ形式(テキスト、スピーチ、PowerPointプレゼンテーション、電子メール、ビデオなど)に依存しない豊富な検索を可能にするセマンティックタグ付けを提供するためにオントロジーを使用します。 UIMAはキャプチャされたデータに別のレイヤを追加し、次に構造化およびセマンティック検索が可能なデータを識別するために メタデータ
を追加します。 セマンティック検索 は、UIMAが構築した検索可能なデータスペースに表示される検索用語のコンテキスト上の意味に基づいています。セマンティック検索は、通常のキーワードベースの検索よりも正確です。これは、ユーザーのクエリが、検索語を含むドキュメントだけでなく、クエリに意味的に関連するドキュメントの検索結果を返すためです。 アフリカで生物多様性 を検索している場合、典型的な(キーワードベースの)検索では、
生物多様性 と
アフリカ 。 UIMAベースのセマンティック検索では、これらの2つの単語だけでなく、「アフリカの植物資源」、「動物の資源」モロッコ "、または"ジンバブエの遺伝資源。意味論的タグ付けおよびオントロジーの使用により、情報が作成された言語または媒体(ワード、パワーポイント、電子メール、ビデオなど)に関係なく、情報は意味的に検索可能になる。このソリューションは、データをキャプチャ、編成、交換、および意味的に取得可能なレンダリングが可能な単一のハブを提供します。 同義語および関連用語の辞書は、オープンソース(自由に利用可能)です。また、ドメインやデータに固有の辞書を作成することもできます。ルート単語とそれに対応する関連単語、同義語、およびより広い用語でスプレッドシートを作成できます。スプレッドシートは、IBM Content Analytics(ICA)などの検索ツールにアップロードして、エンタープライズ・サーチおよびコンテンツ分析を強化することができます。