ビデオ: Hadoop Tutorial For Beginners | Hadoop Ecosystem Explained in 20 min! - Frank Kane 2024
社会感情分析は、世界が常につながり、現在の表現力豊かな人口であることを考えると、Hadoopの使用は驚くべきことではありません。このユースケースは、フォーラム、ブログ、その他のソーシャルメディアリソースのコンテンツを活用して、人々が何をしているのか(例えば、人生の出来事)とその周囲の世界にどのように反応しているかを感覚的に表現します。
<! - 1 - >テキストベースのデータは自然にリレーショナルデータベースに収まらないため、Hadoopはこのデータを分析して実行する実用的な場所です。
言語は、人間にとっても、特に自分のものとは異なる社会集団の人が書いたテキストを読んでいるときには、解釈するのが難しいです。このグループの人々はあなたの言葉を話しているかもしれませんが、その表現とスタイルは完全に異質なので、彼らが良い経験か悪いことを話しているか分かりません。
<!例えば、映画に関して爆弾 という言葉が聞こえる場合は、映画が悪いことを意味する可能性があります(または、あなたが若者の一部である場合は良い賛辞として「それは大爆弾だ」と解釈する動き)。もちろん、航空安全ビジネスに携わっているなら、 Bomb という言葉はまったく別の意味を持っています。要点は、言語はさまざまな方法で使用され、常に進化しているということです。 ソーシャルメディアの感情を分析するときは、複数のアプローチから選択できます。基本的な方法は、プログラムによってテキストを解析し、文字列を抽出し、規則を適用します。単純な状況では、このアプローチは妥当です。しかし、要件が進化し、ルールが複雑になるにつれ、コードのメンテナンスの観点から、特にパフォーマンスの最適化のために、手動でコード抽出をすぐに実行することはもはや不可能になります。
<! - 3 - >
テキスト処理に対する文法やルールベースの手法は計算コストが高く、Hadoopでの大規模抽出では重要な考慮事項です。ルール(感情抽出のような複雑な目的には避けられない)が多いほど、必要な処理が増えます。あるいは、統計に基づくアプローチが、感情分析にますます一般的になってきています。複雑なルールを手動で記述するのではなく、Apache Mahoutで分類指向の機械学習モデルを使用することができます。ここでキャッチするのは、あなたのモデルを肯定的および否定的な感情の例で訓練する必要があるということです。あなたが提供するトレーニングデータが多いほど(例えば、つぶやきのテキストと分類)、結果がより正確になります。
社会感情分析のユースケースは、幅広い業種に適用できます。例えば、食品安全性を考えてみましょう。食物媒介性疾患の発生を可能な限り迅速に予測または特定しようとすることは、保健当局にとって非常に重要です。
次の図は、潜在的な病気に基づいて抽出器を使用してツイートを取り込むHadoopアンカーアプリケーションです:FLUまたはFOOD POISONING。
つぶやきの地理的位置を示すヒートマップが生成されていますか?大きなデータの世界におけるデータの1つの特徴は、その大部分が空間的に豊かであることである:
それは局所性情報(および時間的属性も)を有する。この場合、Twitterプロファイルは公開された場所を参照することによってリバースエンジニアリングされました。 明らかになったように、多くのTwitterアカウントは、公開プロフィールの一部として地理的な場所を持っています(雇用主のための発言ではなく、自分の考えが自分のものであることを明確に示す免責事項)。 インフルエンザや食中毒事件の発生を予測するためのソーシャルメディアの予測エンジンはどれくらい効果的でしょうか?表示された匿名のサンプルデータを考えてみましょう。ソーシャルメディアのシグナルが、夏の終わりおよび早秋に特定の米国郡でインフルエンザの発生を予測するための他のすべての指標を凌駕していることがわかります。
この例は、ソーシャルメディアの分析から得られる別の利点を示しています。これは、あなたに、ポスターのプロフィールの属性情報を見る前例のない機会を提供します。確かに、自分のTwitterプロファイルで人々が言うことは、不完全である(たとえば、場所コードが入力されていない)か、意味がない(場所コードが
cloud nine
と言うことがあります) しかし、あなたが言うことに基づいて、時間の経過とともに人々についてたくさん学ぶことができます。例えば、クライアントは、赤ちゃんの誕生の発表、彼女の最新の絵のInstagramの写真、または彼女がウォルターホワイトの行動を信じることができないことを述べたFacebookの投稿を(999)tweeted 昨晩の
Breaking Bad フィナーレで。 このユビキタスな例では、家族グラフ(新しい子供は個人ベースのマスターデータ管理のプロファイルの貴重なアップデートです)、趣味(絵)、興味の属性を入力するライフイベントを抽出できます(あなたはショー ブレイキングバッド が大好きです)。
このようにソーシャルデータを分析することで、趣味、誕生日、生活イベント、地理的位置(国、州、都市など)、雇用主、性別、婚姻などの情報を使用して個人属性を肉付けする機会がありますステータスなどが含まれます。 あなたが航空会社のCIOであるとしばらくお待ちください。幸せで怒っている頻繁な旅行者の投稿を使用して、感情を確認するだけでなく、ソーシャルメディア情報を使用してお客様のロイヤリティプログラムの顧客プロファイルを作成することもできます。 The Breaking Bad
のシーズン5が今の航空機のメディアシステムで利用可能であることをクライアントに伝える電子メールなど、共有された情報で潜在的な顧客をどのようにターゲットできるかを想像してみてくださいまたは2歳未満の子供が無料で飛行することを発表する。
これはまた、記録システム(例えば、販売データベースやサブスクリプションデータベース)がエンゲージメントシステム(例えば、サポートチャネル)をどのように満たすことができるかの良い例です。ロイヤルティ会員の償還と旅行履歴はリレーショナルデータベースにありますが、エンゲージメントシステムはレコード(たとえば列)を更新することができます。