ビデオ: Outros problemas 2024
データ量が多いため、トランザクションの量が膨大なため、詐欺行為を見つけるのが難しくなりますが、この同じ問題は、Hadoopが輝く領域である不正な予測モデルを作成するのに役立ちます。
今日の相互接続された世界では、トランザクションの量と複雑さが膨大なので、これまで以上に詐欺を見つけることが難しくなります。 「干し草の中で針を見つける」と呼ばれていたものは、「針の束の中で特定の針を見つけること」の仕事になっています。 "
<! - 1 - >不正防止に関する従来のアプローチは特に効率的ではありません。たとえば、不適切な支払いの管理は、アナリストが、対象となる提出者からの医療文書を要求することと対比して、ごくわずかなクレームのサンプルに相当するものを監査することがあります。このモデルの業界用語は、支払と追跡である:請求は受け入れられ、支払われ、プロセスはそれらの請求の後払いによるレビューによって意図的または意図的でない過払いを探す。
詐欺検出はどのように行われましたか?伝統的な技術の限界のため、データをサンプリングし、そのサンプルを使用して一連の不正予測および検出モデルを構築することによって、不正モデルが構築されます。このモデルを、モデルを構築するための完全なデータセット(サンプリングなし)を使用するHadoopアンカー不正部門と比較すると、違いがわかります。
Hadoopのほとんどのケースで最も頻繁に繰り返されるテーマは、意思決定分析に組み込むことができる膨大な量のデータとさまざまなデータをガラスの天井に突き破るビジネスを支援することです。あなたが持っているデータが多くなればなるほど、あなたが保存する履歴が多いほど、あなたのモデルはより良くなります。
<! - 3 - >伝統的なトランザクションと非伝統的な形式のデータを混在させることで、不正なモデルをより堅牢にすることができます。例えば、労働者が転倒事故による悪い背中に対する労働者の補償請求をした場合、治療結果と治療期間の詳細な数百万の患者転帰事例がプールされていると、詐欺の検出パターンが生まれます。
このモデルがどのように機能するかの例として、農村部の患者が都市部の患者よりもゆっくりと回復しているかどうかを調べることを想像してみてください。あなたは、理学療法サービスの近接性を調べることから始めることができます。復旧時間と地理的位置の間にパターンの相関関係はありますか?
特定の怪我が回復するのに3週間かかりますが、同じ診断の農家が理学療法士から1時間暮らしていて、オフィスワーカーが勤務先を勤務していると詐欺局が判断した場合、これは詐欺に加わる別の変数です検出パターン。
あなたが主張者のソーシャルネットワークデータを収集し、鞭打ちに苦しんでいると主張する患者が、タフな奴隷と呼ばれる頑丈な一連の持久力イベントを完了することを誇っていることは、新しい種類のデータと従来のデータ形式詐欺を発見する
詐欺検出の努力をより高いレベルにまで引き上げたい場合、組織はマーケットセグメントモデルから離れるように働くことができ、取引中または人物レベルのモデリングに向かうことができます。
セグメントに基づいて予測を行うのは便利ですが、個々の取引に関する特定の情報に基づいて判断するのは(明らかに)優れています。これを行うには、従来のアプローチで従来可能だったよりも大きなデータセットを作成します。詐欺のモデリングに役立つ可能性のある情報の30%のみが使用されています。
不正検出モデルを作成するために、Hadoopはボリュームを処理するのに適しています。つまり、データのサンプリングを行わずに完全なデータセットを処理することです。
-
新しい種類のデータを管理する: 例としては、詐欺モデルを飾るための近接サービス - 介護サービスとソーシャルサークルがあります。
-
アジャイルな環境を維持する: 既存のモデルとは異なる種類の分析と変更を可能にする。
-
不正行為モデル作成者は、データベース管理者チームに提案することなく、モデルに新しい変数を追加してテストすることができ、スキーマ変更を承認してその環境に配置するまで数週間待つことができます。 このプロセスは、動的環境が一般的に数時間、数日または数週間で往復する周期的詐欺パターンを持つため、不正検出には不可欠です。新しい詐欺検出モデルを特定または補強するために使用されたデータが瞬時に使用できない場合、これらの新しいパターンを発見するまでには、損傷を防止するには遅すぎる可能性があります。
より多くの種類のデータを含むより包括的なモデルを構築するだけでなく、それらのモデルを以前より速くリフレッシュし、強化することができるというビジネスへのメリットを評価します。毎日モデルをリフレッシュし、強化することができる企業は、四半期ごとにモデルを改善するでしょう。
この問題には簡単な答えがあると思うかもしれません。より良いモデルを作成し、データの残りの70%をあなたのサイトにロードするために、より多くのデータに対応するために、運用支出(OPEX)と資本支出(CAPEX)意思決定モデル。
あなたは、この投資がより良い不正行為の検出でそれ自身を支払うと信じるかもしれません。しかし、このアプローチの問題は、真に価値のある洞察が含まれているかどうかわからない、
未知の
データに陥る必要がある高い初期費用です。 たとえば、データウェアハウスのサイズを3倍にすると、構造化された履歴データにアクセスしてモデルを微調整できますが、ソーシャルメディアバーストには対応できません。伝統的な技術はそれほどアジャイルではありません。 Hadoopを使用すると、新しい変数をモデルに簡単に導入できます。モデルに改善をもたらさない場合は、単にデータを破棄して移動するだけです。