ビデオ: Advanced Data Binding - Google I/O 2016 2024
予測分析タスクを行うためにテクノロジーや計測器に頼っている場合、これらの計測器では極端な値や異常な値が登録される可能性があります。センサが基本的な品質管理基準を満たしていない観測値を登録すると、データに反映される実際の混乱を引き起こす可能性があります。
例えばデータ入力を行う人は、誤って値の末尾に余分な0を追加したり、範囲外の値を取り出したり、異常値を生成したりすることができます。
<! - 1 - >ボルチモア港に設置された水センサーで収集された観測データを見て、平均海面から20フィートの水深を報告している場合、外れ値を持っています。ボルチモアが水で完全に覆われていない限り、センサーは明らかに間違っています。
データは、外部事象または人または機器によるエラーのために異常値を有することになる可能性がある。
フラッシュクラッシュのような実際の出来事がシステム内のエラーを追跡する場合、その結果はまだ現実ですが、問題の原因を知っていれば、モデルではなくデータの欠陥あなたのモデルがイベントを予測しなかった場合は、責任を負うことになりました。
<! - 2 - >外れ値の出所を知ることで、それに対処する方法の決定が導かれます。データ入力エラーの結果であった異常値は、データソースを調べた後で簡単に修正できます。変化の現実を反映する外れ値は、モデルの変更を促す可能性があります。
エラーや不具合ではない極端なデータを含めるか無視するかを決めるときは、一応の答えはありません。あなたの反応は、あなたがやっている分析の性質と、あなたが構築しようとしているモデルのタイプに依存します。いくつかのケースでは、これらの異常値を処理する方法は簡単です。
<! - 3 - >-
データソースを参照するときに異常値をデータ入力エラーにトレースすると、データを簡単に修正でき、(おそらく)モデルをそのまま維持できます。
-
ボルチモア・ハーバーのその水センサーが平均海抜20フィートの深さまで水を報告し、あなたがボルチモアにいる場合、あなたの窓を見てください。
-
ボルチモアが完全に水で覆われていない場合、センサー明らかに間違っています。
-
あなたに魚を見ていると、現実は変わった。モデルを改訂する必要があるかもしれません。
-
-
フラッシュクラッシュは一時的な出来事であったかもしれませんが(短期間では、とにかく)、その効果は実にありました。長期的に市場を勉強していれば、 。あなたのビジネスが資金を調達しており、株式市場を常に処理している場合は、あなたのモデルはそのような収差を考慮してください。
通常、外れ値とみなされるイベントの結果がビジネスに重大な影響を及ぼす可能性がある場合、分析の中でそれらのイベントを処理する方法を検討します。アウトライアーについてのこれらの一般的な点に留意してください。
-
データセットが小さいほど、アウトライヤーの影響が分析に与える可能性がより大きくなります。
-
あなたのモデルを開発する際には、アウトライヤーを見つけ、ビジネスへの影響を体系的に理解するテクニックも開発していることを確認してください。異常値を検出することは複雑なプロセスであり得る。それらを特定する簡単な方法はありません。
-
A999ドメイン専門家(あなたがモデリングしている分野を知っている人)は、データポイントが有効かどうか、あなたが無視できる外れ値、またはあなたが持っている外れ値考慮に入れるドメイン専門家は、外れ値を作成した要因、その変動範囲、およびビジネスへの影響を説明できる必要があります。
-
ビジュアライゼーションツールを使用すると、データの異常値を特定するのに役立ちます。また、予想される値の範囲を知っていれば、その範囲外のデータを簡単に照会することができます。