ビデオ: 人工知能技術を使った高速マッチングソリューション [NEC公式] 2024
単一のソースからのデータに対話することは1つの問題ですが、複数のデータソースを処理する場合は、いくつかのソースからのデータとやりとりすることは全く別のことです。しかし、今日のデータセットは一般に複数のソースから提供されているため、複数のデータソースを使用すると複雑になることを理解する必要があります。複数のデータソースを操作する場合は、次の操作を行う必要があります。
- 両方のデータセットに必要なすべてのデータが含まれているかどうかを判断します。 2人の設計者は、正確に同じデータを、同じ形式で、同じ種類で、同じ順序で含むデータセットを作成することはまずありません。したがって、データセットが必要なデータを提供するかどうか、または必要な結果を得るために何らかの方法でデータを修復する必要があるかどうかを検討する必要があります。
- 両方のデータセットでデータ型の問題を確認します。 1つのデータセットは日付を文字列として入力し、別のデータセットは実際の日付オブジェクトとして入力することができます。データ型間の不一致は、ある形式のデータを期待し、別の形式でデータを受け取るアルゴリズムに問題を引き起こします。
- すべてのデータセットがデータ要素に同じ意味を持つことを確認します。あるソースによって作成されたデータは、別のソースによって作成されたデータとは異なる意味を持つ場合があります。たとえば、整数のサイズはソースによって変わる可能性があるため、あるソースから16ビットの整数、別のソースから32ビットの整数が表示されることがあります。下位の値は同じ意味を持ちますが、32ビットの整数に大きな値を含めることができ、アルゴリズムに問題が発生する可能性があります。日付は、指定された日付以降、非常に多くのミリ秒を格納することに依存することが多いため、問題を引き起こす可能性があります(UTC 1970年1月1日からのミリ秒数を格納するJavaScriptなど)。コンピュータには数字だけが表示されます。人間はこれらの数字に意味を加えて、アプリケーションが特定の方法でそれらを解釈するようにします。
- データ属性を確認します。データ項目には特定の属性があります。
numpy
を使用すると、この解釈が変わる可能性があります。実際には、データ属性は環境間で変化し、開発者はカスタムデータ型を作成することでそれらをさらに変更することができます。さまざまなソースからのデータを結合するには、データを正しく解釈するために、これらの属性を理解する必要があります。
データセットに使用する各ソースからのデータの互換性を検証するのに費やす時間が長くなればなるほど、アルゴリズムの使用時に問題が発生する可能性は低くなります。データの非互換性の問題が、完全なエラーとして常に現れるとは限りません。場合によっては、互換性がないと正しく表示される誤った結果などの他の問題が発生する可能性がありますが、誤った情報を提供します。
複数のソースからのデータを結合しても、ソースデータセットとまったく同じように見える新しいデータセットが作成されるとは限りません。場合によっては、既存のデータから新しいデータを作成するために、データ集約を作成したり、他の操作方法を実行したりすることがあります。分析にはあらゆる種類のフォームが使用され、よりエキゾチックなフォームの一部は、誤って使用されるとひどいエラーが発生する可能性があります。例えば、1つのデータソースが一般的な顧客情報を提供し、第2のデータソースが顧客購入の習慣を提供することができる。 2つの情報源間のミスマッチは、誤った購買習慣情報を持つ顧客と一致し、これらの顧客に新しい製品を販売しようとすると問題を引き起こす可能性があります。極端な例として、いくつかの情報源からの患者情報を結合し、あらゆる種類のミスマッチで新しいデータソースに患者情報の組み合わせを作成するときに何が起こるかを検討してください。特定の病気の病歴のない患者は、その病気の診断と治療を示す記録に終わる可能性がある。