ビデオ: What the heck is the event loop anyway? | Philip Roberts | JSConf EU 2024
データはさまざまなシステムでさまざまな方法で保存されます。したがって、さまざまなソースからデータを収集して統合する際に、重複したポップアップが可能であることは驚くことではありません。特に、個々のレコードをユニークにするのは、システムによって異なります。
口座番号に投資口の概要が添付されています。ポートフォリオの概要は、個人レベルまたは家計レベルで保存されます。そして、すべての口座の取引履歴は、個々の取引レベルで保管されます。
<! - 1 - >データファイル内の一意のレコードを区別するために何が想定されているかを明確にすることが重要です。たとえば、取引レベルファイルの場合、口座番号と世帯IDが複製されます。あなたがこれを理解し、トランザクションレベルの分析を行っている限り、あなたはうまくいくでしょう。
しかし、このデータを使用して各世帯の保有口数を分析することに興味がある場合は、問題が発生します。より頻繁に取引する世帯は、あまり売買しない世帯よりも多くの記録を持つだろう。アカウントレベルでファイルを用意する必要があります。
<! - 2 - >重複レコードを削除することは特に難しいことではありません。ほとんどの統計パッケージとデータベースシステムには、レコードをグループ化する組み込みコマンドがあります。 (実際には、データベース言語SQLでは、このコマンドはGroup Byと呼ばれます)。