ビデオ: プログラミング的思考とは?【保護者様のためのプログラミング教室ガイド】 2024
人類はますます小型で強力なハードウェアによって生成された前例のない量のデータの信じられない交差点にあり、これと同じアルゴリズムプロセスが発展するのを助けた。これは単なるボリュームの問題ではなく、それ自体が難しい課題です。
2001年に調査会社のGartnerによって公式化され、IBMなどの他の企業によって再構築され、拡張されたことから、大きなデータは、 - データ量とデータの種類
Veracity(データの種類と数)- データの種類 :
- データの不確実性の指標である、データの品質と信頼性の高い音声(信号にミックスされたエラー、不良データ、ノイズ) 各ビッグデータ特性は挑戦と機会を提供します。例えば、ボリュームは有用なデータの量を考慮する。 1つの組織が大きなデータとみなすものは、別の組織にとって小さなデータである可能性があります。 1台のマシンでデータを処理できないため、データが大きくなることはありません。大きなデータと通常のデータとの違いは、組織が広く普及している方法や解決策を見直し、現在の技術やアルゴリズムを先取りすることです。
- <!このマイルストーンとChris Anderson、 Wired
- の編集長が書いた多くの議論された記事で説明されているように、バラエティによって大きなデータを使って科学的方法に挑戦することができます当時、科学的な方法の外でどのくらいの量のデータが科学的な発見を助けることができるかについて、著者は、特定のモデルや理論を使用することなく誇張を達成することができる広告と翻訳のビジネス分野ではなく、データから学ぶアルゴリズムを適用することでGoogleの例を利用しています。広告と同様に、科学(物理学、生物学)データは科学者が仮説なしに問題にアプローチすることを可能にするイノベーションをサポートすることができるが、大量のデータや発見アルゴリズムによって見出される変化を考慮する。 <! - 3 - >
真実性はデータそのものの民主化に役立ちます。過去には、組織は貴重で入手するのが困難であったため、データを保管していました。現時点では、さまざまな情報源が蓄積されているようなデータを作り出しています(過去2年間に世界のデータの90%が作成されています)ので、アクセスを制限する理由はありません。データは、世界中の多くのオープンデータプログラムが存在するような商品に変わりつつあります。(米国は長い間オープンアクセスの伝統を持っていたが、最初のオープンデータプログラムは、NOAAが気象データを自由に一般公開することを開始した1970年代にさかのぼる。)しかし、データが商品になったそのデータの不確実性が問題になっています。データが完全に真であるかどうかは、ソースが分からないためにもはやわかりません。
データは、その価値が実際の情報(企業のデータベースに格納されているデータなど)に存在しなくなるほど遍在しています。データの価値は、その使用方法にも存在します。ここでアルゴリズムが有効になり、ゲームが変わります。 Googleのような企業は、ウェブサイトのコンテンツや一般に公開されているテキストや書籍に見られるテキストなど、自由に利用できるデータから自分自身を養う。しかし、Googleがデータから抽出した値は、主にそのアルゴリズムに由来しています。例として、データ値はPageRankアルゴリズム(第11章参照)にあります。これはGoogleのビジネスの基盤です。アルゴリズムの価値は他の企業にも当てはまります。 Amazonの推奨エンジンは、同社の収入のかなりの部分を占めています。多くの金融会社は、自由に入手可能な株式データと投資に関する経済情報を活用して、アルゴリズム取引やロボアドバイスを利用しています。