ビデオ: 20151102 MLDM Monday --- Accessing Bluemix Hadoop service with R Console Part 1 2024
機械学習の分野には、豊富で豊富なテクニックのカタログがあります。 Mahoutはさまざまな統計ツールとアルゴリズムをテーブルに持ち込みますが、これらのモデルやMapReduceフレームワークに変換する作業は困難な作業であるため、これらの手法やアルゴリズムのほんの一部をキャプチャします。
時間の経過とともに、Mahoutは統計ツールボックスの拡張を続けますが、それまではデータ科学者と統計家はRが入っている別の統計モデリングソフトウェアを知る必要があります。 - 1 - >
R言語は、強力かつ一般的なオープンソースの統計言語および開発環境です。データ探査、ビジュアライゼーション、統計分析とコンピューティング、モデリング、機械学習、シミュレーションなどのデータ科学者を支援する豊富な分析エコシステムを提供します。 R言語は、統計学者、データマイニング担当者、データアナリスト、(今日の)データ科学者が共通に使用します。<! - 2 - >
R言語のプログラマは、この執筆時点で、3000を超える統計解析パッケージを含む包括的なRアーカイブネットワーク (CRAN)ライブラリにアクセスできます。これらのアドオンは、分類、回帰、クラスタリング、線形モデリング、およびより特殊な機械学習アルゴリズムを実行するための豊富な分析ツールを提供する、任意のRプロジェクトに取り込むことができます。この言語は、ベクトル、スカラー、データフレーム(行列)などの単純なデータ構造タイプに精通している人がアクセスできます。統計家やプログラマーがよく使用します。 <! - 3 - >
R言語を使用する際の主要な落とし穴の1つは、並行タスクを実行するためのサポートの欠如です。 Rのような統計言語ツールは、厳密な解析では優れていますが、スケーラビリティと並列計算のネイティブサポートが欠けています。これらのシステムは配布不可能であり、近代的なペタバイトの大規模データのために拡張可能であるようには開発されていませんでした。これらの制限を克服するための提案では、Rの範囲をインメモリ・ロードや単一のコンピュータ実行環境を超えて拡張する必要があります。