個人財務 Hadoopとの統合R - Dummiesとの統合

Hadoopとの統合R - Dummiesとの統合

目次:

ビデオ: Scale R to Big Data with Hadoop & Spark 2025

ビデオ: Scale R to Big Data with Hadoop & Spark 2025
Anonim

当初、大きなデータとRは自然な友人ではありませんでした。 Rプログラミングでは、すべてのオブジェクトを1台のマシンのメインメモリにロードする必要があります。このアーキテクチャの限界は、大きなデータが方程式の一部になるとすぐに実現されます。一方、Hadoopなどの分散ファイルシステムでは、強力な統計手法が欠如していますが、複雑な操作やタスクのスケーリングには理想的です。コストのかかるスーパーコンピューティングハードウェアへの投資を必要とする垂直スケーリングソリューションは、分散した汎用ハードウェアクラスタによって提供されるコスト価値のリターンと競合することができません。

<! - 1 - >

R言語のメモリ内の単一マシンの制限に準拠するために、データ科学者は、分析を利用可能なサンプルデータのサブセットのみに限定しなければならないことがよくありました。 Hadoopとのより深い統合に先立ち、R言語のプログラマは、大規模なデータセットによって引き起こされるメモリ内の課題を1台のマシンで克服するためのスケールアウト戦略を提案しました。

これは、メッセージパッシングシステムとページングを使用して実現されました。この技術は、メインメモリに同時に格納するには大きすぎるデータセットに対して作業を容易にすることができます。しかし、その低レベルのプログラミング手法は、並列プログラミングのパラダイムに慣れていない人にとっては、習得が急であることを示しています。

<! - 2 - >

Rの統計機能とHadoopの分散クラスタの統合には、SQLクエリ言語とのインタフェースとHadoop Streamingとの統合の2つの方法があります。前者の目的は、HiveやPigなどの既存のSQLデータウェアハウスプラットフォームを活用することです。これらのスキーマは、Hadoopデータを使用して統計ジョブを実行するための高度なプログラミングを提供するために、SQLスタイルの文を使用してHadoopジョブプログラミングを単純化します。

<! - 3 - >

MapReduceジョブをJava以外の言語(Rを含む)でプログラムしたいプログラマの場合、2番目の選択肢は、HadoopのStreaming APIを使用することです。ユーザが提出したMapReduceジョブは、UNIXの標準ストリームとシリアライゼーションの助けを借りてデータ変換を行い、プログラマが最初に入力した言語にかかわらず、HadoopへのJava準拠の入力を保証します。

開発者は、MapReduceの分散コンピューティング機能と、Rによって悪用されるような方法でHDFSのほぼ無制限のストレージ容量を活用するためのさまざまな戦略を探求し続けています。

HadoopとRの統合は進行中であり、 (BigInsightsの一環としてのBig R)とRevolution Analytics(Revolution R Enterprise)があります。 RHiveやRHadoopなど、Hadoopと高度なプログラミング言語とクエリ言語を統合するブリッジングソリューションも利用できます。

基本的に、各システムは、より大きなデータセットにR言語の深い分析能力を提供することを目指しています。

RHive

RHiveフレームワークは、R言語とHiveの間のブリッジとして機能します。 RHiveは、R固有の関数でHiveのSQLライクなクエリ言語(HiveQL)を拡張することにより、Hadoopに格納されたデータにRの豊富な統計ライブラリとアルゴリズムを提供します。 RHive関数を使用すると、HiveQLを使用して、Hiveを使用してカタログ化したHadoopクラスタのデータにR統計モデルを適用できます。

RHadoop

Rプログラマが利用できるもう1つのオープンソースフレームワークは、Hadoopでのデータの配布と分析の管理を支援するパッケージの集まりであるRHadoopです。

rmr2:

  • rmr2パッケージは、Hadoop準拠のMapReduceジョブへのR言語の変換をサポートしています(効率的な低レベルのMapReduceコードを生成します)より高いレベルのRコードから)。 rhdfs:

  • rhdfsパッケージは、HDFSストアを介してファイルを管理するためのR言語APIを提供します。 rhdfsを使用すると、ユーザーはHDFSストアからRデータフレーム(マトリックス)に読み込むことができ、同様にこれらのRマトリックスのデータをHDFSストレージに書き戻すことができます。 rhbase:

  • rhbaseパッケージもR言語APIを提供しますが、人生の目標はHDFSファイルではなくHBaseストアのデータベース管理です。 Revolution R

Revolution R(Revolution Analyticsによる)は、Hadoop分散システムでのR統合をサポートする商用R製品です。 Revolution Rは、HadoopのRのパフォーマンス、機能性、使いやすさを向上させることを約束します。 Rに似た深い分析を提供するために、Revolution Rは企業規模の大規模データ収集用に特別に開発された統計分析アルゴリズムのコレクションである同社のScaleRライブラリを利用しています。

ScaleRは、RプログラムコードをHadoopクラスタ上で高速に実行することを目的としており、R開発者はMapReduceではなく統計アルゴリズムに専念することができます。さらに、データ準備、ビジュアライゼーション、統計テストなど、数多くの分析タスクを処理します。

IBM BigInsights Big R

Big Rは、RとIBMのHadoop製品BigInsightsのエンドツーエンド統合を提供し、R開発者がHadoopデータを分析できるようにします。目的は、Rのプログラミング構文とコーディングのパラダイムを利用して、操作されたデータがHDFSにとどまることを保証することです。 Rデータ型はこれらのデータストアのプロキシとして機能します。つまり、R開発者は低レベルのMapReduce構文やHadoop固有のスクリプト言語(Pigなど)について考える必要はありません。

BigInsights Big Rテクノロジは、フラットファイル、HBase、およびHiveストレージ形式を含む複数のデータソースをサポートし、Hadoopクラスタ全体でRコードの並列およびパーティション実行を提供します。これは、基礎となるHDFSおよびMapReduceフレームワークの多くの複雑さを隠し、Big R機能が構造化データと非構造化データの両方で包括的なデータ分析を実行できるようにします。最後に、Big Rの統計エンジンのスケーラビリティにより、R開発者は事前定義された統計的手法と新しいアルゴリズムの作成者の両方を利用することができます。

Hadoopとの統合R - Dummiesとの統合

エディタの選択

SketchUpのステータスバー - ダミー

SketchUpのステータスバー - ダミー

SketchUpのステータスバーには、モデリング中に使用するコンテキスト情報が含まれています。モデリングウィンドウの下の狭い情報には、情報の良さが満載されています。コンテキスト固有の指示:ほとんどの場合、ここでは何をしているのかを確認するためにここでチェックします。モディファイアキー(組み合わせて使用​​するキーボードストローク)

スケッチツールにインテリジェントに反応するよう設計されたダミー

スケッチツールにインテリジェントに反応するよう設計されたダミー

ダイナミックコンポーネント(DC) SketchUpが提供する真の魔法に最も近いもの。あなたがそれらを拡大縮小するときに、伸ばしたり歪んだりするのではなく、寸法を変更するはずの部品は、他の部分はしません。

SketchUpの投影テクスチャ曲線にテクスチャを追加する方法 - 複雑な曲線に画像を描くためのダミー

SketchUpの投影テクスチャ曲線にテクスチャを追加する方法 - 複雑な曲線に画像を描くためのダミー

SketchUpのサーフェスには、このメソッドの代わりはありません。地形の塊は、複雑な曲面の良い例です - 凹凸、ねじれ、波紋、多方向。扱っているカーブが単純な押し出しよりも複雑な場合は、この画像マッピングテクニックを使用する必要があります。キー...

エディタの選択

QuickBooks 2013のアイテムリストにSales Tax ItemまたはGroupを追加する方法 - ダミー

QuickBooks 2013のアイテムリストにSales Tax ItemまたはGroupを追加する方法 - ダミー

販売税の対象となる商品を販売する場合、QuickBooks 2013請求書には、これらの売上税を請求して追跡する広告申込情報も含まれます。これを行うには、売上税明細を登録します。販売税項目を登録するには、新規項目ウィンドウを表示し、タイプ...から販売税項目を選択します。

QuickBooks 2012のアイテムリストにサービスアイテムを追加する方法 - ダミー

QuickBooks 2012のアイテムリストにサービスアイテムを追加する方法 - ダミー

QuickBooks 2012でサービスアイテムを使用して、サービスを表すアイテムを購入または請求します。たとえば、CPAは、個人や企業に対して納税申告書を作成します。納税申告書を準備するためにクライアントに請求する場合、納税申告書の請求書に表示される明細はサービス項目です。 ...

QuickBooks 2013のアイテムリストにサービスアイテムを追加する方法 - ダミー

QuickBooks 2013のアイテムリストにサービスアイテムを追加する方法 - ダミー

QuickBooks 2013のサービスアイテムを使用して、サービスを表すアイテムを購入または請求します。たとえば、CPAは、個人や企業に対して納税申告書を作成します。納税申告書を準備するためにクライアントに請求する場合、納税申告書の請求書に表示される明細はサービス項目です。 ...

エディタの選択

WordPressブログのユーザーと著者を管理する方法 - ダミー

WordPressブログのユーザーと著者を管理する方法 - ダミー

WordPressユーザーページには、あなたのブログのすべてのユーザーが表示されます。各ユーザーのユーザー名、名前、電子メールアドレス、ブログの役割、およびブログに投稿された投稿の数が表示されます。フォロワー:このデフォルトロールは、...

WordPress Permalinkをサーバーと連携させる方法 - ダミー

WordPress Permalinkをサーバーと連携させる方法 - ダミー

デフォルト以外のオプションを使用してWordPressサイトのパーマリンクの場合、WordPressは特定のルールまたはディレクティブを.txtファイルに書き込みます。あなたのWebサーバー上のhtaccessファイル。 permalinkによると、htaccessファイルはあなたのWebサーバーと交信して、パーマリンクをどのように提供すべきかを示します。

WordPressブログを修正する方法 - ダミー

WordPressブログを修正する方法 - ダミー

WordPressブログをインストールした後、それがリンクされているウェブサイトに合ったブログ。既存のテーマ(スキン)を変更したり、WordPressをインストールした後に使用できる代替語句を選択することができます。選択したテンプレートがメインWebサイトに似ていることを確認してください。ただし、WordPressは...