個人財務 HadoopのMapReduceアプリケーションフローのマップフェーズ - ダミー

HadoopのMapReduceアプリケーションフローのマップフェーズ - ダミー

Anonim

MapReduceアプリケーションは、 レコードごとに ベースで入力スプリットのデータを処理し、各レコードはMapReduceによって キー/値 対。入力スプリットが計算された後、マッパータスクはそれらの処理を開始できます。つまり、リソースマネージャのスケジューリング機能が処理リソースを割り当てた直後です。 (Hadoop 1では、JobTrackerはマッパータスクを特定の処理スロットに割り当てます。)

<! - 1 - >

マッパー・タスク自体は、一度に1レコードずつ入力分割を処理します。この図では、この単独レコードはキーと値のペアで表されます。私たちの飛行データの場合、(テキストファイルのデフォルトのファイル処理方法を使用して)入力分割が計算されるとき、テキストファイルの各行は単一のレコードであると仮定します。

レコードごとに、行自体のテキストが値を表し、分割の先頭から各行のバイトオフセットがキーとみなされます。

バイトオフセットの代わりに行番号が使用されないのはなぜだろうか。非常に大きなテキストファイルが多くの個々のデータブロックに分割され、分割数が多いと考えられる場合、行番号は危険な概念です。

<! - 3 - >

各分割内の行数が異なるため、処理中の行の数を計算することは不可能です。ただし、すべてのブロックには固定バイト数があるため、バイトオフセットを使用すると正確になります。

マッパータスクは各レコードを処理するので、新しいキーと値のペアを生成します。ここでキーと値は入力ペアとは完全に異なる場合があります。マッパータスクの出力は、これらのすべてのキーと値のペアの完全なコレクションです。

各マッパータスクの最終出力ファイルが書き込まれる前に、出力はキーに基づいて分割され、ソートされます。この分割は、各キーのすべての値が一緒にグループ化されることを意味します。

かなり基本的なサンプルアプリケーションの場合、単一のレデューサーしかないので、マッパータスクのすべての出力が1つのファイルに書き込まれます。しかし、複数のリデューサーがある場合、すべてのマッパータスクが複数の出力ファイルを生成することもあります。

これらの出力ファイルの内訳は、区分キーに基づいています。たとえば、マッパー・タスク用に3つの別個のパーティション化キーしか出力されておらず、そのジョブ用の3つのリデューサーを構成した場合は、3つのマッパー出力ファイルが存在します。この例では、特定のマッパータスクが入力分割を処理し、3つのキーのうちの2つを使用して出力を生成する場合、出力ファイルは2つだけになります。

マッパータスクの出力ファイルを常に圧縮します。より小さい出力ファイルを書くことは、減速器が動作しているノードにマッパー出力を転送する必然的なコストを最小限に抑えるので、ここでの最大の利点はパフォーマンスの向上です。

ほとんどの状況では、デフォルトのパーティショナーは十分ではありませんが、レデューサーによって処理される前にデータがどのように分割されるかをカスタマイズしたい場合があります。たとえば、結果セット内のデータを、キーとその値(セカンダリ ソート)でソートすることができます。 これを行うには、デフォルトのパーティショナーをオーバーライドし、独自のパーティショナーを実装します。ただし、このプロセスでは、各パーティションのレコード数が均一であることを確認する必要があるため、注意が必要です。 (あるレデューサーが他のレデューサーよりもはるかに多くのデータを処理する必要がある場合は、MapReduceジョブが完了するのを待っています。一方、過度に大きなレデューサーは、不均等に大​​きなデータセットによってスローされます)。 MapReduce処理で利用可能な並列処理をより有効に活用できます。

HadoopのMapReduceアプリケーションフローのマップフェーズ - ダミー

エディタの選択

Facebook上の人、アプリケーション、招待をブロックする方法 - ダミー

Facebook上の人、アプリケーション、招待をブロックする方法 - ダミー

設定は、Facebookで快適に過ごせるようにするための予防措置です。ブロックリストは通常​​、より反応的です。誰かがあなたのことを気にするFacebook上の何かをした場合、彼をブロックしたり、あなたが影響を及ぼす特定の行動をブロックすることを選ぶかもしれません。制限付きリスト、ユーザーブロック、ブロック...

Facebookのタイムラインカバーを変更する方法写真ダミー

Facebookのタイムラインカバーを変更する方法写真ダミー

Facebook、あなたのタイムラインはあなたの友人のものと比べて少し空白に見えるかもしれません。カバー写真が必要です。まもなくタイムラインがいっぱいになります。しかし、まず、人々があなたを見つけてあなたについて知ることができるように、基礎を記入したいと思っています。人々が最初にすることは...

正しいFacebookページタイプを選択する方法 - ダミー

正しいFacebookページタイプを選択する方法 - ダミー

サービス、またはビジネスを利用するには、Facebookのページオプションの賛否両論に気づく必要があります。あなたの6つの主要なオプションを見てみましょう:ローカルビジネスまたはプレースカンパニー組織または機関ブランドまたはプロダクトアーティストバンドまたは公共図エンターテインメント原因またはコミュニティ次の...

エディタの選択

他のKloutインフルエンサーを推薦する方法 - ダミー

他のKloutインフルエンサーを推薦する方法 - ダミー

インフルエンサーリストを使用してKloutが+ Kを与えると説明するアクションです。あなたのKloutスコアの一部は、他人から受け取った裏書の数に由来します。

あなたのソーシャルメディアメトリクスの目標を微調整する方法 - ダミー

あなたのソーシャルメディアメトリクスの目標を微調整する方法 - ダミー

ソーシャルメディア指標の目標を微調整するための販売漏れデータあなたの目標を微調整することの一部は、希望から​​マイルストーンに移行するまで、それらを磨くことです。人々がゴールを間違えていることのいくつかの例を以下に示します。これは希望、夢、偉大なものです。

Klout特典の電子メール通知を取得する方法 - ダミー

Klout特典の電子メール通知を取得する方法 - ダミー

Ifあなたは定期的にKloutを訪れる習慣ではないので、あなたはPerksの電子メールアラートを作成することができます。あなたがソーシャルメディアの世界でやっていることすべてを把握するのは難しいかもしれません。これはあなたのソーシャルメディア管理を簡素化するのに役立ちます。あなたがパルクの資格を得て、そして...

エディタの選択

Outlook 2002でパブリックフォルダで公開する - Microsoft ExchangeネットワークでOutlook 2002を使用する場合はダミー

Outlook 2002でパブリックフォルダで公開する - Microsoft ExchangeネットワークでOutlook 2002を使用する場合はダミー

パブリックフォルダを使用できます。パブリックフォルダは、グループ全体が見てアイテムを追加できる場所です。タスクや連絡先用のパブリックフォルダを持つことができます。

Outlookの迷惑メールフィルタを設定する方法 - ダミー

Outlookの迷惑メールフィルタを設定する方法 - ダミー

Outlookのオプション。非常に積極的に設定すると、迷惑メールが少なくなりますが、正当なメッセージを迷惑メールとマークすることがあります。それほど攻撃的ではないように設定すると、受信トレイにもっと迷惑をかけることになります。 Outlookに付属しています...

Outlook 2013で連絡先グループを作成する方法 - ダミー

Outlook 2013で連絡先グループを作成する方法 - ダミー

Outlook 2013で連絡先グループを作成する方法あなたのリストの名前を作り、あなたのシステムに保存した名前のコレクションから選ぶという単純な問題です。連絡先グループは電話番号とメールアドレス、電子メールアドレスだけを追跡しません。 ...