ビデオ: Hadoop Pig Tutorial For Beginners | What is Pig In Hadoop | Hadoop Pig Programming | Simplilearn 2024
Pig Latinは、データストリームとそれが流れるときにデータに適用される一連の変換を定義する dataflow 言語ですあなたのアプリケーションを通して。これは、一連の命令を記述する 制御フロー 言語(CやJavaなど)とは対照的です。
制御フロー言語では、ループや条件ロジック(if文のような)のような構文を使用します。あなたはPig Latinでループとif文を見つけることはできません。
<! Pigを使って作業することがMapやReduceプログラムを書かなくてはならない場合には、実際のPig構文を見て始めてください:A = LOAD 'データファイル。 TXT'; 。 B =グループ…; … C =フィルタ…; 。ダンプB; 。 「結果」にCを保存する。
この例のテキストの一部は、実際には英語のようです。少なくともこの時点ではあまり恐ろしいことではありません。順番に各行を見ると、Pigプログラムの基本的な流れを見ることができます。 (このコードは、スクリプトの一部でも、Gruntという対話シェルでも発行できます)。
<! - 2 - >
ロード:操作するデータを最初にロード(LOAD)します。-
<! - 1 - >
一般的なMapReduceジョブと同様に、そのデータはHDFSに保存されます。 Pigプログラムがデータにアクセスするには、まずPigに使用するファイルを指示します。そのタスクでは、LOAD 'data_file'コマンドを使用します。ここで、 'data_file'はHDFSファイルまたはディレクトリを指定できます。ディレクトリが指定されている場合、そのディレクトリ内のすべてのファイルがプログラムにロードされます。
<! - 3 - >
データがPigにネイティブにアクセスできないファイル形式で格納されている場合は、オプションでUSING関数をLOAD文に追加して、読み込み可能なユーザー定義関数を指定できますデータを解釈して解釈する)。<! - 2 - >
変換:変換のセットを使用してデータを実行します。変換のセットは、気になるものから遠く離れて、マップとリデュースのタスクのセットに変換されます。 -
変換ロジックは、すべてのデータ操作が行われる場所です。ここでは、関心のない行をフィルタリングし、2つのデータファイルセットを結合し、集計を構築するGROUPデータ、ORDER結果などを作成し、多くのことを行うことができます。
<! - 3 - >
ダンプ:最後に、結果をファイル -
または
ストア
(STORE)にダンプ(DUMP)してファイルのどこかに保存します。 通常、DUMPコマンドを使用して、プログラムをデバッグするときに出力を画面に送信します。プログラムが実稼働状態になると、DUMPコールをSTOREコールに変更するだけで、プログラムの実行結果は後で処理または分析するためにファイルに保存されます。