ビデオ: Ecossistema Hadoop 2024
Oozieワークフローは、アクション(Hadoopアプリケーション)とデータフローを定義することができますが、いくつかの条件が満たされるまで、特定の操作を繰り返し実行する構造を定義します(forループなど)。
Oozieのワークフローは、条件ベースの決定と並列実行のための分岐されたパスを定義できる点で非常に柔軟です。また、さまざまなアクションを実行することもできます。
<! - 1 - >この図では、Oozieワークフローの基本機能を示すワークフローが表示されます。最初に、Pigスクリプトが実行され、直ちに決定木が続きます。出力の状態に応じて、制御フローは直接HDFS(Hadoop分散ファイルシステム)ファイル操作(copyToLocal操作など)またはフォークアクションに進むことができます。
<! - 2 - >制御フローがforkアクションに渡された場合、MapReduceジョブとHiveクエリの2つのジョブが並行して実行されます。 MapReduceジョブとHiveクエリの両方の実行が終了すると、制御フローはHDFS操作に移行します。 HDFS操作の後、ワークフローは完了です。
Oozieワークフロー定義は、Hadoop Process Definition Language(hPDL)スキーマに基づいてXMLで記述されています。この特定のスキーマは、ビジネスプロセス定義をモデル化するための製品に依存しない標準であるXMLプロセス定義言語(XPDL)スキーマに基づいています。
<! - 3 - >Oozieワークフローは、一連のアクションで構成され、XMLノードによってエンコードされます。異なる種類のアクションまたは制御フロー指示を表す、さまざまな種類のノードがあります。各Oozieワークフローには、すべてのノードとその相互接続が定義された独自のXMLファイルがあります。
ワークフローノードはすべて、ワークフローで処理される次のノードを識別するために使用されるため、一意の識別子を必要とします。つまり、アクションが実行される順序は、アクションのノードがワークフローXMLに表示される場所によって異なります。このコンセプトがどのように見えるかを確認するには、OozieワークフローのXMLファイルの基本構造の例を示す次の一覧をご覧ください。
… …「殺された仕事」
この例では、開始ノード、終了ノード、および終了ノード以外に、2つのアクションノードがあります。各アクションノードは、実行されているアプリケーションまたはコマンドを表します。