« AWS Elastic Load BalancingによるSSL Terminationのサポートを発表 | メイン | AWS Elastic Load BalancingのSSL Terminationに対して追加機能(HTTP/HTTPSプロトコル判別)の発表 »

Amazon Elastic MapReduceがより伸縮自在になりました

Amazon Elastic MapReduce(以下、EMR)を使用すると、非常に大量のデータをEC2インスタンスを並列に走らせることで処理ができます。

Seattle's Razorfishというお客様は、日次実行の必要がある処理の処理速度を、EMRを使用することで大幅に向上し、なおかつ4000万円以上の初期投資を避けることができました(詳しくはRazorfishのケーススタディ(英語))。日本でもクックパッド様が、EC2上でHadoopを用いることで7000時間のビジネス分析を30時間に短縮され、現在は、EMRの安定度を評価していただき、EMRをご使用されています(詳しくはクックパッド佐々木様の資料)。

Amazon EMRを用いると、複数のジョブステップからなる、複数ステージを持つ複雑なジョブフローを簡単に作成し、実行できます。これまでは、フローの中の各ステップにおいて、同じ数のEC2インスタンス(Hadoopにおける用語としてはスレーブノード)を使う必要があったのですが、今回の発表によってジョブフローの中のインスタンスの数によりコントロールを加えられるようになりました。

  • 実行しているジョブフローに、その速度を向上するために、ノードを追加することができます。まさに、暖炉の中に追加の薪をくべてもっと火力を得るのと同じです。もちろん、実行中のジョブフローから、ノードを取り除くことも可能です。
  • 特別な「リサイズ(resize)」ステップを用いることで、フロー内のステップ間で、ノードの数を変更することができます。これにより、速度とコスト効率の観点から、全体のジョブを調整することができます。
  • 実行しているジョブにノードを追加できるようになったので、いまやEMRは、既存のノードが落ちたときに、自動的に新しいノードを起動できるようになりました。

上記の新しい機能を利用するには、Elastic MapReduce APIs、コマンドラインツール、AWS SDK for Javaを利用することが可能です。また、AWS Management Consoleを使うことで、全体のサイズや各ジョブのステータスを監視することができます。

また、EMRには、ますますの追加機能が予定されていますので、今後もブログでの発表にご注目ください!!

玉川憲
Twitter: KenTamagawa

 

 

コメント

Featured Event

2016年3 月

    1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31