« CloudWatch 新アクション機能 – EC2インスタンスのリブート | メイン | 週刊AWS - 2015年7月20日 »

【AWS発表】Elastic MapReduceリリース4.0.0がアプリケーションのアップデートと共に利用可能に

Amazon EMRは、Apache HadoopApache Sparkといったビッグデータフレームワークの実行を簡単にし、AWS上で実行して大量のデータ分析を行うためのマネージドなクラスタプラットフォームです。これらのフレームワークと、Apache HiveApache Pigといった関連するオープンソースのプロジェクトを使うことで、データに対して分析目的やビジネスインテリジェンスの処理をすることができます。2009年に最初のローンチ(Announcing Amazon Elastic MapReduce)をして以来、広範囲のコンソールのサポートやとてもたくさんの機能追加を行ってきました。ごく最近のいくつかの機能追加には以下のものが含まれています:

今日、我々はAmazon EMRリリース4.0.0を発表します。これはプラットフォームに数多くの変化をもたらします。このリリースには、ご自身のクラスタにインストール可能でアプリケーションの設定方法が改善され、バージョンがアップデートされたHadoopエコシステムアプリケーションとSparkが含まれます。このリリースの一部として、我々はいくつかのポートやパスをいくつかのHadoopとSparkの標準や規約により準拠したものへと調整も行いました。他のAWSサービスが、各リリースが見えることはなく裏で頻繁にアップデートが行われているのとは異なり、EMRはバージョンリリースを行ってきているので、特定のEMRリリースでのみ使える機能や、特定のEMRリリースでのみ使えるバージョンのアプリケーションを使ったプログラムやスクリプトを書くことが可能です。

もし今AMIバージョン2.xか3.xをご利用の場合、4.0.0へのマイグレーションをどのようにするかを知るためにEMRリリースガイドをお読み下さい。

アプリケーションのアップデート

EMRユーザはHadoopエコシステムの多数のアプリケーションにアクセスできます。このバージョンのEMRは以下のアップデートが特徴となります:

  • Hadoop 2.6.0 - このバージョンのHadoopには多数の一般的な機能や使い勝手の改善が含まれています。
  • Hive 1.0 - このバージョンのHiveにはパフォーマンス改善、SQLサポートの追加、いくつかのセキュリティ機能が含まれています。
  • Pig 0.14 - このバージョンのPigは新しいORCStorageクラス、パフォーマンス改善のためのpredicate pushdown、バグ修正などが特徴です。
  • Spark 1.4.1 - このリリースのSparkにはSparkRのためのバインディングや新しいDataframe API、さらに多くの小さな機能追加やバグ修正が含まれています。

コンソールでの素早いクラスタ作成

コンソールから素早いクラスタ設定を使ってEMRクラスタを作ることができます:

Emr_quick_create_cluster_1

アプリケーション設定編集の改善

Amazon EMR AMIのバージョン2.xと3.xでは、クラスタ上でのアプリケーションの設定のためにbootstrap actionがメインで利用されていました。Amazon EMRリリース4.0.0では、クラスタを作成する時に直接的にデフォルトの設定を編集する手段を提供することで、改善しています。編集したい設定ファイルのリストとそれらのファイルの中の変更点をリストとして含む設定オブジェクトを渡すことができる機能を追加しました。設定オブジェクトはCLIEMR APIやコンソールから作成して参照することができます。設定情報はローカルやAmazon Simple Storage Service (S3)に保存できそれを参照することもできます(コンソールをご利用の場合、設定値を指定したり設定ファイルを使うためにクラスタ作成時にGo to advanced optionsをクリックして下さい)。

Emr_adv_config_1

より詳細は、アプリケーションの設定をお読み下さい。

新しいパッケージングシステム / 標準的なポートとパス

我々はApache Bigtopベースの新しいパッケージングシステムをリリースしました。これによって、我々ははより早く新しいアプリケーションや新しいバージョンをEMRに追加することができます。

また、我々はEMRリリース4.0.0の多くのポートやパスをオープンソースの標準に変更しました。これらの変更についての詳しい情報は4.xで導入された変更点をお読み下さい。

Sparkのための追加のEMR設定オプション

EMRチームからいくつかの技術チップを皆さんに共有するように頼まれています:

Spark on YARNはSparkアプリケーションのために使われるexecutorの数を動的にスケールすることができます。1つのexecutorが使うメモリ(spark.executor.memory)とコア(spark.executor.cores)はspark-defaultsの中で指定する必要はありますが、YARNはSparkアプリケーションが必要な数のexecutorを自動的に割り当ててくれます。動的なexecutorの割り当てを有効にするには、spark-defaultsの設定ファイルの中でspark.dynamicAllocation.enabledをtrueに設定します。加えて、Spark shuffle serviceがAmazon EMRでは最初から有効化されているので、ご自身で有効化する必要はありません。

クラスタ作成時にmaximizeResourceAllocationオプションをtrueにすることで、executorが各ノードで利用可能なリソースを最大限利用するように設定することができます。クラスタを作る時に、設定オブジェクトの中の”spark”クラスにこのプロパティを追加することで設定可能です。このオプションはcore node groupのノード上で利用可能な最大のCPUとメモリのリソースを計算して、この情報をもとに関連するspark-defaultsの設定をセットします。クラスタ作成時に指定された最初ののcore nodeの数でspark.executor.instancesを設定することでexecutorの数もセットします。ただし注意点として、この設定は動的なexecutorの割り当てとは一緒に使うことができません。

これらのオプションについてより詳しくは、Sparkの設定をお読み下さい。

今日から利用可能です

上記の全ての機能は今から利用可能で、今日から使いはじめることができます。

もし大規模なデータ処理やEMRが初めてであれば、我々のAmazon EMRを始めるにはというページをご覧ください。新しいチュートリアルビデオや、トレーニングやプロフェッショナルサービスについての情報を見ることができます。これら全てはみなさんが素早く効率的に立ち上がることを目的としています。

-- Jeff; (翻訳: SA岩永)

原文: Elastic MapReduce Release 4.0.0 With Updated Applications Now Available

コメント

Featured Event

2016年3 月

    1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31