« Amazon Auroraのリードレプリカで、フェイルオーバーの順番を指定可能になりました | メイン | 10 Lessons from 10 Years of Amazon Web Services ~ AWS10年に学ぶ10のレッスン »

Amazon EMR 4.4.0 - Sqoop, HCatalog, Java 8, その他

Amazon EMRのDevelopment ManagerのRob Leidleが最新のバージョンを紹介する以下のゲスト投稿を書いてくれました!

Jeff;


本日、我々はAmazon EMR release 4.4.0をご案内致します。これには、Apache Sqoop (1.4.6)とApache HCatalog 1.0.0のサポート追加、Apache Mahout (0.11.1)のアップグレード、Presto (0.136)とApache Zeppelin (0.5.6)のサンドボックスのアップグレードが含まれています。また、Apache Sparkのデフォルト設定の改善と、Java 8のサポートも追加されています。

Emr_440_menu_1

Release 4.4.0の新しいアプリケーション

Amazon EMRを使えば、管理されたAmazon EC2インスタンスのクラスタ上にHadoopやSparkエコシステムの分散ビッグデータアプリケーションを簡単にインストールして設定することができます。Amazon EMRクラスタは、AWSマネージメントコンソールのAmazon EMR Create Cluster Pageや、AWSコマンドラインインタフェース (CLI)や、EMR APIを通してSDKから作成することができます。最新のリリースで、我々は以下のアプリケーションで幾つかの新しいバージョンのサポートを追加しました:

  • Zeppelin_logo_1Zeppelin 0.5.6 - Zeppelinはオープンソースで、Sparkを使った対話的かつ協調作業できるデータ探索のためのノートブックです。Zeppelin 0.5.6ではノートブックのインポートとエクスポート、ノートブックのGitHub保存、ナビゲーションでの自動保存、そしてPysparkのサポート改善が含まれています。Zeppelinのリリースノートlearn more about Zeppelin on Amazon EMRをご覧ください。
  • Presto_logo_1Presto 0.136 - Prestoはオープンソースで、Amazon S3やHDFS上の巨大データセットに対して低レイテンシなクエリをするために設計された分散SQL実行エンジンです。このバージョンはマイナーリリースで、巨大配列のサポート、SQLのバイナリリテラル、コネクタで定義されたプロシージャの呼び出し、ウェブインタフェースの改善が含まれています。Prestoのリリースノートlearn more about Presto on Amazon EMRをご覧ください。
  • Sqoop_logo_1Sqoop 1.4.6 - Sqoopは、HDFSやS3 (EMRFSを使います)とリレーショナルデータベース等の構造化データストアとの間でのバルクデータ転送をするためのツールです。Sqoopを使ってRDSやAuroraから構造化データをEMRに転送して処理をし、結果をS3やHDFSや他のデータベースに書き出すことができます。Learn more about Sqoop on Amazon EMRをご覧ください。
  • Mahout_logo_1Mahout 0.11.1 - Mahoutは分散機械学習アプリケーションを作るためのツールやライブラリの集合です。このリリースにはSparkのサポートに加え、Spark上の新しい数学環境であるSamsaraのサポートが含まれています。Learn more about Mahout on Amazon EMRをご覧ください。
  • Hive_logo_2HCatalog 1.0.0 - HCatalogApache Hiveのサブプロジェクトです。Hadoopのためのテーブルとストレージ管理レイヤであり、Hive Metastoreを利用しています。これによってHadoopからRESTインタフェースを使って簡単にSQLを実行することができます。

Sparkのデフォルト設定の改善

我々はSpark executorのApacheデフォルト設定よりもクラスタのリソース利用率を良くするために、我々のデフォルト設定を改善しました。リリース4.4.0からは、EMRはデフォルトでdynamic allocation of executorsが有効化されているので、Sparkアプリケーションを実行しながらYARNは利用率を上げるために必要なexecutorの数を制御できます。加えて、各executorのメモリの量をクラスタのcoreインスタンスグループに使われているインスタンスファミリーによって自動的決める様にしました。

dynamic allocationとexecutorのメモリのカスタマイズによって、Sparkはクラスタ上の全てのリソースを有効に利用でき、クラスタに追加されたnodeにも追加のexecutorを配置でき、マルチテナントなSparkアプリケーションにも対応できます。以前のmaximizeResourceAllocationパラメータも利用可能です。ただし、こちらはdynamic allocationを使っておらず、Sparkアプリケーションのexecutorの数は静的に指定されています。また新しいデフォルト値についても、configuration APIを使ったりspark-submitでSparkアプリケーションを登録する時に追加のパラメータを渡すことで上書きすることができます。Learn more about Spark configuration on Amazon EMRをご覧ください。

Amazon EMR上のアプリケーションでJava 8を使う

デフォルトでは、Amazon EMRクラスタ上のアプリケーションはランタイム環境としてJava Development Kit 7 (JDK 7)を使っています。しかし、リリース4.4.0からはconfiguration objectで環境変数のJAVA_HOMEでJDK 8を指定することでJDK 8を使うこともできます(ただし、Apache HiveはJDK 8と互換性がないことに注意して下さい)。Learn more about using Java 8 on Amazon EMRをご覧ください。

Amazon EMRリリース4.4.0のクラスタを今日起動してみる

Amazon EMRクラスタを4.4.0で作成するには、AWSマネージメントコンソールのCreate Cluster pageでリリース4.4.0を選択するか、AWS CLIやEMR API経由でSDKを使って作成する時にrelease labelにemr-4.4.0を使って下さい。

— Rob Leidle – Development Manager, Amazon EMR

原文: https://aws.amazon.com/blogs/aws/amazon-emr-4-4-0-sqoop-hcatalog-java-8-and-more/ (翻訳: SA岩永)

コメント

Featured Event

2016年3 月

    1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31