« AWS Directory ServiceがAPIアクセスとAWS CloudTrailによるロギングをサポート | メイン | AWS初心者向けWebinar「基本から理解する、AWS運用監視」資料公開 »

Amazon EMRでHiveとPrestoを体験するハンズオンを開催しました

ソリューションアーキテクトの岩永 (@riywo) です。先日Amazon Data Services Japanの目黒オフィスにて、Amazon EMRでHiveとPrestoを体験するハンズオンセミナーを開催し、19名の方にご参加頂きました。

セミナー内では、Amazon EMRの機能紹介に始まり、Hiveやそれにまつわる技術の紹介、またPresto等の紹介を行いながら、実際にAmazon EMRのクラスタを起動してHive/Prestoでクエリを実行したり可視化したりして頂きました。

HiveとPrestoで同じクエリを実行した際の比較では、その速度の違いに驚きの声も出ていました。やはりこういったことは手を動かして体験してみるに限ります。

補足

今回のハンズオンでは、S3上にあるJSONのログデータを、Hiveを使ってORC FileにETLしてS3に保存し、Prestoからそれを可視化するということを行いました。

その際に、始めPrestoの0.98を使っていたらどうも沢山のS3ファイルを触るとPrestoが固まってしまうことがありました。S3へのアクセスで失敗をしているログが出ていました。正確にdiffを追えていないのですが、0.102で"Fix S3 socket leak when reading ORC files."という修正が入っている様で、今回のハンズオンではこちらのバージョンを利用しました。

https://prestodb.io/docs/current/release/release-0.102.html

講義資料

講義部分で利用した資料を公開致しますので、ご覧ください。

今後

Amazon Data Services Japanでは、今後もこういったハンズオンやセミナーを開催していきたいと思っています。今回のハンズオンと同様のものや他にもこういったハンズオンをぜひ!といったご要望がありましたら、ぜひご連絡下さい。

岩永

コメント

Twitter, Facebook

このブログの最新情報はTwitterFacebookでもお知らせしています。お気軽にフォローください。

2018年4 月

1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30