Amazon EMRでHiveとPrestoを体験するハンズオンを開催しました
ソリューションアーキテクトの岩永 (@riywo) です。先日Amazon Data Services Japanの目黒オフィスにて、Amazon EMRでHiveとPrestoを体験するハンズオンセミナーを開催し、19名の方にご参加頂きました。
セミナー内では、Amazon EMRの機能紹介に始まり、Hiveやそれにまつわる技術の紹介、またPresto等の紹介を行いながら、実際にAmazon EMRのクラスタを起動してHive/Prestoでクエリを実行したり可視化したりして頂きました。
HiveとPrestoで同じクエリを実行した際の比較では、その速度の違いに驚きの声も出ていました。やはりこういったことは手を動かして体験してみるに限ります。
補足
今回のハンズオンでは、S3上にあるJSONのログデータを、Hiveを使ってORC FileにETLしてS3に保存し、Prestoからそれを可視化するということを行いました。
その際に、始めPrestoの0.98を使っていたらどうも沢山のS3ファイルを触るとPrestoが固まってしまうことがありました。S3へのアクセスで失敗をしているログが出ていました。正確にdiffを追えていないのですが、0.102で"Fix S3 socket leak when reading ORC files."という修正が入っている様で、今回のハンズオンではこちらのバージョンを利用しました。
https://prestodb.io/docs/current/release/release-0.102.html
講義資料
講義部分で利用した資料を公開致しますので、ご覧ください。
今後
Amazon Data Services Japanでは、今後もこういったハンズオンやセミナーを開催していきたいと思っています。今回のハンズオンと同様のものや他にもこういったハンズオンをぜひ!といったご要望がありましたら、ぜひご連絡下さい。
岩永
コメント