« AWS上でNISTへの準拠が必要ですか?AWSのコンプライアンスはNIST 800-171をカバーできます。 | メイン | JenkinsとGruntを利用したAWS Lambda functionの継続的インテグレーションとデプロイ - Part 1 »

AWS Black Belt Tech Webinar 「Amazon Kinesis」資料公開

こんにちは、AWSテクニカルトレーナーの江川です。

9月のAWS Black Belt Tech Webinarは、ビッグデータ・データ分析月間と題して、AWSの分析系サービスを紹介しています。

次回は、明日9/9(水)にデータ処理に必須のタスクであるETLをサポートするサービス、AWS Data Pipelineを紹介します。

  • 9月9日(水)
    • AWS Data Pipeline - 今井雄太
    • セミナー参加登録リンク: https://connect.awswebcasts.com/data_pipeline/event/event_info.html
    • セミナー内容:
      • AWS Data Pipelineは、データ処理を行う上で避けて通ることのできない、集約、整形、抽出などの様々な前処理を自動化してくれるサービスです。使いこなせば非常に便利ですが、AWS Data Pipeline独自の概念や用語も多いため、ハードルが高いサービスであることも事実です。今回はユースケースやサンプルコードに沿って、このサービスの便利さを感じてもらうためのGetting Startedを提供したいと思います。

また、ビッグデータ月間第一弾の放送となったAmazon Kinesisの資料も下記のアップロードされていますので、ぜひご確認ください。

 

 

併せて、Webinar中にいただいたご質問もこちらで紹介させていただきます。一部、質問の文言を修正させていただいた部分もありますが、ご容赦ください。

Q1. Consumer側に問題があって、Shard内にデータが溜まりすぎた場合、データを一括削除可能ですか?

A1. 現仕様においてShard内のデータを消すAPIはなく、Streamを作り直す形になります。または、Shard Iterator TypeをLATESTにして頂いて常に最新のデータを使ってConsumerのテストをすることも可能かと思います。

 

Q2. Kinesis Client Library(KCL)を利用するJavaプロセスを起動した場合、WorkerはShard数に併せて内部でスレッドのように自動的に増やされるのでしょうか。それとも、起動するスクリプト等を別個用意しておく必要があるのでしょうか。

A2. 起動時(または運用中も)にShardの数を意識すること無くKCLのWorkerスレッドがデータを取得するので、起動スクリプトなどでシャードを指定する必要はございません。

 

Q3. Java以外のKCLはGithubのレポジトリの更新が滞っているように見えて少し不安です。プロダクションで利用できるほどの品質があると判断してよいのでしょうか?

A3. Kinesisのご利用の多くのお客様に、KCLをご利用頂いております。状況によっては、ソースコードは開示しているので、問題があるようであれば、リクエストを上げていただく、または、サポートに問い合わせを頂ければと思います。

Q4. (Shardの)自動での伸縮は可能なのでしょうか?

A4.  Kinesis単体で自動での伸縮はなく、CloudWatchのメトリック監視、SNSによるアラート通知を使ってKinesisのAPI(SplitまたはMearge)を組み合わせて実装することで自動的な運用が可能になります。

Q5. KCLからRDB接続が可能か?

A5. 可能です。但し、Kinesisの場合、途切れのない連続した大量データを取集ことが可能です。大量なトランザクションを取り扱う場合は、RDBがボトルネックになる可能性が高いため使用する場合は、設計上の注意が必要です。

 

Q6. KCLを使用する場合、別途DynamoDBとCloudWatchの契約が必要になるということでしょうか?

A6. AWSの場合、アカウントを取得頂ければ、サービスごとに契約を締結することなくご利用いただけます。KCLが利用するDynamoDBもCloudWatchも特別な契約なしにご利用いただくことが可能です。
但し、DynamoDBとCloudWatchのご利用分のお支払いは発生いたします。

 

Q7. シャードに貯められるデータ容量に上限はありますか?

A7. Shardとには、1MB/sのデータ入力と24時間の保存期間という制約があります。計算した値がデータ容量の最大になります。貯められるデータ容量よりデータの入力及び出力のサイズ、TPSが設計上重要になります。

以上です。 

次回以降のWebinarは、本ブログでの紹介(「9月はビッグデータ・データ分析月間!!〜2015年9月のAWS Black Belt Tech Webinarのご案内」)、もしくはAWSイベントスケジュールをご確認ください。

今後とも、AWS Black Belt Tech Webinarをよろしくお願いします。

 

コメント

Twitter, Facebook

このブログの最新情報はTwitterFacebookでもお知らせしています。お気軽にフォローください。

2018年4 月

1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30