Google Cloud Professional DataEngineer
Cloud dataprocとは
Google Cloud Dataproc は、Apache Spark と Apache Hadoop のクラスターを簡単かつコスト効率よく実行するための高速で使いやすいフルマネージド型のクラウドサービス。
キーワード
cloud monitoring
高度なログ監視には、クラウドモニタリング、APIを使いフィルタリングを実施する。
その後はpubsubに転送する。
Cloud Bigtable
ミリ秒単位のレイテンシ、無制限の拡張性、99.999% の可用性を特長とする HBase 対応のエンタープライズ グレード NoSQL データベース サービス。大規模な分析ワークロードや運用ワークロードも実行できます。
Dialogflow
カスタマーサービス、コマース、生産性、IoTデバイスなどのための会話型アプリを作成することができます。
Datastore
自動スケーリングと高性能を実現し、アプリケーション開発を簡素化するように構築された NoSQL ドキュメント データベース
Dataflow
Dataflowジョブは、二つの方法で停止することが可能です。
- ジョブをキャンセルする:
この方法は、ストリーミング パイプラインとバッチ パイプラインの両方に適用されます。ジョブをキャンセルすると、Dataflow サービスはバッファデータなどのデータの処理を停止します。 - ジョブをドレインする:
この方法は、ストリーミング パイプラインにのみ適用されます。ジョブをドレインすると、Dataflow サービスはバッファ内のデータの処理を完了すると同時に、新しいデータの取り込みを中止できます。
Cloud Pub/SubとCloud Dataflowを使用することで、リアルタイムのイベント ストリームを取り込んで処理、分析し、価値の高い分析情報を得るためのパイプラインを構築することができます。
Pub/Sub
最大で30日間のデータ保持が可能であり、メッセージの順序指定も可能
gsutil -m(マルチスレッド / マルチ処理)オプションを利用することで、大量のファイルを迅速に転送できます
Cloud Monitoring
ネットワーク接続、ディスクID、レプリケーションの状態などのカスタムメトリクスはデフォルトで収集することができません。
OpenCensusを使ったカスタムメトリクスの収集が推奨されています
Natural Language API
エンティティ分析を使用し、ドキュメント(メール、チャット、ソーシャル メディアなど)の中でフィールドを検索してラベルを付けることができます。
次に、感情分析を使用してお客様の意見を把握し、プロダクトとユーザー エクスペリエンスに関する実用的な情報を得ることができます。