Open24

Google Cloud Professional DataEngineer

技術ネタ帳技術ネタ帳

Cloud dataprocとは

Google Cloud Dataproc は、Apache Spark と Apache Hadoop のクラスターを簡単かつコスト効率よく実行するための高速で使いやすいフルマネージド型のクラウドサービス。

技術ネタ帳技術ネタ帳

Dataprocは、データサイズがあらかじめわかっている時や、cluster sizeを自分で設定したい時に有用。
Dataflowは、データサイズやrateが未知の場合( <-GCPがうまいこと調節してくれるから )や、データがリアルタイムに発生する場合に有用

技術ネタ帳技術ネタ帳

インターネットに接続せずクラスタ初期化アクションを行うには、GCPに依存関係をコピーしておく事で実行できる

技術ネタ帳技術ネタ帳

Data proc Hubによって、エンジニアじゃなくてもクラスタ起動・Jupyter labo上で分析可能

技術ネタ帳技術ネタ帳

cloud monitoring

高度なログ監視には、クラウドモニタリング、APIを使いフィルタリングを実施する。
その後はpubsubに転送する。

技術ネタ帳技術ネタ帳

Cloud Bigtable

ミリ秒単位のレイテンシ、無制限の拡張性、99.999% の可用性を特長とする HBase 対応のエンタープライズ グレード NoSQL データベース サービス。大規模な分析ワークロードや運用ワークロードも実行できます。

技術ネタ帳技術ネタ帳

Bigtable は、大量の読み取りと書き込み用に最適化された NoSQL ワイドカラム型データベース
ナローテーブル

技術ネタ帳技術ネタ帳

Bigtable では、読み取りオペレーションと書き込みオペレーションがテーブル全体に均等に分散され、結果として、ワークロードがクラスタ内のすべてのノードに分散されるときに、最高のパフォーマンスが得られます。

技術ネタ帳技術ネタ帳

Dialogflow

カスタマーサービス、コマース、生産性、IoTデバイスなどのための会話型アプリを作成することができます。

技術ネタ帳技術ネタ帳

Datastore

自動スケーリングと高性能を実現し、アプリケーション開発を簡素化するように構築された NoSQL ドキュメント データベース

技術ネタ帳技術ネタ帳

Dataflow

Dataflowジョブは、二つの方法で停止することが可能です。

  • ジョブをキャンセルする:
    この方法は、ストリーミング パイプラインとバッチ パイプラインの両方に適用されます。ジョブをキャンセルすると、Dataflow サービスはバッファデータなどのデータの処理を停止します。
  • ジョブをドレインする:
    この方法は、ストリーミング パイプラインにのみ適用されます。ジョブをドレインすると、Dataflow サービスはバッファ内のデータの処理を完了すると同時に、新しいデータの取り込みを中止できます。
技術ネタ帳技術ネタ帳

Cloud Pub/SubとCloud Dataflowを使用することで、リアルタイムのイベント ストリームを取り込んで処理、分析し、価値の高い分析情報を得るためのパイプラインを構築することができます。

技術ネタ帳技術ネタ帳

gsutil -m(マルチスレッド / マルチ処理)オプションを利用することで、大量のファイルを迅速に転送できます

技術ネタ帳技術ネタ帳

Cloud Monitoring

ネットワーク接続、ディスクID、レプリケーションの状態などのカスタムメトリクスはデフォルトで収集することができません。

技術ネタ帳技術ネタ帳

Natural Language API

エンティティ分析を使用し、ドキュメント(メール、チャット、ソーシャル メディアなど)の中でフィールドを検索してラベルを付けることができます。
次に、感情分析を使用してお客様の意見を把握し、プロダクトとユーザー エクスペリエンスに関する実用的な情報を得ることができます。