AWS Certified Machine Learning – Specialty_勉強メモ(3日目)
はじめに
標記の試験に向けた勉強メモ(3日目)です。
勉強メモ
・kinesis Data Firehoseは、ストリーミングデータをデータストアや分析ツールにロードする最も簡単な方法。データをキャプチャして、S3、Redshift(データウェアハウス)、Elasticsearch serviceなどにロードするために必要となるインフラやストレージなどをすべて管理する。
・QuickSightは、S3から直接データを読み取ることが可能。
・Glueは、分析、機械学習、アプリケーション開発のためのデータの検出、準備、結合を容易にするサーバーレスデータ統合サービス。(数分で使用開始可能。)
・Glue ETLジョブでは、データを書き込むのに15分の遅延が発生する。
・Object2Vecを使用すると、意味的に類似するオブジェクトを検索できる。(重複する質問を特定したい時などに使用)
・BlazingText Word2Vecでは、意味的に類似した単語のみを検索できる。
・Elastic File System (EFS) は、サーバーレスで完全に伸縮自在なファイルストレージを提供するように設計されており、ストレージ容量やパフォーマンスのプロビジョニングまたは管理なしでファイルデータを共有することを可能にします
・Kinesis Data Analyticsは受信ストリームデータを直接取り込むことができない。(Kinesis Data Streamsなどを介すことが必要)
・Kinesis Data AnalyticsはデータをEFSに直接書き込むことができない。
・EMRは、AWS上でのApache HadoopやApache Sparkなどのビッグデータフレームワークの実行を簡素化し、膨大な量のデータを処理および分析するマネージドクラスタープラットフォーム。(用途に合わせて、Apache HiveやApache Pigの使用も検討する)
・バッチサイズは、1回の反復で使用されるトレーニングサンプルの数のこと。
・転移学習モードでは、ネットワークは事前にトレーニングされた重みで初期化され、最上位の完全に接続された層だけがランダムな重みで初期化される。
・増分(インクリメンタル)トレーニングは、前回のトレーニングでは考慮されていなかった、モデルのパフォーマンスが低下した基礎となるパターンを含む拡張されたデータセットを使用して、新しいモデルをトレーニングする際などに用いる手法。(単純に定期的に生成される新しいデータで、モデルをアップデートしたい場合にも使用)
・MICE(Multiple Imputation by Chained Equations)は、欠損値を補完するための統計的手法の一つ。欠損値のないレコードを学習データとして使用し、モデルを作成する。作成したモデルを欠損値を含む行に適応させ、出力された値を補完値とする。
実装例:https://www.kaggle.com/code/residentmario/simple-techniques-for-missing-data-imputation/notebook
参考
Discussion