AWS Certified Machine Learning – Specialty_勉強メモ(1日目)
はじめに
今月末に標記の試験を受けようと思うので、大事そうなところのメモを残しておきます。
勉強メモ
・S3内のデータをSOLクエリを使用して分析したい時
-Athena:S3に格納されたデータに対してクエリを実行できる。
-Kinesis Data Analytics:S3に格納されたデータに対してクエリを実行できない。
・データ量が多すぎて、Athenaの実行速度が遅い時
-データをApache Parquet形式で保存する。
・AWS Batchとは?
送信されたバッチ ジョブの要件に基づいて、最適な量とタイプのコンピューティング リソースを動的にプロビジョニングする。また、障害が発生した場合でもジョブを継続的に実行できる自動再試行メカニズムも提供。
・S3の種類
-S3 Standard:
-S3 Standard-IA:アクセス頻度の低いデータ用(すぐにダウンロード可能)
-S3 Glacier Deep Archive:使わなくなったデータの保存(すぐにダウンロードできない)
・AWS Step Functionsとは?
AWS Lambda 関数と複数の AWS サービスをビジネスクリティカルなアプリケーションに簡単にシーケンス化できるサーバーレス関数オーケストレーター。
・高価な GPU ベースのインスタンスに支払うことなく、推論ワークロードを加速したい時
-Elastic Inferenceを使用する(TensorFlow、Apache MXNet、PyTorch、および、ONNXモデルをサポート)。
・Term Frequency - Inverse Document Frequency (TfIdf)とは?
-テキスト データを機械学習モデルに渡すことができる数値表現に変換するために使用されるアルゴリズム。最初の関数 (Term Frequency) は、コーパスに属する文に単語が出現する頻度をカウントする。2番目の関数 (Inverse Document Frequency) は、単語がコーパス全体に出現する頻度をカウント。
・AWS Panoramaとは?
機械学習アプライアンスおよびソフトウェア開発キット (SDK) であり、コンピュータ ビジョンをオンプレミスのカメラに導入して、高精度かつ低レイテンシーでローカルに予測を行うことができる。
・顧客が他の顧客の製品の好みとの類似性に基づいて購入する可能性が高い製品を予測するレコメンデーションシステムを作成したい時
-Amazon EMR で Apache Spark を使用して、協調フィルタリング推奨エンジンを作成する。
・モデルのトレーニングに費やす時間を減らしたい時
-トレーニングデータセットをprotobuf recordIO形式に変換し、SageMakerのパイプモードを使用してモデルをトレーニングする。パイプモードでは、S3から直接データをストリーミングするため速くなる。
※ Apache Parquet 形式ではパイプモードを使うことができない。
・AWS Data Pipelineとは?
様々な、AWS コンピューティングサービスとストレージサービス、およびオンプレミスのデータソース間で、指定された間隔でデータを確実に処理および移動するのに役立つウェブサービス。このサービスを使用することで、保存されているデータに定期的にアクセスし、大規模に変換して処理し、その結果を Amazon S3、Amazon RDS、Amazon DynamoDB、Amazon EMR などの AWS のサービスに効率的に転送できる。
・Synthetic Minority Oversampling Technique (SMOTE)とは?
置換によるオーバーサンプリングではなく、「合成」例を作成することによってマイノリティ クラスをオーバーサンプリングするオーバーサンプリング アプローチ.
参考
Discussion