AWS Certified Machine Learning – Specialty_勉強メモ(6日目)
はじめに
標記の資格試験に向けての勉強メモです。
勉強メモ
・IP Insightsアルゴリズムはトレーニングデータとして、CSVファイルのみをサポートする(parquetや RecordIO-protobufは使用不可能)。
・推論パイプラインモデル内では、Amazon SageMaker は呼び出しを一連のHTTPリクエストとして処理する。
・コスト効率良く速くトレーニングジョブを完了するためにおすすめの方法
→ データ形式をprotobuf RecordIO形式に変換し、パイプモードを使用する(S3からデータをストリーミング可能)。
・SageMakerアルゴリズムのうち、増分トレーニングをサポートしている組み込みアルゴリズムは、オブジェクト検出アルゴリズム、画像分類アルゴリズム、セマンティックセグメンテーションアルゴリズムの3つだけ。
・/home/ec2-user/SageMaker フォルダー内に保存されたファイルとデータのみが、ノートブックインスタンスのセッション間で保持される。
※ このディレクトリの外に保存されたファイルとデータは、ノートブックインスタンスが停止して再起動されるときに上書きされる。
・パブリックインターネット経由で接続する代わりに、Virtual Private Cloud (VPC) のインターフェイスエンドポイントを介して、VPCからノートブックインスタンスに接続可能。
・プライベートサブネット内のインスタンスは、パブリックサブネット内にあるネットワークアドレス変換(NAT)ゲートウェイを使用してインターネットにアクセス可能。
・Glueジョブは出力をRecordIO-protobuf形式で書き込むことができない。
・Sagemaker Linear Learner アルゴリズムの自動モデル調整を使用すると、線形学習器の内部調整メカニズムが自動的にオフになる。これにより、並列モデルの数、num_modelsが1に設定される。
・L1正則化は、モデル内の特徴の数を完全に減らすもの。
→ 「L1正則化を減らす」とは、モデル内により多くの特徴を保持し、それによってバイアスを取り除くことである。
・L2正則化は特徴の重みを単に削除するのではなく「調整」する。
・modeは、SageMaker BlazingTextアルゴリズムのWord2Vec(教師なし)モードとテキスト分類(教師あり)モードの両方で唯一必須のハイパーパラメータ。
・SageMaker K-meansアルゴリズムの必須ハイパーパラメータ
→ feature_dim(入力データ内の特徴の数)、k(必要なクラスターの数)
・Redshift Spectrumを使用すると、データをRedshiftテーブルにロードすることなく、S3内のファイルから構造化データおよび半構造化データを効率的にクエリして取得可能。
・EMRおよびGlueベースのETLジョブは、Redshiftでデータをクエリする必要があるたびにジョブを呼び出す必要があるため、実用的ではない。
※ クエリが完了したら、コストを節約するためにそのデータを再度削除する必要がある。
・DynamoDBではSQLクエリを使用できない。
・ハイパーパラメータは検証セットに対して調整する必要がある。
・価格がサイズによって異なる場合等は、カテゴリカルエンコーディングを実行する必要がある。
・分散が低い特徴は、モデルがターゲットラベルを予測することを学習するのに寄与しないため、削除する。
参考
Discussion