😸
AI-900 メモ【Computer Vision】
やること
AI-900の受験の際に、勉強した際のメモです。
以下の範囲のLearnを対象としてます。
画像認識の手法
手法 | 概要 |
---|---|
CNN (Convolutional Neural Networks) | 長年にわたって画像分類問題の解決に一般的に使用されています。物体検出モデルなど、より複雑なコンピュータービジョンモデルの基礎にもなっています。 |
トランスフォーマー | 自然言語処理 (NLP) で広く用いられるアーキテクチャです。大量のデータを処理し、言語の「トークン」(単語やフレーズ)をベクトルベースの「埋め込み」(数値配列)にエンコードします。これにより高度な言語モデルの開発が可能になります。 |
マルチモーダル モデル | トランスフォーマーの成功から発展したモデルで、画像データとテキストデータの両方を扱うことができます。大量のキャプション付き画像を学習データとし、画像から特徴を抽出(イメージエンコーダー)し、それをテキストの埋め込みと組み合わせます。 |
Azure AI Vision
Azure AI Visionは、自分の画像を用いてカスタムモデルを作成することができる。
またAzure AI Visionには、Read APIがある。これを使えば、画像、PDF、TIFF ファイルからのテキスト抽出を行うことができる。
顔分析の概要
概要 | 説明 |
---|---|
顔検出 | 人間の顔を含む画像の領域の識別を含み、一般的に "境界ボックス" の位置を返すことで、以下のように顔周りに長方形を形づくります |
顔分析 | 顔の特徴を使用して機械学習モデルをトレーニングし、鼻、目、眉毛、唇などの顔の特徴などの他の情報を返すことができます。 |
顔認識 | 顔分析のさらなる応用は、顔の特徴から既知の個人を識別するために機械学習モデルを訓練することです。 これは "顔認識" と呼ばれ、個人の複数の画像を使用してモデルをトレーニングします。 これによりモデルがトレーニングされ、トレーニングされていない新しい画像内の個人を検出できるようになります。 |
Azureでの顔分析の概要
機能 | 説明 |
---|---|
Azure AI Vision | 顔を検出するほか、画像の周囲の境界ボックス座標を返すなど、基本的な項目について顔を分析します |
Azure AI Video Indexer | ビデオ内の顔を検出して特定するために使用できます |
Azure AI Face | 顔を検出、認識、分析できる事前構築済みのアルゴリズムが備わっています。これらのうち、Face では最も広範な顔分析機能が提供されます |
Discussion