😸

AI-900 メモ【Computer Vision】

2024/03/06に公開

やること

AI-900の受験の際に、勉強した際のメモです。
以下の範囲のLearnを対象としてます。

手法	概要
CNN (Convolutional Neural Networks)	長年にわたって画像分類問題の解決に一般的に使用されています。物体検出モデルなど、より複雑なコンピュータービジョンモデルの基礎にもなっています。
トランスフォーマー	自然言語処理 (NLP) で広く用いられるアーキテクチャです。大量のデータを処理し、言語の「トークン」（単語やフレーズ）をベクトルベースの「埋め込み」（数値配列）にエンコードします。これにより高度な言語モデルの開発が可能になります。
マルチモーダルモデル	トランスフォーマーの成功から発展したモデルで、画像データとテキストデータの両方を扱うことができます。大量のキャプション付き画像を学習データとし、画像から特徴を抽出（イメージエンコーダー）し、それをテキストの埋め込みと組み合わせます。

Azure AI Visionは、自分の画像を用いてカスタムモデルを作成することができる。
またAzure AI Visionには、Read APIがある。これを使えば、画像、PDF、TIFF ファイルからのテキスト抽出を行うことができる。

概要	説明
顔検出	人間の顔を含む画像の領域の識別を含み、一般的に "境界ボックス" の位置を返すことで、以下のように顔周りに長方形を形づくります
顔分析	顔の特徴を使用して機械学習モデルをトレーニングし、鼻、目、眉毛、唇などの顔の特徴などの他の情報を返すことができます。
顔認識	顔分析のさらなる応用は、顔の特徴から既知の個人を識別するために機械学習モデルを訓練することです。これは "顔認識" と呼ばれ、個人の複数の画像を使用してモデルをトレーニングします。これによりモデルがトレーニングされ、トレーニングされていない新しい画像内の個人を検出できるようになります。

機能	説明
Azure AI Vision	顔を検出するほか、画像の周囲の境界ボックス座標を返すなど、基本的な項目について顔を分析します
Azure AI Video Indexer	ビデオ内の顔を検出して特定するために使用できます
Azure AI Face	顔を検出、認識、分析できる事前構築済みのアルゴリズムが備わっています。これらのうち、Face では最も広範な顔分析機能が提供されます

株式会社ヘッドウォータースのテックブログです。 AIエージェント、生成AI、LLM、Azureのサービスや資格、IoT、XR系などData&AIとApp modernizeに関して幅広く投稿します！