Azure Open AI超超基礎をまとめてみたよ!
本記事に関して
対象読者:Azure Open AI初心者、OpenAIって何ぞやと感じている人に向けて
概要
AzureOpenAIを触ることになったのですが、用語理解・概念知識がほぼない状態だったので、記事にしてみました!(自己整理のためにも記事にしました)
メインで参考にしているのはMicrosoft認定資格AI-900: Microsoft Azure AI Fundamentalsです!
Azure情報は公式サイト以外では、結構少ないという印象、、、(AWS関連書籍はいっぱいあるのに、、、)
今後増えていくことを切に願います!
個人的にMS-Learnは日本語に若干の違和感を感じる部分もあるので、全体把握につとめて、細かな部分は業務で出てきたときに調べるということで学習に対するハードルを下げようかなというマインドです
本記事ではAIを理解するために必要な超基礎レベルの用語、概念 を整理しました。
AIの基礎知識
AIやAzureOpenAIが初めてた方々に向けての用語を整理してみました。
私自身の整理にもなるので、ご参考までに!
基礎単語
用語 | 説明 |
---|---|
人工知能(AI) | コンピュータが人間の知能を持つように作られた技術。機械が学習し、判断を下すことができる |
生成AI | ニューラルネットワークというモデルを使って大量のデータを学習。大量データをパターン化し、そのパターンに基づいて新しい出力を生成する |
機械学習 | コンピュータがデータを学習し、その経験からパターンを認識し、予測を行う技術 |
ニューラルネットワーク | 人間の脳の構造を模倣した計算モデル。多層構造を持ち、複雑なデータを処理できる |
ディープラーニング | ニューラルネットワークを用いた機械学習の一分野で、特に多層のニューラルネットワークを使用してデータを処理する |
トレーニング | 機械学習モデルにデータを与えて学習させるプロセス |
データセット | 機械学習モデルをトレーニングするために使用されるデータの集合 |
アルゴリズム | 特定の問題を解くための手順や計算方法 |
モデル | データから学習し、予測や分類を行うための数学的な構造 |
過学習 | モデルがトレーニングデータに対して過剰に適合し、新しいデータに対してうまく機能しない状態 |
汎用性 | モデルが新しいデータに対しても良好にパフォーマンスを発揮する能力 |
大規模言語モデル | 多量のテキストデータを学習し、文章の生成や質問応答などを行うモデル |
自然言語処理 | 人間の言語を理解し、生成するための技術。テキストの解析や翻訳、感情分析なども含まれている |
OpenAIとは
ソフトバンク株式会社の用語解説より引用させて頂きます(個人的にこれがしっくり来ました)
OpenAIは、人工知能(AI)の研究と開発を行うアメリカの企業であり、最先端のAIモデルを提供しています。OpenAIは、自然言語処理、画像認識、機械学習などの分野で広範な活動を行っています。その中でも最も有名なのは、GPT(Generative Pre-trained Transformer)シリーズです。
個人的理解は「オープンソースで利用することが可能で、OpenAIはAPI(Application Programming Interface)を提供しており、開発者はGPTを自分のアプリケーションに統合することが可能。より詳しく記載するとGPTなどのAIモデルは、APIを通じてさまざまなアプリやウェブサイトから利用可能。例えば、OpenAIAPIを使用し、自分の作ったアプリにAIの文章生成機能を組み込むことなどが想定できる」という感じになります。APIキーが必要になりますが、開発できる機能、ユーザーに対する様々なサービス展開が期待できます。
参考: OpenAI(オープンエーアイ)
Azure OpenAI Serviceとは
- 最初はサービス全体のイメージをつけることが良いと思います。
- Azure OpenAI ServiceはMicrosoft AIサービスの一部として構成されています
サービス一覧画像で全体像イメージを掴みましょう!
Microsoft AI Portfolio
また、MS-Learnでは以下のように記載されています。
Azure OpenAI Service では、GPT-4、GPT-4 Turbo with Vision、GPT-3.5-Turbo、埋め込みモデル シリーズなど OpenAI の強力な言語モデルに、REST API でのアクセスを提供します。 また、新しい GPT-4 と GPT-3.5-Turbo モデルシリーズは一般提供になりました。 これらのモデルは、特定のタスクに合わせて簡単に調整できます。たとえば、コンテンツの生成、要約、画像の解釈、セマンティック検索、自然言語からコードへの翻訳などです。 ユーザーは、REST API、Python SDK、または Azure OpenAI Studio の Web ベースのインターフェイスを介してサービスにアクセスできます。
個人的な理解も含めて少し噛み砕くと以下の通り
「AzureのOpenAIサービスでは、OpenAIの優れた言語モデルであるGPT-4やGPT-3.5-TurboなどをAPIで利用可能。言語モデルは、文章の作成や要約、画像の説明、プログラミングのコード生成など、さまざまなシーンで利用が可能。APIを介して、Webサイトやアプリ、ソフトウェアからこれらの機能・サービスに活用することが注目されている」
※Azure Open AIの利用するには認証が必要となり、申請を行う必要があります。
申請方法はAzure OpenAI Serviceサイトより確認が可能です。
取得したAzure OpenAI API Keyを利用し、インターネット上での使用、セキュアな環境でChatGPTと通信を行う場合にも、最適な選択と言えると思います。
一般的にオープンソースとして公開されているOpenAIをAzure上で安全な状態で利用をすることが想定できます
より理解を踏まえておくと良い用語集
理解を深めるのに知識として知っておくべき用語となります。
個人的に興味のある用語を抽出しました。
用語 | 説明 |
---|---|
検索インデックス | 検索エンジンが、ウェブページやファイルなどの文書を解析し、その内容の単語(語彙)とその出現位置、文書の関連付けをデータベース化したもの |
検索クエリ | ユーザーが検索エンジンに入力する検索語句のこと。検索エンジンはこのクエリに含まれるキーワードに基づいて、関連する情報を検索インデックスから検索を行う |
予測モデル | 機械学習において、過去の大量の学習データから特徴を抽出し、そのパターンから新しい未知のデータに対する予測や判断を行うための数理モデル。ニューラルネットワークや決定木、サポートベクターマシンなど、様々なモデルの種類がある |
教師あり学習 | 機械学習の手法の一つ。学習に使うデータセットには、各データに対する「正解ラベル」または「目標値」が付与されている。モデルに対しこれらの正解を教師として学習をさせる |
教師なし学習 | 正解ラベルが無いデータセットから、モデル自身がデータの内在する特徴やパターンを自動的に見つけ出して学習する機械学習の手法。クラスタリングや次元削減、特徴抽出などに用いられる |
回帰 | 教師あり学習の代表的なタスクの一つ。連続的な数値や量を予測する問題で、株価や気温の予測、需要予測などが該当する。予測値と実際の値の誤差を最小化するようにモデルに学習させるのが特徴 |
分類 | 教師あり学習のもう一つの主要なタスク。与えられたデータを複数のカテゴリー(クラス)に割り当てることが目的。画像認識や文書カテゴリ分類、スパム判定など、様々な分野で活用 |
クラスタリング | 教師なし学習の代表的な手法。与えられたデータを、データ同士の類似度に基づいて自動的にグループ分け(クラスター化)する。データの構造を発見したり、セグメント分けに利用 |
トークン化 | テキストデータをトークンと呼ばれる小さな単位に分割 |
ハルシネーション | 人工知能(AI)モデルが学習データにはない内容を出力する現象 |
ゼロショットラーニング | 事前に学習したモデルを、データ追加することなく、新しいタスクに転用する機能のこと。柔軟性が高く、様々な用途に活用可能 |
フューチャープルーフィング | システムの出力の品質と信頼性を高めるプロセス。出力を検証し、望ましくない内容をフィルタリングするなどの処理が含まれる |
プロンプトエンジニアリング | 大規模言語モデルに適切なプロンプト(入力文)を設計することで、モデルの出力を制御する技術。効果的なプロンプトの設計が重要 |
コンスティチューションAI | AIシステムに人間の価値観や倫理観を組み込もうとする取り組み |
マルチモーダル | テキストだけでなく画像、音声などさまざまなモダリティ(様式)のデータを扱えるAIモデル。GPT-4がマルチモーダル対応 |
最後に
AI関連は日々情報が更新されていきますので、日々の情報収集が欠かせません。
初学者の方々の学びの一助になれば幸いです。
Discussion
わかりやすいです!