AI-900受験するので、受かるまでOpenしてます。
AI-900もよろしくお願いいたします。
機械学習モデルは、入力データからパターンや関係性を抽出し、未知のデータに対して分類や予測を行うコンピュータプログラムです。
これまでのコンピュータでは、「AであればB」というように一定のルールのもとに返答していましたが、あらかじめルールが設定されていない場合には応答することができませんでした。機械学習では、前もってルールをコンピュータに学習させることで、未知の入力データに対してもパターンに沿った回答を行うことができます。
データを使ってパターンやルール学習させたコンピュータのことを機械学習モデルと言い、機械学習の分野では一般的に”モデル”とだけで呼ぶこともあります。
訓練データは、機械学習モデルを構築するためにコンピュータを学習させるために用いるデータです。モデルは訓練データからパターンを学習し、未知のデータに対しての予測や分類を行います。
通常、訓練データでモデルを訓練させ、評価データを使ってモデルが本当に正しく予測できるのかを確認します。
AIシステムのバイアスは、訓練データに含まれる偏りによって引き起こされることがあります。AIシステムの判断は訓練データに基づくため、学習データが偏っていると判断も偏ります。
多様なリソースからデータを収集したり、分布が偏っていないデータセットを使ってモデルを訓練することで、バイアスの少ないAIシステムを構築することができます。
アルゴリズムの複雑さは、モデルがデータからどのようにパターンを学習するか、またはデータをどのように適合させるかに影響を与えますが、それ自体がバイアスを引き起こす要因ではありません。
ユーザーの技術スキルは、AIシステムの判断に直接影響を及ぼすものではありません。
AIの処理速度は、AIが判断を出す速度を決定しますが、判断内容自体にバイアスをもたらす要因ではありません。
過学習は、機械学習モデルが訓練データに対して過剰に適合してしまい、未知のデータに対する予測性能が低下する減少です。
訓練データが十分に足りていなかったり、複雑なモデルである場合、モデルは訓練データの細かい特徴まで過剰に学習してしまうことがあります。その結果、未知のデータに対しても学習した不必要な法則を適用してしまい、予測性能を低下させてしまうといったことが発生します。
過学習は、機械学習モデルが訓練データに過剰に適合したために、未知のデータに対して予測精度が下がってしまう現象です。
過学習を防ぐため、下記の方法が有効です。
- データを訓練データと評価データに分割する。
モデル構築に使用するデータを訓練データと評価データに分割することで、訓練データでモデルを学習後、評価データでモデルの評価およびチューニングを行います。それによりモデルの汎用性を高め過学習を抑制することができます。
- 適切なモデルの複雑さを選択する
モデルが複雑であればあるほど、過学習が起こりやすくなります。適切なモデルの複雑さを選ぶことが大切です。
- データの量を増やす
学習データの量が多いほど、モデルがデータの本質的なパターンを捉えやすくなり、過学習を抑制することができます。
- 同じデータで繰り返し学習を行わない
同じデータで繰り返しモデルの学習を行うと、不必要な細かいデータの特徴まで学習してしまい、結果として過学習を助長することになってしまいます。多様性のあるデータを使ってモデルを学習させることが重要です。
機械学習では、訓練データでモデルを学習させた後、評価データを使ってモデルが過学習しているか判断することが重要です。訓練データとは独立したデータセットを使用することで、未知のデータに対してモデルがどの程度の性能なのか評価することができます。
訓練データと同じデータを使用すると、モデルが過学習している場合でも気づくことができません。
分布が偏ったデータでは、特定のデータにモデルが適合してしまい、未知データへの性能が低下してしまいます。訓練データと同様の分布のデータで評価する必要があります。
訓練データの一部をランダムに選択したデータを使うと、モデルは既にそのデータを学習しているため、性能評価の際に過剰に楽観的な結果が得られることになり、実際の性能を正確に評価することができません。
機械学習モデルを構築するために使用されるデータ(データセット)は、下記の3つに分割されます。
・訓練データ
モデルを学習させるために使用され、パターンや関係性を抽出する。学習データと呼ばれることもあります。
・評価データ
訓練データで学習されたモデルを評価し、過学習を抑止するようにチューニングを行います。これによりモデルのパフォーマンスを向上させることができます。
・テストデータ
評価データでモデルを評価したのち、最終的な評価を行います。評価データと違ってテストデータではチューニングは行いません。
データの分割については下図のように、モデルを構築するために使用するデータセット(データの集合)を訓練データと評価データ、テストデータへと分割します。
機械学習の特徴(Feature)は、モデルの入力として使用される変数や属性のことを指します。
例えば、病気の診断を行う機械学習モデルを構築する場合、患者の”年齢”や”性別”、”病歴”などはデータの特徴(Feature)として扱われます。
モデルは特徴を入力値として評価し、それをもとに患者が”風邪”や”呼吸器疾患”など、特定の病状を出力値として分類していきます。”風邪”や”呼吸器疾患”などの値は機械学習ではデータのラベル(Label)とされます。
機械学習においてデータのラベル(Label)とは入力データに対する出力データ(正解データ)を指します。
受信したメールを分類する機械学習モデルにおいては、メールがスパムか正常かを示すラベルが必要になります。
本設問では、メールの件名や本文の内容、差出人のアドレスがデータの特徴(入力値)となり、モデルはそれを基にメールがスパムメールか正常メール(出力値)かを判断します。
教師あり学習は、特徴とラベルが与えられたデータを用いてモデルを学習させる機械学習の方法です。
猫か犬かを分類する教師あり学習を使った機械学習モデルでは、学習データとして猫の画像には”猫”というラベルを、犬の画像には”犬”というラベルを付与します。
学習データでモデルを訓練させた後は、評価データでモデルの精度を測定します。正しく犬か猫かを分類できるかの予測精度を評価します。
教師あり学習は、特徴とラベルが与えられたデータを用いてモデルを学習させる機械学習の方法です。
猫か犬かを分類する教師あり学習を使った機械学習モデルでは、学習データとして猫の画像には”猫”というラベルを、犬の画像には”犬”というラベルを付与します。
学習データでモデルを訓練させた後は、評価データでモデルの精度を測定します。正しく犬か猫かを分類できるかの予測精度を評価します。
機械学習の教師なし学習では、特徴のみが付与されラベル付けされていない学習データでモデルの訓練を行います。
教師あり学習ではデータを複数のラベルに分類を行いましたが、教師なし学習では類似した特徴を持つデータのグループ分けを行います。
データ自体に潜在するパターンや相関性を見つけ出すことができ、大量のデータから構造や特徴を発見する際に有効な手法です。
チャットボットでは、自然言語処理(NLP)を活用してユーザーとの自然な会話を行うことができます。
サポート業務や顧客対応などのビジネス分野で利用されており、ユーザーからの問い合わせ対応だけでなく、商品検索・購入の案内や予約の受付などにも活用されています。
分類は、未知の入力データに対して適切なラベルを割り当てることを目的とした機械学習の分析手法です。
機械学習におけるラベルとは、データに関連づける正解を表す目的変数を指します。例えば、猫か犬の画像を分類する機械学習モデルの場合、モデルは画像内の動物を判断し、与えられた画像データに対して”犬”か”猫”のラベルを割り当てます。
クラスタリングは、データを類似した属性を持つグループに割り当てる分析手法です。分類と違って学習データにラベルは与えられておらず、データ間の共通点を見つけ出すことで似たようなデータをグループにまとめます。
例えば、消費者の購買履歴やアンケートなどのデータを使って、商品の好みが似ている消費者を同じグループにまとめたりすることができます。データがどのような特徴を持つのか把握するために利用されます。
回帰は、過去のデータを使って、新しいデータに対して数値を予測する分析手法です。
教師あり学習の一つであり、特徴とラベルを与えたデータを使って機械学習モデルを構築し、未知のデータに対して数値を予測します。
例えば、不動産価格を予測する場合には、不動産の面積や部屋数、築年数、建物の状態などをデータの特徴としてモデルを構築し、不動産価格(数値)を予測することができます。
異常検知は、通常のパターンから大幅に逸脱したデータを検出することを目的とした分析手法です。
工場などで利用される機械の故障のサインを検出したり、ユーザーの通常とは異なったサインイン行動からアプリケーションへのアクセスを制限したりすることができます。
その他、金融取引の不正行為の検出や医療機器の異常検出など多くの分野で応用されており、目的に合わせてさまざまなアルゴリズムが使われています。
またモデル構築には教師あり学習、教師なし学習のどちらの手法も使用することができます。
Azure Machine Learning(Azure ML)は、クラウドベースの機械学習プラットフォームであり、専門的な知識を有していないユーザーであってもGUIで容易に機械学習モデルを構築できます。
機械学習モデルの作成にはAzure Machine Learning Studioが用意されており、ノーコードでグラフィカルな分析モデルを作成することが可能です。
Azure Machine Learning とは - Azure Machine Learning | Microsoft Learn
Azure Applied AI Servicesは、特定のビジネス向けに最適化されたAzureのAIサービスであり、特定のシナリオに従った処理に適しています。
Azure Cognitive ServicesのAPIの上に構築されており、下記のサービスが用意されています。
・Azure Form Recognizer
ドキュメントからテキストや値を読み取る。
・Azure Metrics Advisor
データの監視と時系列データの異常検出を行う。
・Azure Cognitive Search
音声や画像などのデータの検索を行う。
・Azure Immersive Reader
テキスト読み上げや辞書機能などでユーザーの読解力を高める。
・Azure Bot Service
ユーザーと自然言語での対話を行う。
・Azure Video Analyzer
ビデオの分析を行う。
Azure Applied AI Services とは - Azure Applied AI Services | Microsoft Learn
Azure Applied AI Services を使用する理由 - Azure Applied AI Services | Microsoft Learn
Azure Cognitive Servicesは、見る・聞く・話す・分析するといった認識(Cognitive)機能を提供するAIサービスです。
既に学習済みの機械学習モデルを利用でき、アプリケーションへ統合することで容易に利用できます。
Azure Cognitive ServiceではAPIを使用しており、以下のサービスが提供されています。
・視覚(Vision API)
・音声(Speech API)
・言語(Language API)
・決定(Decision API)
・検索(Search API)
Azure Machine Learningでは、トレーニングデータを準備したりモデルのトレーニングを行う必要がありますが、Azure Cognitive Servicesでは機械学習モデルを構築する必要はなく、開発済みのAIサービスを素早く活用することができます。
Azure Cognitive Services とは - Azure Cognitive Services | Microsoft Learn
下記の要件を満たすAzureのAIサービスはどれですか。
・様々なシナリオに対応するチャットボットを作成し管理する
・TeamsやFacebookなど異なるプラットフォームに展開する
Azure Cognitive Servicesでは、視覚(Vision)APIとして以下の3つのサービスを提供しています。
・Computer Vision
事前に訓練された機械学習モデルを使用して、画像内のテキストやオブジェクトを読み取る。
・Custom Vision
ユーザー独自のデータセットを使用して、機械学習モデルを構築し、画像内のテキストやオブジェクトを読み取る。
・Face
画像や動画から顔を検出・認識し分析する。
Computer Visionでは、光学式文字認識 (OCR)で画像からテキストを抽出したり、画像内の人や物をカテゴリーで分類し、説明文を生成するといったことが可能です。
Computer Visionの主な機能は以下になります。
音声テキスト変換(Speech-to-text)では、録音またはリアルタイムで発せられたユーザーの言葉をテキストに変換します。この機能は、自動文字起こしや音声入力などを行うアプリケーションやサービスにおいて幅広く利用されています。
音声サービスとは - Azure Cognitive Services | Microsoft Learn
QnA Makerは、企業内で蓄積された知識や情報のデータベース(ナレッジベース)を基に、ユーザーからの質問に対して自動的に回答するサービスです。他のAzure Cognitive Servicesの機能やAzure Bot Serviceと連携することで、音声アシスタントやチャットボットのようなアプリケーションを構築することができます。
ranslatorは、入力されたテキストをリアルタイムで翻訳するサービスです。
100以上の言語をサポートしており、元のドキュメント構造とデータ形式を維持しながら言語間でテキストを翻訳することができます。
言語(Language API)には下記の機能があります。
Language Understanding(LUIS)は、ユーザーが入力したテキストや音声データ(=発話)から意図とエンティティを抽出することで言語の内容を理解するサービスです。
”発話”は、ユーザーからチャットボットやアプリケーションに対して入力される自然言語の入力のことです。例としては、「明日の天気は何ですか。」という入力ではこの文自体が発話となります。
”意図”は、ユーザーの”発話”に含まれる目的のことです。例えば、「明日の天気は何ですか。」という発話の”意図”は「天気の情報を取得する」となります。
”エンティティ”は、”発話”に含まれる特定の単語やフレーズのことで、”意図”を実行するために必要な重要なデータです。例えば、「明日の天気は何ですか。」という発話の”エンティティ”は「明日」となります。
チャットボットを使った会話型インターフェイスを構築する際には、Language Understanding(LUIS)を使ってユーザーの意図を抽出し、QnA Makerを使ってナレッジベースのデータベースから適切な回答を提供するなどといった使い方をすることができます。
Text Analyticsは、テキストを解析し感情やキーフレーズを抽出するサービスです。TwitterやFacebook上の投稿に対してポジティブかネガティブかを数値化したり、ニュース記事やオンラインメディアの内容から最近の傾向やトピックなどを特定することができます。
Text Analyticsには下記のような機能があります。
Azure Machine Learning デザイナーは、機械学習を容易に利用することができる機械学習開発環境です。
プログラミングなどの専門知識なくてもグラフィカルユーザーインターフェース(GUI)で、モデルの設計、トレーニング、デプロイを行うことができます。
Azure Bot Serviceは、チャットボットの構築、運用を支援するサービスです。
自然言語理解(NLU)や音声認識などのAI技術を組み込むことができ、Microsoft TeamsやSlack、Facebookなどの様々なサービスに展開することも可能です。
ナレッジベースで回答を提供するサービスQnA Makerと、言語理解のためのLanguage Understanding(LUIS)をAzure Bot Serviceに組み込むことでチャットボットを構築することができます。
Azure Form Recognizerでは、光学式文字認識 (OCR)を使用して様々な種類の文書からデータを自動的に抽出する機能です。
Azure Applied AI Servicesのサービスの1つとして業務特定の問題を解決するためにカスタマイズされており、請求書から請求先、請求日、金額などを自動的に抽出するなどして処理することができます。
Form Recognizer – 自動データ処理システム | Microsoft Azure
Microsoftの責任あるAIの基本原則の一つである「公平性」では、AIシステムが利用者や顧客に対して偏見や差別を引き起こさないように、開発者や運用者は配慮するべきであるとしています。
奨学金やローンの審査においてAIシステムを利用する場合、AIシステムが学習するデータにバイアスが存在すると、そのバイアスがシステムの判断にも反映されることがあります。
このような問題を解決するために、AIシステムの開発者や運用者はデータのバイアスを修正したり、公平性を考慮したアルゴリズムを用いるなどする必要があります。
Microsoftの責任あるAIの基本原則の一つである「信頼性と安全性」では、AIシステムが当初の設計通りに動作し、予期しない状態にも安全に対応し、有害な操作を排除する必要があるとしています。
例えば、医療診断や金融取引のAIシステムが誤った判断をしてしまった場合、人々の健康や財産に重大な損害をもたらす可能性があります。
このような問題を防ぐため、AIシステムの開発者や運用者はシステムのテストと検証を十分に行ったり、データセキュリティ対策を強化するなどして事後のリスクを最小限に抑える必要があります。
Microsoftの責任あるAIの基本原則の一つである”プライバシーとセキュリティ”では、AIシステムにおいて個人情報の保護とセキュリティを最優先に考慮するべきであるとしています。
AIシステムのセキュリティが不十分だと、個人情報が第三者に漏洩したり、悪意のある攻撃者によるサイバー攻撃が発生する可能性があります。
AIシステムの開発者や運用者は、ユーザーからのデータ収集や利用に関する透明性を確保し、収集したデータは暗号化やアクセス制御をなどのセキュリティ対策を行う必要があります。
Microsoftの責任あるAIの基本原則の一つである”包括性”では、AIシステムが人種・性別・身体的障害の有無に関わらずできるだけ多くの人々のニーズに対応できることを目指しています。
身体に障害を持つ人々が利用しやすいよう、音声アシスタントや自動字幕起こしの技術を導入したり、異なる文化や言語のユーザにも不適切な結果をもたらさないよう配慮する必要があります。
できるだけ多くの人々に利益をもたらす必要があるという点で、責任あるAIの基本原則の”公平性”と似ていますが、”公平性”がAIシステムの結果が公正な結果や判断になるようシステム内部の透明性や説明責任に重きを置いているのに対して、”包括性”ではよりユーザーサイドでどれだけ多様な人々にAIシステムが対応しているかなどのアクセシビリティを評価しています。
Microsoftの責任あるAIの基本原則の一つである”透明性”では、AIシステムの意思決定プロセスが明瞭で、AIシステムによる決定がどのように行われたかを人々が理解できる必要があります。
AIシステムで損害が起きた場合、開発者もしくはユーザーが責任を取る必要があります。AIシステムがなぜそのような判断をしたのかを把握し、場合によってはユーザーに情報を開示することが重要となってきます。
Microsoftの責任あるAIの基本原則の一つである”アカウンタビリティ(説明責任)”では、開発者や運用者が、AIシステムが行った決定や判断の責任を明確化し、論理的な基準や法規制に従って行動すべきであるとしています。
AIシステムを利用して損害が生じた場合には、開発者や運用者がその結果や影響に対して責任を持ち、問題解決のため適切な対応を行う必要があります。
”透明性”とも密接に関連しており、”透明性”がAIシステムの動作やプロセスなどシステム内部の理解可能性に重きを置いている一方で、”アカウンタビリティ”ではAIシステムの管理・結果責任が開発者、運用者にあることを強調しています。
ナレッジマイニングでは、機械学習や自然言語処理の技術を用いて、様々なデータソースから有益な情報や知識を抽出し、ビジネス上の意思決定や戦略立案に活用することができます。
組織内の様々なアプリケーションに散財している大量の情報の中から付加価値の高い情報を検索する場合、検索に多くの時間を割くこととなります。ナレッジマイニングでは、AI技術を使いデータ形式や格納場所とは無関係に迅速に付加価値のあるデータを抽出することができます。
Microsoftでは、ナレッジマイニングのサービスとしてAzure Cognitive Searchを提供しており、WordやExcelなどのテキストデータ、また画像データやHTMLなどの非構造化データも取り扱うことができます。
Azure Cognitive Search の概要 - Azure Cognitive Search | Microsoft Learn
生成AI(Generative AI)は、既存のデータセットから何らかのパターンを学習し、新しいデータやアウトプットを生成します。
ユーザーから入力された内容に基づき、文章生成、画像生成、音楽作成など様々な分野で応用されています。
生成AIの技術を応用したものとしてOpenAI社が開発したGPTがあり、GPTでは自然言語処理(NLP)技術を用いて、ユーザーの質問に対して文章を生成することで適切な回答を行います。
教師あり学習で機械学習モデルを構築する際、教師データをすべてモデルに学習させず、モデルを構築するための学習データと、学習モデルの正答率を評価するための評価データに分割する必要があります。
Azure Machine Learningには、データ分割のためのモジュールがあり、このモジュールを使用することで容易にデータを学習用や評価用のグループに分割することができます。また、グループ分割の際の割合を指定したりやランダム化などもサポートされています。
Microsoftは”責任あるAIの基本原則”の一つとして”プライバシーとセキュリティ”を掲げており、データの収集、使用、および保管に関する透明性の確保を保証しています。
AIシステムが個人情報を利用する場合には、ユーザーに対してどのような情報を収集し、どのように保存しているかを明確に伝えることが必要です。
ユーザーには、オプトイン(同意)やオプトアウト(拒否)などによって使用を許可するかどうかの選択ができるようにすることが重要です。
Azure Cognitive ServicesのSpeechには、Text-to-Speech(TTS)機能があり、テキストを音声に変換することができます。
コンピューターに表示されたテキストを音声変換したり、ナビゲーションアプリやAmazon Alexaのような音声アシスタントなどのサービスで応用されています。
画像分類は、画像内のオブジェクトを自動的に特定し、特定のグループやクラスに属するかどうかを判断します。ベンガルトラとホワイトタイガーは、同じ虎の種類ではありますが、毛色やストライプの色の違いから画像を分類することができます。
QnA Makerでナレッジベースにコンテンツを追加するには、ドキュメント形式のPDFやDOCなどが利用できます。また他にもExcelファイルやURLなど、様々なファイル形式をサポートしています。
Azure OpenAIのGPTモデルは自然言語処理に特化した機能であり、テキストの生成、要約、翻訳を行うことができます。
画像分類や音声認識は、画像処理や音声処理のタスクに関連し、GPTモデルでは行うことができません。
クラスタリングは、データの特徴を把握し、類似性の高いデータごとにグループ分けする分析手法です。
患者の年齢や性別、症状に基づいて類似したグループごとに分類するのはクラスタリングとなります。グループ化によって、患者の状態や症状のパターンを把握、特定することができます。
分類は、患者の状態が特定の”病気である”か”病気でない”かなど既知のカテゴリにデータを割り当てることを目的としています。
回帰は、データの入力値から数値を予測するための分析手法です。患者の症状や治療内容から治療費用を予測する場合には回帰を使用します。
Azure Cognitive ServicesのFaceは、動画や画像内の人物の顔を検出、認識、分析するサービスです。
帽子や眼鏡、マスクなどを人物がしていた場合も認識することは可能であり、信頼度スコアとして数値を返します。
感情についても喜び、悲しみ、驚き、恐怖などを信頼度スコアとして検出することができます。
顔の角度が変わっても顔の認識を行うことは可能です。
感情の分析を行うことはできますが、性格の診断を行うことはできません。
機械学習の分類モデルを使って、患者が病気になるかどうかを予測することができます。
「リンゴかオレンジか」「買うか買わないか」など、2つのグループのどちらに属すかを予測することを二値分類と言います。この手法を用いることで、患者の過去の病歴やリスクファクターといったデータを学習させたモデルを使用し、特定の病気になる可能性が高いか低いかを評価する学習モデルを作成することができます。
分類とクラスタリングの違いは?
具体的には、分類は教師あり学習なので、常にどのグループに所属するかの答えをもとに学習したモデルを使い、答えが未知のデータの所属先を予測します。 一方、クラスタリングは教師なしの学習で行うため、データのもとに特徴を学習した上でグループ分けをします。
Text Analyticsのキーフレーズ抽出では、ドキュメント内の重要な単語やフレーズを抽出し概要を把握することができます。
文章の要約や検索エンジンの最適化などに活用されています。
クラスタリング分析は、多数の個々のデータを特徴の似た集団として複数にグループ分けする手法のことです。
マーケティングの分野では多くの用途で利用されており、購買データや消費者アンケートなどをもとに消費者の傾向を見つけることができます。これによりサービスのターゲット層の設定や、新商品の開発につなげることができます。
異常検知は、正常なデータのパターンから逸脱した異常値や外れ値を自動的に検出するプロセスです。
データが学習済みの正常なパターンからどれだけ逸脱しているかを異常スコアとして評価し、スコアが設定された閾値を超えた場合、そのデータは異常として検知されます。
異常検知の技術は、品質管理やクレジットカードの不正利用、サイバーセキュリティの分野で広く利用されています。
責任あるAIの原則の一つである”公平性”では、AIシステムが偏見のない意思決定を行い、すべての人を公平に対応することを求めます。
大学の奨学金をどの学生に与えるかを評価するには、学業成績や課外活動、推薦状など多様な要素を指標として考慮する必要があります。性別や民族など、差別やバイアスの原因となる指標は、”公平性”の原則に反しており避けるべきです。
Microsoftの責任あるAIの原則の一つである信頼性と安全性は、AIシステムが本来設計されたとおりに動作し、ランダムな状況に対しても意図しない決断や操作を行わないことを保証しています。
予測を行う上で必要なデータが揃っていない場合には、不確実な予測を行わないことでAIシステムの信頼性と安全性を向上させます。
Azure Machine Learningは、機械学習のために必要なリソースやワークフローなどの機能を有したクラウドツールです。
学習モデルを構築するプロセスは、以下のようになります。
1.データの準備:モデル構築に必要なデータを収集し、学習に適した形式に変換する。
2.モデルのトレーニング:前処理したデータを使ってモデルをトレーニングする。
3.モデルの評価:別のデータセットを使用してモデルの正確性と性能を評価する。
4.モデルのデプロイ:実際のデータに対して予測を行うため、モデルをアプリケーションに統合する。
Language Understanding (LUIS)における”発話”は、ユーザーの入力した発言もしくはテキストのデータを指します。Language Understanding (LUIS)はユーザーの”発話”を受け取り、分析することで”エンティティ”を抽出し、”意図”を推測します。
本設問の場合、「本日の天気を教えてください。」はユーザーから入力された音声であり、発話となります。意図は、天気情報の取得であり、エンティティは「本日」となります。
設問の目的は、ローンを返済"できるか"もしくは"できないか"の二値変数となっており、分類の分析手法を使用するのが適切です。
二値変数を判断する分類では、商品が売れるかどうか、受信したメールがスパムメールかどうかなど、2つのカテゴリのどこに属すかを判定します。
Azure Cognitive Search は、アプリケーションに高度な検索機能を提供するクラウドベースの検索サービスです。
データのインデックス作成や検索、フィルタリングなどの機能を提供し、開発者が容易に検索機能を構築することができます。
検索のためのインデックスを作成し、アプリケーション内での検索を簡単に実装できます。Azure Cognitive Search を使用することで、ユーザーエクスペリエンスを向上させるリッチな検索機能を提供できます。
植物の個体数を予測するなど、数値の予測が必要な場合は、回帰が適しています。回帰では数値データからパターンや傾向を見つけ、新しい数値を予測することができます。
いくつかの複数の地域の植物の個体数を数値データとして収集し、そのデータから傾向を分析して他の地域の植物の個体数を予測することが可能です。
Microsoftの責任あるAIの原則の一つである”透明性”では、AIシステムの動作に関する情報を可視化し、ユーザーはAIシステムがどのように決定を行ったかを理解できるように設計すべきとしています。
AIシステムがどのようなアルゴリズムやデータを使用して判断したのかを分かりやすく開示され、判断プロセスを追跡・解釈できるようになっていることが求められます。
固有表現認識(NER)は、エンティティ認識の一種でテキスト内の特定の単語やフレーズを認識・識別する機能です。エンティティとは、文章から抽出される”人”、”場所”、”日時”、”イベント”などの名詞のオブジェクトを指します。
固有表現認識(NER)では、事前に定義したエンティティに分類することで、文章中にどのような事物が存在するかを理解したり分析することができます。
Azure Machine Learning デザイナーでは、ドラッグ&ドロップのインターフェースを使って機械学習ワークフローを構築することができます。
コーディングの知識がなくても、機械学習プロジェクトを迅速かつ簡単に実行することが可能です。
Azure Cognitive ServicesのCustom Visionは、画像や動画内の物体を分類・分析するサービスです。
ユーザーが自分自身のデータセットを使って独自のカスタムモデルをトレーニングすることができ、小売業者が商品画像を分類するモデルなどを構築することができます。
Computer visionでも同様の画像分類モデルを構築できますが、一般的な問題に対応したものとなり、特定の問題に最適化された問題に対してはCustom Visionのほうが精度が高くなります。
機械学習では、特徴とは予測に使用する情報であり、本設問では物件の広さと築年数がこれに当てはまります。
ラベルは予測する対象の値であり、不動産価格が正解です。
Azure Cognitive Servicesの音声(Speech)には、Text to Speechの機能があり、テキストを音声に変換するための高品質な自然音声合成を行うことができます。
Text-to-Speech機能では、視覚に障がいを持った方がテキスト情報にアクセスするのを支援することができ、電子書籍やWebサイト上のテキストコンテンツを読み上げることで情報へのアクセスの機会を増やします。
不動産価格などの数値を推定する場合、回帰モデルを使用することが適切です。
不動産の場所や建物の状態、市場の需給バランスなどの要因を回帰分析に組み込むことで、不動産価格を推定することができます。
AIの音声認識機能は、人間が話す言葉をテキストに変換する技術です。
動画の自動字幕起こし機能では、動画の音声をテキストに変換し、字幕として表示します。
Web会議のリアルタイム文字起こし機能では、会議中の発言をテキストに変換します。
Webテキストの自動読み上げ機能では、テキストから音声への変換が行われます。そのため、音声認識技術は使用されません。
テキストベースベースのチャットボットでは、自然言語処理(NLP)や自然言語理解(NLU)といった技術が使われます。こちらも音声認識技術は使用されません。
Computer Visionでは画像を分析し、人間が判読できる言語で内容を説明する語句を生成することができます。
Computer Visionの画像の説明では、画像に対して自動的に文章を生成し、画像を理解するうえで役立つ情報を提供します。画像内に写っている物体が何なのか、どのような背景なのかなど画像に関する情報を得ることが可能です。
画像の説明 - Computer Vision - Azure Cognitive Services | Microsoft Learn
Speechサービスの話者認識(Speaker Recognition)機能では、個々のユーザーの声をリアルタイムまたは録音された音声から特定、識別することが可能です。
コールセンターや営業の電話などで、顧客を認識したり分析するために使用することができます。
Form Recognizerは、レシートや請求書などのビジネス文書の自動認識やテキスト抽出を行う文書解析サービスです。
Form Recognizerでは、スキャンの際に読み取り文書が傾いてしまった場合や、読み取り位置がドキュメントによって変わっている場合でも問題なくデータを抽出することができます。
Microsoftでは、責任があり信頼できるAIのサービスを提供する上で不可欠な6つの”責任あるAIの基本原則”を挙げています。
透明性の原則では、AIの意思決定が理解可能であるように、アルゴリズムやデータを明示的にする必要があるとされています。
アカウンタビリティは、AIシステムが及ぼす影響や責任を認識し、インシデントが起こった場合には責任を取るべきであるとしています。
包括性は、意図しない差別を排除し、多様な人々が利用できるようなAIシステムを構築すべきとしています。
Anomaly Detectorは、Microsoftが提供する異常検出を行うサービスであり、時系列データからパターンを検出し、予期しない値や動きがあった際の急激な変化を発見することができます。
IoTデバイスの異常検出やクレジットカードの不正利用などの用途で使用できます。
Azure Machine Learningデザイナーは、ノーコードで機械学習モデルを構築することができるビジュアルツールです。機械学習モデルを構築するために必要なデータの前処理、モデルの選択、デプロイメントなど開発の各段階を視覚的なフロー図で構築できます。
モデル構築時には、ビジュアルキャンパス上にデータセットやコンポーネントをドラッグ&ドロップしてモデルを作成します。
データセットは、機械学習を行うためにプログラムで処理されるデータの集合体のことです。
コンポーネントは、データセットに対して実行できるアルゴリズムを指します。
回帰は、複数の変数に基づいて数値を予測するための分析手法です。
部屋数、敷地面積、築年数といった説明変数を基に住宅価格を予測することができます。
光学式文字認識(OCR)は、画像から印刷や手書きの文字を自動的に読み取り、テキストデータに変換する技術です。
Computer VisionのOCRを利用して、車のナンバープレート上の文字や数字を認識し、データとして抽出することができます。この技術は、警察の捜査や駐車違反の取り締まりなどに応用できます。
QnA Makerは、よくある質問(FAQ)とその回答をナレッジベースとして作成し、ユーザーからの質問に対して適切な回答をマッチングするサービスです。
QnA Makerでは、直接ナレッジベースにQ&Aを手入力で追加することができます。
QnA Makerのおしゃべり(Chit-Chat)は、ユーザーとのフリースタイルな対話に応答するための会話のデータセットです。一般的な会話に対応した回答を行い、より自然な形でコミュニケーションを取ることができます。
よくある質問(FAQ)が記載されているWebページのURLを指定することで、内容をデータソースとして利用することも可能です。
画像内の物体を長方形の領域ボックスで囲む技術は、物体検出技術になります。
Computer Visionの物体検出では、画像内の物体を領域ボックスで囲み、物体の位置を特定します。また物体に”猫”、”車”、”りんご”などのタグを付与し、どのような物体であるかを判別することができます。
Azure Bot Serviceは、チャットボットを作成するための統合開発環境です。機械学習アルゴリズムを使用してチャットボットをトレーニングすることができ、FacebookやLINEなどと接続することも可能です。
QnA Makerは、よくある質問(FAQ)とその回答をナレッジベースとして作成し、ユーザーからの質問に対して適切な回答をマッチングするサービスです。
上記2つのサービスを組み合わせることで、より効果的なチャットボットを構築することができます。
自然言語処理(NLP)は、人が入力したテキストをコンピューターに理解させ、処理するための技術です。
受信メールのテキストを解析し、重要な情報やキーワードからメールをカテゴリごとに分類したり、スパムメールとしてフィルタリングすることもできます。
クラスタリング分析は、多数の個々のデータを、特徴の似た集団として複数にグループ分けする手法のことです。大量のデータを大まかに分類することで単純化し、分析・考察を容易にすることができます。
顧客満足度調査では、類似の回答をした顧客を同グループに分類することで、各グループの特徴を分析し顧客のニーズや改善すべき点などを把握することが可能です。
顔検証は、2つの画像内の顔が同人物かを判断する技術です。2つの顔が同じ人物であるかを信頼度スコアで計算し、そのスコアが設定したしきい値を超える場合、2つの画像は同じ人物として判断されます。
機械学習モデルの特徴は、予測のために使用される入力変数であり、この場合体脂肪率と年齢になります。これらの特徴を使って、糖尿病の発症確率を予測する学習モデルを構築します。
糖尿病の発症確率は、予測の出力変数でありラベルとなります。
機械学習モデルでは、入力値として変数(Variables)や特徴(Features)が使われ、データを処理して予測や分類を行います。
特徴とはデータセット内の属性や指標であり、変数はその具体的な構成要素や値です。機械学習の文脈では、モデルにおける入力データとして同一のものとして扱われます。
ラベルは、予測や分類の対象となる出力データです。
データセットは、モデルの学習や評価に使用されるデータの集合です。
Azure Machine Learningデザイナーは、ビジュアルインターフェイスを使用して機械学習モデルを構築するためのツールです。
コーディングの知識がなくても、ドラッグ&ドロップでモジュールを接続し、容易にモデルを構築することができます。
使用するアルゴリズムやデータの準備のタスクは、ユーザー自身が選択・実行する必要があります。
AIのサービスコールとは、Webサービスを呼び出すためのAPIエンドポイントのことで、APIエンドポイントにリクエストを送ることで様々な機能を利用できます。
/translateは翻訳を行うAPIのエンドポイントで、テキストの翻訳を行います。from=やto=は翻訳元と翻訳先の言語を指定するためのパラメータです。
設問は、日本語(ja)のテキストをフランス語(fr)と英語(en)に翻訳するサービスコールです。
Computer Visionは、動画や画像の分析を行うサービスです。
Computer Visionの光学式文字認識 (OCR)は、画像内のテキストをデジタルテキストデータに変換することができます。ビジネスドキュメントや請求書、手書きの文書まで様々なコンテンツに対応しています。
Computer VisionのFaceには、顔の検出や認識などの機能があり、画像内に存在する顔の位置を検出したり、分析を行うことができます。
Cortanaは、Microsoftの人工知能アシスタントであり、自然言語処理を使用してユーザーと会話したり簡単なタスクを実行することができます。Cortanaはチャットボットの一種であり、ユーザーの質問に対して情報やサポートを提供します。
Microsoft Teamsは、チャットやビデオ通話の機能を有したビジネス向けコミュニケーションプラットフォームです。ボット機能を追加することで情報検索やチーム内でのコミュニケーションの効率化などを行うことができます。
自然言語処理(NLP)は、人が入力したテキストをコンピューターに理解させ、処理するための技術です。
自然言語処理(NLP)は、機械翻訳や感情分析、文書の分類など多くの用途で応用されています。キーフレーズ抽出機能を使って学術論文の要約を行うこともでき、論文の中から重要なキーワードや文章を特定することで内容を簡潔にまとめます。
Azure Cognitive ServicesのText Analyticsで利用できるキーフレーズ抽出は、自然言語処理(NLP)の技術を利用したサービスです。
包括性(Inclusiveness)とは、製品やサービスが多様なニーズに対応し、全ての人々に使いやすく設計されるべきだという原則です。これにより年齢、性別、身体的または精神的な障害、言語、文化、社会的背景など、様々な要因で特定のグループがテクノロジーの恩恵を受けられないような状況を避けることができます。Microsoftの責任あるAIのガイドラインでは、このような多様性を考慮に入れることが強調されています。
本設問では、開発チームがアプリが特定のグループを排除していないかを確認しようとしているのは、全ての人々がアプリケーションを利用できるようにするためです。これは包括性の原則に関連しています。
Microsoftは”責任あるAIの基本原則”の一つとして信頼性と安全性を掲げており、AIシステムが予期しない状態であっても安全に対応し、有害な操作は排除される設計を行なっています。
AIを使った車の自動運転においては、路肩の駐車車両や動物の飛び出しといった不測の事態にも対応する必要があります。このような状況にも柔軟に対応するため、信頼性と安全性では予期しない状況でも確実かつ安全に処理できるよう、システムの開発および展開段階で厳格なテストが求められます。
責任ある信頼された AI - Cloud Adoption Framework | Microsoft Learn
コールセンターにおいて、電話内容のテキストへの書き起こしを行い、顧客に関する分析を行いたいと思います。
どのAzure Cognitive Servicesのサービスを使用するべきですか。
Microsoftは”責任あるAIの基本原則”の一つとして”包括性”を掲げており、音声テキスト変換、テキスト読み上げ、および画像認識テクノロジを使用することで身体的に障害を持った人々も使用できるAIシステムの設計を心掛けるべきとしています。
”包括性”の原則には身体に障害を持った方だけでなく、様々な性的指向や文化的背景、宗教などの属性を持つ人々を考慮すべきとしており、多様性を意識したAIシステムの設計を行う必要があります。
固有表現認識 (NER)では、チャットボットで顧客が入力したテキストから注文の詳細や情報を自動的に抽出することができます。商品名や住所、名前を自動的に識別することで注文の処理時間を短縮させることが可能です。
公平性(Fairness)と包括性(Inclusivity)は、責任あるAIの文脈で重要な概念ですが、異なる側面を指しています。
公平性(Fairness):
定義: 公平性は、異なる個人またはグループに対して公正で均等であることを指します。つまり、機械学習モデルやAIシステムが異なる属性(性別、人種、年齢など)を持つ個人やグループに対して偏りのない結果を提供することを目指します。
問題点: 公平性の確保は、アルゴリズムやモデルがバイアスを持ってしまうことを防ぐために重要です。例えば、人種や性別に基づいた差別的な予測を行うことがないようにすることが求められます。
包括性(Inclusivity):
定義: 包括性は、異なる背景や属性を持つ全ての個人やグループを適切に考慮し、組み込むことを指します。これは、多様な視点やニーズを理解し、異なるユーザーに対して平等かつ十分なサービスを提供することを目指します。
問題点: 包括性の確保は、ある特定の属性や背景を持つユーザーに対してのみ最適化された結果を避け、できるだけ多くの利用者に対応できるようにすることを意味します。
これらの概念は密接に関連しており、公平性が包括性の一部であると考えることができます。包括的なアプローチは、多様なユーザーグループに対して公平であるだけでなく、異なるバックグラウンドを持つ人々が同じように利益を得られるようにします。したがって、責任あるAIの開発や運用では、これらの原則を組み合わせて考慮することが重要です。
Azure Machine Learning デザイナーでは、プログラミング言語を使用しなくてもモデルの開発が可能ですが、カスタムロジックを追加する際にはPythonやRといったプログラミング言語を使用することもできます。
QnA Makerのおしゃべり(Chit-Chat)は、ユーザーとのフリースタイルな対話に応答するための会話のデータセットです。
ProfessionalやFrendlyなどパーソナリティごとに定型の応答が用意されており、それぞれ約100のシナリオが用意されています。
音声合成技術は、文字や文章などのテキストを自然な音声に変換する技術です。
具体的な使用例としては、視覚障がい者のためのスクリーンリーダー読み上げ機能や、AmazonのAlexaやAppleのSiriなどの音声アシスタントで使用されています。
Azure Machine Learningを使用して分類モデルを構築する場合、最初のステップとしてデータの準備を行う必要があります。データセットの特徴とラベルと特定し、必要に応じてデータの事前処理、クリーニング、変換を行います。
データの準備ができたら、モデルのトレーニング⇒パフォーマンスの評価⇒予測サービスのデプロイの順に作業を行っていきます。
機械学習の”特徴”は、モデルが学習するための属性やパラメータのことであり、出力データを分類・生成する際の情報源となるものです。
りんごの大きさや色、形状は等級を判定する上で重要な変数となりデータセットの特徴となります。等級は、モデルが予測する出力変数(ラベル)です。
Webチャットは、ウェブサイトのユーザーとコミュニケーションを取るためにWebサイト上に組み込まれているチャットボット機能のことです。
ユーザーからの質問に対してリアルタイムで返答したり、コンサートチケットの購入やお店の予約など簡単なタスクを自動化することができます。
学生が、大学入試に合格”する”か”しない”かのような複数値の目的変数を求める場合は、分類が適切です。今回のように目的変数が2値の場合を二値分類、3値以上の場合は多値分類と言います。
Computer Visionは、動画や画像から情報を抽出・分析する技術です。物体認識や顔認識、光学式文字認識などの機能があり、アプリケーションへの統合も容易に行うことができます。
エンティティ認識は、テキスト内の特定の人物、場所、事物などを識別するプロセスです。
ニュース記事から、国や都市などの地理的なエンティティを指定して、その地域に関連する記事だけをフィルタリングすることができます。
キーフレーズ抽出は、テキスト内で重要な単語やフレーズを抽出する技術です。
感情分析は、テキストからポジティブ・ネガティブ・ニュートラルなどの感情を判定します。
スピーチ認識は、音声データから話者の発話内容を文字起こしを行います。
Microsoftは”責任あるAIの基本原則”の一つとしてアカウンタビリティ(説明責任)を掲げており、AIシステムの設計および開発者はそのシステムがどのように動作するのかについて説明する責任があるとしています。
またアカウンタビリティ(説明責任)では、「AI システムが最終権限ではないこと、および他の場合は高度に自律的な AI システムの有意な制御を人間が維持することが保証される」としており、人間が最終的に責任を持ち、必要に応じて修正すべきとしています。
Language Understanding (LUIS)の正規表現エンティティは、正規表現を使用して特定のパターンのテキストを識別します。正規表現は、テキストの中から特定のパターンを探し出したり、そのパターンに合致する部分を置換したりするためのツールです。具体的には、「ある種のルールに従った文字列」を見つける際に使用されます。
クレジットカードや電話番号を識別する正規表現は、以下のようになります。
クレジットカード:[0-9]{16} この正規表現は、0から9までの数字が連続して16桁あるものとマッチします。
電話番号:日本の場合、0\d{10} などとすることで、0で始まる10桁の数字とマッチさせることができます。
正規表現エンティティは、このような特定の形式を持つ情報を効率的に識別する際に非常に有効です。
Azure Machine LearningのSplit Dataモジュールは、データセットを学習用と評価用に分割するために使用するモジュールです。指定した比率に従ってランダムにデータを分割することができます。
学習用データはモデルの訓練用に使用され、評価用データはモデルを評価・修正するために使用されます。
自然言語処理(NLP)は、人が入力したテキストをコンピューターに理解させ、処理するための技術のことです。
スパムフィルタリングにも応用されており、メールの本文や件名などをもとに自動的に仕事用かプライベート用かに区別することが可能です。
音声アシスタント機能では、ユーザーが話す言葉を認識し、その意味を理解して適切な回答を行うために自然言語処理(NLP)の技術が使われています。
特徴量エンジニアリングは、機械学習のモデル構築の際に利用する入力データの特徴を設計するプロセスのことです。
日付データのような場合、年、月、日のように分割したり、曜日や祝日などの情報を追加することで特徴を抽出します。
特徴選択は、抽出した特徴の中から重要な特徴だけを選択するタスクのことです。
Azure Cognitive ServicesのCustom Visionでは、特定の業界や独自のオブジェクトに対してカスタマイズしたモデルを構築することができます。Computer Visionが一般的な画像認識タスクに対応したサービスであるのに対し、Custom Visionは独自のデータセットを使って自動車部品や不良品の検出など、特定の要件のタスクに最適化されています。
オブジェクト検出は、画像内のオブジェクトを識別・分析し、画像を分類する機能です。工場での不良品を検出する場合に使用することができ、人間の目で検査するよりも正確で効率的な品質管理が可能となります。
手紙などの手書きのテキストを読み込むためには、光学式文字認識(OCR)の技術が必要となります。光学式文字認識(OCR)は印刷された文字や手書きの文字をデジタルテキストとして認識する技術です。
Azure Cognitive Servicesで光学式文字認識(OCR)を使用するためにはComputer Visionを利用する必要があります。
Azure Faceの”似た顔の検索”では、画像に写っている人物の顔と、登録済みの別の画像に写っている人物の顔を照合し、複数の似ている人物の候補のリストを返します。
Microsoftは”責任あるAIの基本原則”の一つとして”公平性”を掲げており、ある性別や性的嗜好により不平等な扱いをすることなく、差別のない平等なAIシステムを作成することを求めています。
包括性においてもジェンダーバイアスに関する指針がありますが、包括性が「すべての人々に平等なアクセスと利用を提供する」とユーザーサイドに重点を置いているのに対して、公平性では「すべての人々に対して公平な処遇を提供する」とシステムサイドの判断に偏見がないことを保証しています。
包括性→ユーザサイド
公平性→システムサイド
自然言語処理(NLP)は、人が入力したテキストをコンピューターに理解させ、処理するための技術のことです。
自然言語処理は感情分析を行うことができ、TwitterやFacebookなどのSNS上に投稿されたコメントや、カスタマーチャットボット上の顧客からの問い合わせをポジティブもしくはネガティブとして分析・分類することも可能です。
Anomaly Detectorのバッチ検出では、過去のデータセットに対して一度に異常検出を行い、異常パターンやトレンドを分析します。過去の時系列データを基に、データセット全体に存在する可能性がある異常を検出することで評価を行うことができます。
施設の温度管理は、Anomaly Detectorのバッチ検出の使用例です。過去のデータセット全体に対して異常検出を行うことで、特定の時間帯や場所で異常な温度変動が検出された場合、原因を特定し今後の対策を講じることができます。
その他の選択肢は、Anomaly Detectorのリアルタイム検出の使用例です。
Custom Visionでは、ユーザー独自のニーズに合わせて訓練することのできる、カスタムの画像分類モデルを構築することができます。
ユーザー側で準備したデータセットをアップロードすることで、特定の問題にカスタマイズされたソリューションを作成することができます。各画像に対して、ユーザーが事前に定義したカテゴリを割り当てて、モデルのトレーニング(教師あり学習)を行います。
画像分類に特化したサービスであり、動画を分析することはできません。
機械学習の特徴選択は、既存の特徴量からもっとも重要な特徴量を選択することを指します。
適切な特徴を選択することでモデルの複雑さを減らし、過学習のリスクを低減させることができます。
Microsoftは”責任あるAIの基本原則”の一つとして”公平性”を掲げており、ある性別や性的嗜好により不平等な扱いをすることなく、差別のない平等なAIシステムを作成することを求めています。
包括性においてもジェンダーバイアスに関する指針がありますが、包括性が「すべての人々に平等なアクセスと利用を提供する」とユーザーサイドに重点を置いているのに対して、公平性では「すべての人々に対して公平な処遇を提供する」とシステムサイドの判断に偏見がないことを保証しています。
特徴量エンジニアリングは、機械学習のモデル構築の際に利用する入力データの特徴を設計するプロセスのことです。
日付データのような場合、年、月、日のように分割したり、曜日や祝日などの情報を追加することで特徴を抽出します。
特徴選択は、抽出した特徴の中から重要な特徴だけを選択するタスクのことです。
Azure Cognitive ServicesのCustom Visionでは、特定の業界や独自のオブジェクトに対してカスタマイズしたモデルを構築することができます。Computer Visionが一般的な画像認識タスクに対応したサービスであるのに対し、Custom Visionは独自のデータセットを使って自動車部品や不良品の検出など、特定の要件のタスクに最適化されています。
オブジェクト検出は、画像内のオブジェクトを識別・分析し、画像を分類する機能です。工場での不良品を検出する場合に使用することができ、人間の目で検査するよりも正確で効率的な品質管理が可能となります。
Microsoftが掲げる”責任あるAIの基本原則”の公平性では、AIシステムがすべての人々に公平に利益をもたらし、特定のグループへの偏見やバイアスを排除すべきであるとしています。
モデルを構築する際に、これまで蓄積されたデータを基にモデルを構築すると、意図せず特定の人種や性別などにバイアスの偏ったモデルを構築してしまうことがあります。
開発者は、AIにおけるバイアスがどのように導入されたのかを理解し、バイアスの軽減に役立つようなトレーニングセットを使用する必要があります。
然言語処理(NLP)は、人間が使用する自然言語をコンピュータに処理させる技術です。
自然言語処理は感情分析を行うこともでき、TwitterやFacebookなどのSNS上に投稿されたコメントや、カスタマーチャットボット上の顧客からの問い合わせをポジティブもしくはネガティブとして分類・分析することも可能です。
分類は、教師データから学習モデルを構築し、未知データを分類することを目的とした分析手法です。車通勤を”する”か”しないか”のように、2つのクラスのどちらか一方に分類することを二項分類と言います。
不動産の販売価格を予測するのは回帰になります。
顧客を類似したグループに分類するのはクラスタリングの例です。
売り上げがどれくらい減少するかは回帰になります。
ラベルがない学習データで、機械学習モデルを構築する分析手法はクラスタリングです。クラスタリングは、データを類似したグループごとにまとめる分析手法であり、学習用データにラベルがなくてもデータの特徴に基づいてグループ分けを行います。
ラベルなしのデータを使用してモデルを構築する方法を”教師なし学習”と言い、ラベル付きのデータを使用してモデルを構築する方法を”教師あり学習”と言います。分類と回帰は教師あり学習となります。
クラスタリングモデルを作成し、Azure Machine Learningデザイナーを使用してモデルを構築する場合、データセットを学習用のデータセット(訓練データ)と評価用のデータセット(評価データ)に分割します。
学習用のデータでモデルの訓練を行い、評価用のデータでモデルの性能を測りモデルの修正を行います。これによりモデルの性能を適切に評価でき、過学習を防ぐことができます。
データセットの特徴を増やすことで、クラスタリングのパターンを正確に捉えることができモデルの性能を向上させることはできますが、特徴の追加により過学習を引き起こす場合があります。
物体検出におけるバウンディングボックス(Bounding box)は、画像中に存在する物体を囲む矩形(長方形の枠線)を指します。
物体が占める領域を矩形で囲むことで、物体の位置や大きさを把握することができます。
Azure Bot Serviceでは、自然言語処理を活用してインタラクティブなチャットボットを容易に作成することができます。
他のアプリケーションと統合することもでき、Microsoft TeamsやLine、Facebookなどのアプリケーションやサービスと接続することも可能です。
固有表現認識(NER)は、文書中のテキストデータから人名や地名、組織名、日付などの特定の情報を抽出する技術です。
ニュース記事から、企業名や製品名、人物などを自動的に抽出することができます。
キーフレーズ抽出が、広い視野でテキスト内のトピックやフレーズを抽出するのに対して、固有表現認識(NER)は文書中の特定の単語やフレーズが人名や地名、組織名、日付などのカテゴリーに分類されるかを判定します。
自然言語処理(NLP)は、人が入力したテキストをコンピューターに理解させ、処理するための技術のことです。テキスト分析や感情分析、自動要約など様々な分野で応用されています。
チャットボットは、自然言語処理を利用して、ユーザーが入力した言葉を理解し、適切な応答を返すことができます。
その他の選択肢はデータマイニングの使用例です。
Language Understanding (LUIS)において、”None 意図(None intent)”は、ユーザーからの”発話”から意図を抽出できなかった場合に分類される”意図”です。
ユーザーからの”発話”が事前に定義されたどの意図にも合致しない場合、”None 意図”に分類することで、例えば、「もう一度言ってください」などの返答をしたり、他の有意義な選択を提案したりすることができます。
Azure Cognitive Servicesのエンティティ認識は、テキストから固有名詞、人名、場所などのエンティティを認識、分類する機能です。ソーシャルメディアの投稿から有名人の名前を抽出することもできます。
キーフレーズ抽出は、テキスト内から重要なキーワードを抽出するための機能であり、大量のテキストデータからトピックやテーマを把握するために使用されます。
言語検出は、文章の言語が何であるかを検出する機能です。
オブジェクト検出は、画像内のオブジェクトを自動的に検出する機能です。
Azure Cognitive Servicesを使って、TwitterやFacebookなどのソーシャルメディアに投稿されたコメントからポジティブかネガティブかなどを数値化し、設定したしきい値を超えた場合には通知を行うことができます。
本設問の場合、自社や製品名に言及したコメントのみを検出するために、”エンティティ認識”の技術を使用し、”感情分析”を使ってポジティブかネガティブかを判断するのが適切です。
機械学習において、モデルを訓練するためには、学習用ラベルに正しい答え(ラベル)を与える必要があり、その作業のことをラベリングと言います。例えば、犬か猫かを分類するモデルにおいては、学習用データに”犬”または”猫”のラベルを付与します
Azure Machine Learningのパイプラインは、データの前処理から始まり、モデルの学習、デプロイまでの一連のステップを組み合わせたものです。パイプラインを使用することで再現性と管理が容易になり、機械学習プロセスを効率化させることができます。
パイプラインを使用するための前提条件として、Azure Machine Learning ワークスペースとコンピューティングリソースが必要です。
コンピューティングリソースはワークスペース上でパイプラインの各ステップを実行するための環境であり、仮想マシンやクラスタを指します。
Azure Cognitive Searchは、アプリケーションに高度な検索機能を統合することができるクラウドベースの検索サービスです。
Azure Cognitive Searchのインデックスは、検索可能なデータを効率的に整理し、検索を高速に実行するためのデータ構造です。インデックスに検索対象となるデータが格納され、クエリを実行することで容易に検索を行うことができます。
インデックスについて理解する - Training | Microsoft Learn
特徴量エンジニアリングは、モデルの学習に使用するデータの特徴量を抽出、変換、スケーリングすることを指します。これには新しい特徴量を作成・追加することも含まれます。
例えば、「2023/03/10」という日付から、下記のように特徴を生成することができます。
年:2023
月:03
日:10
曜日:金曜日
祝日:祝日ではない
Computer Visionのオブジェクト検出(Object Detection)は、画像内の物体を識別しその位置や種類を特定する技術です。
タグ付けの機能も備わっており、画像内の物体の内容に関する情報をメタデータとして関連付けます。タグ付けを行うことで画像データベース内から、画像を簡単に検索できるようになります。
QnA Makerのナレッジベースに様々な質問や回答を追加しても、ユーザーからのランダムな質問に適切な回答を選び出すのは非常に困難です。
QnA Makerのアクティブラーニングを有効にすると、ユーザーへの回答に対して信頼度スコアの高い複数の回答候補をフィードバックとして管理者に提案し、管理者はより適切な回答を選択(暗黙的なフィードバック)することで次回の回答精度を高めることができます。
ユーザー側の質問に対して信頼度スコアの低い回答候補しかない場合、管理者はこの質問がナレッジベースのどの質問に近いのかを選択(明示的なフィードバック)することで、QnA Makerは学習し、回答精度を高めていきます。
混同行列(Confusion Matrix)とは、機械学習モデルが行った「分類」がどれだけ正確かを評価するためのシンプルな表です。主に、「はい」と「いいえ」のような二値分類の問題に使用されます。
例えば、ある迷惑メールフィルターを使って「迷惑メール」か「それ以外」かを判断するとします。混同行列では、通常、以下の4つの場合分けがあります。
1.真陽性(True Positive:TP): モデルが「迷惑メールである」と予測し、実際も「迷惑メールだった」ケース。
2.真陰性(True Negative:TN): モデルが「迷惑メールではない」と予測し、実際に「迷惑メールではなかった」ケース。
3.偽陽性(False Positive:FP): モデルが「迷惑メールである」と予測したけれど、実際は「迷惑メールではなかった」ケース。
4.偽陰性(False Negative:FN): モデルが「迷惑メールではない」と予測したけれど、実際は「迷惑メールだった」ケース。
モデルを構築する際、複数のデータセットを結合することで、データの多様性を増やし、モデルのパフォーマンスを向上させることができます。
欠損値のあるデータとは、空白、欠落のある不完全なデータのことです。データセットに欠損値がある場合、欠損値を含む行や列を削除することでデータの品質を向上させることができます。
似たようなデータやデータのリソースが1箇所しかない場合、偏ったデータとなってしまうためモデルの汎用性がなくなってしまいます。多様な種類のデータを利用することで、バイアスの排除につながります。
データの特徴は多ければ良いとは限らず、関連性のある適切な特徴を選択することが重要です。
Custom Visionで分類モデルを構築する場合、下記の指標が評価として使用されます。
・精度:正しかったと識別された分類の割合を示します。例えば、あるモデルで、100 個の画像が犬として識別され、それらのうち 99 個が実際に犬であった場合、精度は99%になります。
・再現率:正しく識別された実際の分類の割合を示します。例えば、実際にりんごである画像が100個あり、そのモデルで、80個がりんごとして識別された場合、再現率は80%になります。
・平均精度:平均精度(AP)の平均値です。AP は、精度/再現率曲線(行われた各予測の再現率に対してプロットされた精度)の下の領域です。
Anomaly Detectorのリアルタイム検出では、リアルタイムで入力された時系列データを分析し、異常検出を行います。事前に確認されたデータポイントを利用してモデルが生成され、最新のデータポイントが異常かどうかを判断します。
ソーシャルメディアの分析を行うこともでき、急速に変化するトレンドや話題を素早く検出し、マーケティング戦略などに活用することが可能です。
その他の選択肢は、Anomaly Detectorのバッチ検出の使用例です。
回帰で使用される評価指標には、以下のようなものがあります。
・R²(決定係数)
予測した値と実際の値がどの程度一致しているかを表す指標で、0から1の間の値を取ります。0に近いほど予測できておらず、1に近いほど予測できている値となります。
・RMSE(平均二乗誤差)
予測した値と実際の値の差の平方の平均を平方根したものです。予測値と実測値の誤差を表し、この値が小さいほど予測精度が高いことを示します。
・MAE(平均絶対誤差)
予測した値と実際の値の差の絶対値を平均したものです。こちらも予測値と実測値の誤差を表し、この値が小さいほど予測精度が高いことを示します。
とりあえず、一通り終了
TextAnalyticsの機能
機械学習において、モデルを訓練するためには、学習用ラベルに正しい答え(ラベル)を与える必要があり、その作業のことをラベリングと言います。例えば、犬か猫かを分類するモデルにおいては、学習用データに”犬”または”猫”のラベルを付与します。
画像とテキスト ドキュメントにラベルを付ける - Azure Machine Learning | Microsoft Learn
特徴量エンジニアリングは、モデルの学習に使用するデータの特徴量を抽出、変換、スケーリングすることを指します。これには新しい特徴量を作成・追加することも含まれます。
例えば、「2023/03/10」という日付から、下記のように特徴を生成することができます。
年:2023
月:03
日:10
曜日:金曜日
祝日:祝日ではない
自然言語処理(NLP)は、人が入力したテキストをコンピューターに理解させ、処理するための技術のことです。テキスト分析や感情分析、自動要約など様々な分野で応用されています。
チャットボットは、自然言語処理を利用して、ユーザーが入力した言葉を理解し、適切な応答を返すことができます。
その他の選択肢はデータマイニングの使用例です。
自動機械学習 (自動 ML または AutoML とも呼ばれます) は、時間のかかる反復的な機械学習モデルの開発タスクを自動化するプロセスです。 これにより、データ サイエンティスト、アナリスト、開発は、モデルの品質を維持しながら、高いスケール、効率性、生産性で ML モデルを構築することができます。 Azure Machine Learning の 自動 ML は、Microsoft Research 部門の最先端技術に基づいています。
分類モデルでは、再現率を使用し、
回帰モデルでは、決定係数と平均平方二乗誤差を使用する。
再現率は、実際に陽性であるもののうち、陽性と予測された割合を表す指標である。
合格したのでClose
950/1000