GPT-4oにAWS Certified Solutions Architect - Professionalの想定問題を解かせてみた
はじめに
生成 AI の登場により、ソフトウェア開発の手法は大きな転換期を迎えています。開発者の役割は、コードを一から書くことから、AI が生成したコードをレビューし、必要に応じて修正する方向へと変化しています。
この変革はソフトウェア開発に留まらず、クラウドインフラの設計・構築の領域にも及んでいます。特に AWS などのクラウドプラットフォームでは、インフラストラクチャの複雑さが増す中、生成 AI の活用が注目を集めています。
本記事では、生成 AI のクラウドインフラに関する知識レベルを客観的に評価するため、GPT-4 と GPT-4 mini を用いて AWS Certified Solutions Architect - Professional の模擬試験を実施した結果を報告します。この検証を通じて、現状の生成 AI がクラウドインフラの設計にどの程度貢献できるのかを評価いたします。
検証用データ
今回は独自の方法で AWS Certified Solutions Architect - Professional の想定問題を 100 問収集しました。これらの問題は、AWS のサービスやアーキテクチャに関する知識を問うもので、実際の試験に出題される問題と同様の難易度を持っています。問題は全て日本語の選択式で単一選択や複数選択の形式があります。
今回利用したデータについて公開の予定はありません。
評価手法
評価においては問題を提示し AI が生成した回答が答えと一致しているかどうかを判定しました。システムプロンプトは以下の通りです。
Answer using ONLY letter choices in alphabetical order, separated by commas.
Choose ONE answer unless the question specifies otherwise.
Examples:
A
A, B
A, C, E
今回は Azure Databricks を利用し MLflow の機能を用いて評価を行いました。その際に実行に利用したコードは以下の通りです。
評価用コード
with mlflow.start_run() as run:
system_prompt = """Answer using ONLY letter choices in alphabetical order, separated by commas.
Choose ONE answer unless the question specifies otherwise.
Examples:
A
A, B
A, C, E
"""
basic_qa_model = mlflow.openai.log_model(
model="gpt-4o",
task=openai.chat.completions,
artifact_path="model",
messages=[
{"role": "system", "content": system_prompt},
{"role": "user", "content": "{question}"},
],
)
results = mlflow.evaluate(
basic_qa_model.model_uri,
eval_df,
targets="ground_truth",
model_type="question-answering",
evaluators="default",
)
結果と考察
GPT-4o と GPT-4o-mini の正答率は以下の通りです。
Model | 正答率 |
---|---|
GPT-4o | 83% |
GPT-4o-mini | 47% |
GPT-4o の回答例
GPT-4o-mini の回答例
GPT-4o は 83%の正答率を達成しており、AWS Certified Solutions Architect - Professional に合格できるレベルの知識を持ってることがわかりました。一方で GPT-4o mini は 47% の正答率であり、知識としては不十分であることがわかりました。ただし、 GPT-4o mini は単一選択の問題に対して、複数回答を返すことができるため、正答率が低いという結果になったと考えられます。システムプロンプトを変更することで正答率を向上させることができるかもしれません。
まとめ
この記事では GPT-4o と GPT-4o mini に AWS Certified Solutions Architect - Professional の想定問題を解かせ評価を行いました。その結果、GPT-4o は 83% の正答率を達成し、AWS Certified Solutions Architect - Professional に合格できるレベルの知識を持っていることがわかりました。
今後は AWS のドキュメントを収集して RAG を作成し、これを用いて GPT-4o の正答率を向上させる検証を行う予定です。
Discussion