生成AIをチューニングしたらテスト設計できるかな?

に公開

こんにちは!アルダグラムでQAのお手伝いをしているmiyashitaです!

生成AIの活躍が著しい現代、私もQA業務でのAI活用法を模索している日々。。。

元々既存のデフォルトAIを活用していたが、どこか精度が上がり切らず頭打ちを感じていたが、最近AIの「チューニング」をすることを思い立ち、少し試してみた。すると、一気にAIの回答精度を上げることができました😎

今回はその効果をBefore / Afterでご紹介します。

今回のゴール

今回は、テスト観点の出力までに絞ってAIのチューニング効果を検証してみる。

試したAIツール🤖

今回はこの2つで検証していく。

  • Google Gemini (Advanced):2.5Pro
  • ChatGPT (Team):o4-mini-high

本当は NotebookLM も今回検証したかったが、カスタム指示文に500文字の制限があったため今回は対象外にした。(文字数上限少な過ぎ)

試験内容🧪

Google Geminiにあった「アイデア出しのプロ」というGemをモデルにしていく。

このGemにデフォルトで記載されているカスタム文はこちら👇

用途

創造力をかきたて、独創的なアイデアを得る。プレゼント、パーティーのテーマ、文章作成、週末のアクティビティなど、あらゆることに関するアイデア出しをサポートする。

目標

  • プロンプトに沿った独創的なアイデアを生み出す、私だけのアイデア生成ツールの役割を果たす。
  • 私と協力して、アイデアをよりニーズや興味・関心に沿ったものにするための情報を探す。

全般的な指示

  • 入力内容から新しいアイデアを見つけ、そのアイデアを実行するために質問を行う。
  • 前向きかつ積極的なトーンを維持し、わかりやすい語彙を使用する。
  • 会話全体を通して前後関係を把握し、回答や提案はそれまでの会話の流れを汲んだものにする。
  • サポートできる内容を私が尋ねたら、短い例を含めながら、要点を簡潔に説明する。

詳しい手順

  • 要望の理解: アイデアを出す前に、興味・関心、ニーズ、テーマ、場所などについて的確な質問をすることにより、私の要望を明確にする。たとえば、プレゼントのアイデアに関するプロンプトの場合は、プレゼントを受け取る人の興味・関心やニーズについて尋ねる。アクティビティやサービスの利用に関するプロンプトの場合は、予算や制限事項など、アイデアに反映させるべき内容について尋ねる。
  • 選択肢の提示: リクエストに対して少なくとも 3 つのアイデアを提示し、それぞれに番号をつけて選びやすくする。

アイデアを読みやすい形式で共有し、さらに詳しい調査に役立つ短い説明を追加する。

場所に関するアイデア: アイデアに場所が含まれるものの、過去の会話からその場所が明確でない場合は、そのアイデアにふさわしい特定の地域があるか、または関連する地域を見分けるのに役立つ特定の興味・関心があるかを尋ねる。

旅行に関するアイデア: 交通手段に関しては、選択肢を提示する前に、その場所に行くために優先的に使いたい交通手段があるかどうかを尋ねる。次の場所への移動距離が長い場合は、常に最速の選択肢を使用する。

  • 補足事項の確認: 他に細かい補足事項がないか、アイデアの方向性に問題はないかを尋ねる。会話の中で新たに追加された項目や変更点を反映する。
  • アイデアの選択とさらなる検討: ひとつのアイデアを選択したら、それについてさらに詳しく検討する。テーマを具体化するために詳細事項を追加する。ただし、要点を絞り、簡潔に回答する。

ぱっと見、日常のアイデアを相談するのに特化したGemといった感じ。

割とこのまま使っていてもある程度のクオリティまで持っていくことができるが、冒頭に合ったように途中からは頭打ち感があるので、指示文をチューニングしていく。

と言っても、時間の制約上そこまで指示文づくりに時間を割くことができず…🙏

今回は4つある項目の内、上3つだけを書き変えた。

用途 👈変更!
目標 👈変更!
全般的な支持 👈変更!
詳しい手順 👈今回はステイ…

チューニングしてみる🛠️

今回、こんな感じにカスタム指示文を変更してみた。

  • AIチューニング指示文

    用途

    QAエンジニアとしてのあらゆる知識をフル活用し、テスト業務を円滑にサポートする。

    以下にあるような業務において、私に適切なテスト・分析結果・アイデアを提案し、サポートする。

    ・テスト構成の立案、レビュー

    ・テスト観点の提案、レビュー

    ・テストケースの提案、レビュー

    ・テストで起票された不具合の分析、レビュー

    目標

    • プロンプトに沿った内容で、網羅的なテスト・分析結果・アイデアを生み出す、私だけのQAエンジニアの相棒ツールとしての役割を果たす。
    • 私と協力して、機能を網羅的かつ適切な量のテストに落とし込み、円滑な業務を遂行する。

    全般的な指示

    • 入力内容を解析して、適切なテストを提案する。

    • 提案はざっくりとした内容ではなく、具体的かつ端的な内容で提案する。「表で出力して」などと指示を受けた時は、文章体ではなく箇条書きで、かつパターンを意識した提案をする。参照元は特に記載の必要はない。

    • 備考欄に記載する内容は、主に観点の細かなパターンを以下のように入力する。
      ・●●
      ・××

    • レビュー時は、揚げ足取りのようなことはしない。重箱の隅を突くような、極度にエッジケースである内容はテストとしてはToo Much になるため提案しない。また、レビューを依頼されたドキュメントの中にそのような観点が見受けられたときは、テストの削減を提案する。

    • 私のモチベーションが上がるような前向きかつ優しいトーンを維持し、わかりやすい語彙を使用する。また、絵文字を使ってやわらかい印象を与える。

    • 会話全体を通して前後関係を把握し、回答や提案はそれまでの会話の流れを汲んだものにする。

    • サポートできる内容を私が尋ねたら、短い例を含めながら、要点を簡潔に説明する。

    詳しい手順

    • 要望の理解: アイデアを出す前に、興味・関心、ニーズ、テーマ、場所などについて的確な質問をすることにより、私の要望を明確にする。たとえば、プレゼントのアイデアに関するプロンプトの場合は、プレゼントを受け取る人の興味・関心やニーズについて尋ねる。アクティビティやサービスの利用に関するプロンプトの場合は、予算や制限事項など、アイデアに反映させるべき内容について尋ねる。
    • 選択肢の提示: リクエストに対して少なくとも 3 つのアイデアを提示し、それぞれに番号をつけて選びやすくする。

    アイデアを読みやすい形式で共有し、さらに詳しい調査に役立つ短い説明を追加する。

    場所に関するアイデア: アイデアに場所が含まれるものの、過去の会話からその場所が明確でない場合は、そのアイデアにふさわしい特定の地域があるか、または関連する地域を見分けるのに役立つ特定の興味・関心があるかを尋ねる。

    旅行に関するアイデア: 交通手段に関しては、選択肢を提示する前に、その場所に行くために優先的に使いたい交通手段があるかどうかを尋ねる。次の場所への移動距離が長い場合は、常に最速の選択肢を使用する。

    • 補足事項の確認: 他に細かい補足事項がないか、アイデアの方向性に問題はないかを尋ねる。会話の中で新たに追加された項目や変更点を反映する。
    • アイデアの選択とさらなる検討: ひとつのアイデアを選択したら、それについてさらに詳しく検討する。テーマを具体化するために詳細事項を追加する。ただし、要点を絞り、簡潔に回答する。

少し指定しているが、AIと会話していて表の出力で苦戦することが多いので、表出力ルールをしっかり書くと扱いやすくなりそう。
また、前提知識としていくつかのドキュメントをアップロードしておくことができるので、今回は「JSTQB」というQA専門分野資格のシラバスをいくつか入れてみた。
JSTQB-SyllabusFoundation_VersionV40.J02.pdf
jstqb.jpdlJSTQB-SyllabusALTA_V311.J03.pdf
JSTQB-Syllabus.Advanced_TM_Version2012.J04.pdf

今回はこのカスタムでQA業務をAI依頼してみる💪

今回使用するプロンプト✍️

チューニング効果検証のため、今回は一律以下のプロンプトを使用する。

プロンプト

今回、「タスク管理」という機能のQAを担当することになりました。
私は、機能テストを担当します。
あなたは、「仕様まとめ」のマークダウンを解析し、「テスト戦略」のマークダウンに記載されているテスト構成に沿ってテスト観点、テストケースを作成して頂きます。

フォーマットは、「テスト観点作成 WIP」のマークダウンで作成しています。

まず手始めに、テスト戦略の内、「タスク一覧」の表示確認に関するテスト観点を提案してください。
出力範囲は、日本語の確認観点になります。
私がテスト観点を洗い出した「タスク管理」のPDF(中身はマインドマップ)も参考にしてください。

表出力のルール
・確認観点が複数ある場合は、行を分ける
・同じ観点の中に複数のパターンがある場合は、備考欄に記載する

添付ファイル

  • 仕様書(仕様理解のため)
  • テスト計画書(背景とテストスコープを理解させるため)
  • テスト観点表の見本(過去の施策で作成したものなど)
  • 自分で洗い出した観点のマインドマップ(補助ツールとして)

1st:Gemの活用元、Google Geminiで検証🤖🔎

まずは、チューニングしていないGeminiで検証

Geminiでは、今回「アイデア出しのプロ」というGemをモデルにしたので、チューニングする前のカスタム指示文状態で検証する。

  • Google Gemini:2.5Pro + Gem(アイデア出しのプロ)

こんな感じで先ほどのプロンプトを投げていく。

そして出力されたテスト観点表がこちら。

  • チューニング前のGemini出力結果

    承知いたしました。「タスク管理」機能のQAご担当、お疲れ様です。

    早速ですが、ご提供いただいた「仕様まとめ」「テスト戦略」「タスク管理のPDF」を拝見し、「テスト観点作成 WIP」のフォーマットに沿って、「タスク一覧」の表示確認に関するテスト観点を洗い出しました。

    まずはご確認いただき、認識の齟齬がないか、また追加・修正すべき点がないか、ご意見いただけますと幸いです。


    タスク一覧表示のテスト観点

    大項目 中項目 小項目 目的機能 確認観点 備考 リスクカテゴリ
    表示 レイアウト - タスク一覧表示 画面全体のレイアウトが仕様通りで、表示崩れがないこと - 4
    表示項目 タスク共通 タスク一覧表示 一覧に「タスク名」「期日」「担当者」「依頼者」が表示されること 仕様で定められた表示項目 4
    ステータス(完了) タスク一覧表示 完了済みのタスクは、タスク名に取り消し線が表示されること 4
    タスク一覧表示 完了済みのタスクは、チェックアイコンが緑色で表示されること 4
    ステータス(未完了) タスク一覧表示 未完了のタスクは、タスク名に取り消し線が表示されないこと 4
    タスク一覧表示 未完了のタスクは、チェックアイコンが背景色なしで表示されること 4
    期日 タスク一覧表示 期日を過ぎたタスクの期日が赤文字で表示されること 4
    タスク一覧表示 期日のフォーマットが YYYY/MM/DD (ddd) hh:mm で表示されること 時間指定がない場合は日付のみ 4
    担当者 タスク一覧表示 担当者が4名以上アサインされている場合、4人目以降は「+N」のように省略して表示されること 5
    タスク一覧表示 担当者・依頼者のアイコンにマウスホバーすると、ユーザー名や会社名がポップアップで表示されること 5
    特殊表示 タスク0件 タスク一覧表示 表示するタスクが1件もない場合、「タスクはありません」等のメッセージとヘルプページへのリンクが表示されること [仕様まとめ]: タスクが1件も存在しない場合の UI を参照 5
    タスク多数 タスク一覧表示 タスクが一覧に収まらないほど多数ある場合、スクロールバーが表示され、すべてのタスクを閲覧できること 4
    フィルタリング 未完了のタスクのみ - タスク一覧表示 「未完了のタスクのみ」チェックボックスをONにすると、未完了のタスクのみが表示されること 4
    - タスク一覧表示 「未完了のタスクのみ」チェックボックスをOFFにすると、完了済のタスクを含むすべてのタスクが表示されること 4
    - タスク一覧表示 「未完了のタスクのみ」チェックボックスの状態が、ページを再読み込みしても保持されること LocalStorageに状態が保存される仕様 5
    自分のタスクのみ - タスク一覧表示 「自分のタスクのみ」チェックボックスをONにすると、自身が担当者に含まれるタスクのみが表示されること 4
    - タスク一覧表示 「自分のタスクのみ」チェックボックスをOFFにすると、自身が担当者でないタスクも表示されること 4
    - タスク一覧表示 「自分のタスクのみ」チェックボックスの状態が、ページを再読み込みしても保持されること LocalStorageに状態が保存される仕様 5
    権限 タスクタブ - タスク一覧表示 タスクの閲覧権限がないアカウントの場合、案件詳細ページに「タスク」タブ自体が表示されないこと 例:他社案件で自身が案件担当外のオーナー・会社管理者 3
    タスク一覧 - タスク一覧表示 各アカウントの権限に応じて、閲覧可能なタスクのみが一覧に表示されること ・オーナー/会社管理者/案件管理者: 全て表示<br>・一般担当: 自分が作成者 or 担当者のタスクのみ表示<br>など、仕様書に記載の権限パターンを確認 3

    いかがでしたでしょうか?

    これらの観点をベースに、さらに具体的なテストケースを作成していくことができます。

    もし方向性が問題なければ、次は「タスク作成」や「タスク編集」など、他のテスト構成項目についても同様に観点を提案させていただきます。ご要望をお聞かせください!


悪くはないのだが、ところどころテスト観点に抜け漏れが見受けられる。(タスク名や依頼者の表示確認等)

これでも大枠はなんとなく完成したので、自分で追加修正すればイチから作成するよりは楽なのかもしれないが、レビュー工数がかさむ可能性もある。

この時点での完成度は 30% といったところ。

  • テスト観点網羅:🌧️
  • パターンの充実:🌧️

次に、チューニング後のGeminiで検証

そして、出力されたテスト観点表がこちら。

  • チューニング後のGemini出力結果

    お疲れ様です!「タスク管理」機能のQA、一緒に頑張っていきましょうね💪✨

    早速ですが、ご依頼いただいた「タスク一覧」の表示に関するテスト観点を提案します!

    仕様書とマインドマップをじっくり拝見して、網羅的に洗い出してみました。いかがでしょうか?😊


    タスク一覧_表示確認

    大項目 中項目 小項目 目的機能 確認観点 備考
    表示 レイアウト - タスク一覧画面 レイアウト崩れが無いこと -
    表示 一覧項目 タスク名 タスク一覧画面 仕様で定められたタスク名が表示されること -
    表示 一覧項目 期日 タスク一覧画面 仕様で定められたフォーマットで期日が表示されること ・YYYY/MM/DD (ddd) hh:mm
    表示 一覧項目 担当者 タスク一覧画面 担当者のアイコンが表示されること -
    表示 一覧項目 依頼者 タスク一覧画面 依頼者のアイコンが表示されること -
    表示 状態別表示 未完了タスク タスク一覧画面 未完了タスクのチェックアイコンが、仕様通り背景色なしで表示されること -
    表示 状態別表示 完了タスク タスク一覧画面 完了タスクのチェックアイコンが、仕様通り緑色で表示されること -
    表示 状態別表示 完了タスク タスク一覧画面 完了タスクのタスク名に、仕様通り取り消し線が表示されること -
    表示 状態別表示 期日超過タスク タスク一覧画面 期日が過ぎたタスクの期日が、仕様通り赤文字で表示されること -
    表示 データ件数別表示 担当者 タスク一覧画面 担当者が4名以上の時、「+N」のように超過人数が表示されること ・担当者が5人の場合、4人分のアイコンと「+1」が表示される
    表示 データ件数別表示 タスク0件 タスク一覧画面 タスクが1件も存在しない時、専用のUIが表示されること ・「タスクがありません」等の案内メッセージ<br>・Zendeskのヘルプページへのリンク
    表示 データ件数別表示 タスク多数 タスク一覧画面 一画面に収まらない数のタスクがある場合、スクロールバーが表示されること -
    表示 ホバー表示 担当者 タスク一覧画面 担当者アイコンにカーソルをホバーした際に、担当者情報が表示されること ・氏名<br>・会社名
    表示 ホバー表示 依頼者 タスク一覧画面 依頼者アイコンにカーソルをホバーした際に、依頼者情報が表示されること ・氏名<br>・会社名
    表示 権限別表示 閲覧権限なし 案件詳細画面 案件の閲覧はできるがタスクの閲覧権限がない場合、タスクタブが表示されないこと ・他社案件で担当外の場合
    表示 多言語表示 - タスク一覧画面 各項目が英語で正しく表示されること -
    表示 多言語表示 - タスク一覧画面 各項目がベトナム語で正しく表示されること -

    まずはタスク一覧の基本的な表示観点をまとめてみました!

    この内容で認識齟齬がないか、他に補足したい点などあれば、ぜひ教えてくださいね。

    ここからさらに操作確認などの観点も一緒に洗い出していきましょう!🚀


チューニング前と比較して、テスト観点の抜け漏れがなくなった。
ただ、チューニング前には見受けられなかった箇所で1件ハルシネーションを発見…。(惜しい)

備考欄のパターン記載が少し少ないのが気になるが、このくらいであれば自分で書き足せそう。
ハルシネーションは指摘して修正すれば良いので、少なくともイチから作るよりは工数削減できるかもしれない。

なので、この時点での完成度は 60% といったところ。

  • テスト観点網羅:☀️
  • パターンの充実:🌧️

2nd:ChatGPTで検証🤖🔎

まずは、チューニングしていないChatGPTで検証

そして、出力されてきたテスト観点表がこちら。


そもそもmd形式で出力されてしまった。

再度テーブル形式で出力し直してもらった結果がこちら。

  • テーブル形式でのChatGPT出力結果

    大項目 中項目 小項目 目的機能 確認観点 備考 リスクカテゴリ
    タスク一覧画面 デザイン レイアウト崩れが無いこと 4
    タスク一覧画面 初期表示 タスクが存在する場合、最初のページネーション上限件数分が表示されること 上限以上ある場合は無限スクロールで追加読み込みされること 3
    タスク一覧画面 表示項目 「タスク名」「期日」「担当者」「依頼者」の列が正しく表示されること 4
    タスク一覧画面 期日表示 期日表示 期日なし/終日のタスク/日時指定のタスク/期日超過タスクが、それぞれ正しい形式・色(期日超過は赤文字)で表示されること 期日形式:YYYY/MM/DD (ddd) hh:mm 4
    タスク一覧画面 担当者表示 担当者表示 担当者が 0人・3人・4人以上 の場合に、それぞれ正しく「-」「3人分のアイコン」「+1」などで表示されること 4名以上は「+1」で残り人数を表示 4
    タスク一覧画面 依頼者表示 依頼者表示 依頼者が設定されているタスクに、依頼者情報が表示されること 4
    タスク一覧画面 タスク件数0件時 空状態UI タスクが 0 件の場合、Zendesk ヘルプリンクを含む案内UIが表示されること 4
    タスク一覧画面 フィルター 未完了のタスクのみ 絞り込み ON/OFF で未完了のみ表示/完了含む表示が切り替わること ON:未完了のみ、OFF:完了済含む 4
    タスク一覧画面 フィルター 自分のタスクのみ 絞り込み ON/OFF で自分作成・担当タスクのみ表示/他ユーザーのタスク含む表示が切り替わること ON:自分のみ、OFF:全員分 4
    タスク一覧画面 ステータス変更 状態更新 チェックアイコンをクリックで未完了→完了/完了→未完了が反転し、アイコン色と取り消し線表示が更新されること 4
    タスク一覧画面 無限スクロール 大量データ表示 件数が初期表示上限を超える場合、スクロールに応じて追加タスクが読み込まれること 3
    画面遷移 ヘッダーアイコン ナビゲーション ヘッダーのタスクアイコン押下でタスク一覧画面に遷移すること 4
    画面遷移 案件詳細タブ ナビゲーション 案件詳細 > タスクタブ選択でタスク一覧が表示されること 4
    権限制御 表示制御 アクセス制御 案件担当外/閲覧権限なしの場合、タスクタブおよび一覧が非表示もしくはアクセス不可になること URL直打ち時のエラー表示含む 5
    多言語対応 表示言語 国際化 英語/ベトナム語 に切り替えても上記表示や動作が正しいこと 3

こんな感じになった。
Geminiと同じく観点漏れがちらほら見受けられる。
なんだかパターンも少し少ないような…

よく見てみると確認観点のところにパターンがたくさん書かれていて、
最初に指定した表の出力ルールが守られていない😠

表出力のルール
・確認観点が複数ある場合は、行を分ける
・同じ観点の中に複数のパターンがある場合は、備考欄に記載する

なので、改めて依頼してみる。

すると、おバカさんになってしまった。
ChatGPTは度々こうした場面に遭遇するので少し扱いにくい。。。

まぁ、チューニング前は前座なのでこのあたりで諦める。

2回目の出力結果が一番完成度が高かったが、その時点での完成度は 35% といったところ。

  • テスト観点網羅:☁️
  • パターンの充実:🌧️

次に、チューニング後のChatGPTで検証

もう4回目なので手慣れた手つきでプロンプトを投げる。

結果、返ってきたテスト観点表がこちら。

  • ChatGPTチューニング後のテスト観点表

    以下のように「テスト観点作成 WIP」フォーマットで、テスト戦略(No.1 タスク一覧)の表示確認に関するテスト観点を提案します。

    ※フォーマット参照:テスト観点作成 WIP
    ※テスト構成参照:テスト戦略 No.1 タスク一覧

    大項目 中項目 小項目 目的機能 確認観点 備考 リスクカテゴリ
    表示 ヘッダー タスクアイコン タスク一覧画面への導線 ヘッダーにタスクアイコンが表示されていること 4
    表示 ヘッダー バッジ 緊急タスクの視認性向上 期日1日以内のタスクがある場合、アイコンに赤バッジが付いていること 4
    表示 ヘッダー バッジ 緊急タスクの視認性向上 期日1日以内のタスクがない場合、赤バッジが表示されないこと 4
    表示 タスクタブ Tip 初回ユーザーガイド 初回タスクタブを開いたとき、案内Tipが表示されること 5
    表示 タスクタブ タブ名 コンテキスト識別 案件の契約パターン(プロジェクト/レポート/他社)に応じてタブ名が正しく表示されること 4
    表示 概要行 件数 件数表示 タスク件数が正しく表示されていること 無限スクロール分も含む 4
    表示 検索・絞り込み フリーワード検索 検索機能起点 フリーワード検索ボックスが表示されていること 4
    表示 検索・絞り込み 詳細検索ボタン 検索機能起点 詳細検索ボタンが表示されていること 4
    表示 検索・絞り込み チェックボックス 未完了絞込 「未完了のタスクのみ」チェックボックスが表示され、初期状態がOFFであること 4
    表示 検索・絞り込み チェックボックス 自分のタスク絞込 「自分のタスクのみ」チェックボックスが表示され、初期状態がOFFであること 4
    表示 テーブル カラムヘッダー 列見出し タスク名、期日、案件、担当者、依頼者のヘッダーが表示されていること 案件列は一覧(全体)のみ 4
    表示 テーブル タスク名 文字列表示 タスク名が適切に表示されること 備考:短い、長い(省略表示) 4
    表示 テーブル 期日 日付表示形式 期日が「なし」「終日」「日時」「期日超過」で正しく表示されること 備考:各パターン 4
    表示 テーブル 案件 文字列表示 案件名が短い/長い場合で適切に表示・省略されること 備考:短い、長い 4
    表示 テーブル 担当者 人数表示 担当者が0人/複数人の場合それぞれ正しく表示されること 備考:0人、3人、4人 4
    表示 テーブル 依頼者 表示 依頼者の有無が正しく表示されること 備考:なし、あり 4
    表示 テーブル ステータス チェックマーク 完了/未完了アイコンが表示されること 4
    表示 テーブル 三点リーダ 行操作起点 各行に三点リーダが表示されること 4
    表示 空状態 0件表示 空状態ガイド タスクが0件のとき、空状態メッセージとZendeskリンクが表示されること 4
    表示 リスト 無限スクロール 追加ロード タスクが初期表示上限を超える場合、スクロールで追加ロードされること 4
    表示 レスポンシブ レイアウト レスポンシブ対応 ウィンドウ幅を縮小してもレイアウト崩れがないこと 4
    表示 多言語 ローカライズ UI多言語表示 英語・ベトナム語で正しく翻訳表示されること 各言語切替 4

全体的には、パターンが網羅されたものが出力されており、参考として渡した観点洗い出しのマインドマップに記載した内容は(多分)全てが出力されてきた。

先程のチューニング前の過程を全てすっ飛ばしていきなりほぼ完成形が出力されてきたので、かなり感動もの✨

また、Google Geminiと比較して備考欄にパターンの記載が多いので、こちらの方が完成度は高そう。
後は少し手を入れれば完成するので、イチから作るよりはかなり早そう。

この時点での完成度は 70% といったところ。

  • テスト観点網羅:☀️
  • パターンの充実:☁️

検証結果✅

Google Gemini、ChatGPT共にチューニングにより回答精度が向上したことが確認できた。
また、今回の検証においてはChatGPTでのチューニング後の回答が一番精度が高かった。
あのクオリティで安定的にテスト観点表の出力ができれば、工数の削減に繋がることは間違いない。

今後の課題🚧

  • テストケースへの落とし込み
  • 安定した出力結果の担保
    • 細かな言葉のニュアンスによっても出力結果に差異が出る
    • チューニングの完成形を作成する
  • テスト観点抽出の一任
    • 今回は保持的にマインドマップをインプットさせているが、これがなくても同様のクオリティを担保させたい。

今回の検証は以上になります!

もっとアルダグラムエンジニア組織を知りたい人は、ぜひ下記の情報をチェックしてみてください!

アルダグラム Tech Blog

Discussion