OpenAIが論文に使用したChatGPTプロンプトエンジニアリングを読み解く

2023/03/28に公開2

はじめに

以下記事の内容は専門知識のない筆者の勝手な解釈が存分に含まれてるので鵜呑みにせず軽く読んでいただければ。一応ChatGPTによるフィルターを通して得られた情報をもとに書いております。

この記事を書こうと思ったきっかけ

2023年3月17日にChatGPTの開発を行っているOpenAIとペンシルバニア大学が共同で「AIがもたらす現在や将来、様々な仕事のタスク完了項目にどれだけ影響を与えるかの調査結果」が論文サイトarXivに投稿された。その際、論文本体のPDFファイルの24ページに現在の職業や、アクテビティの掲示でAIの影響を受けるのかなどChatGPTに分類をさせたプロンプトが公開されていたため、論文に使われるような高度なプロンプトを読み解けば、細かい文法をを覚えるよりまず良いスクリプトの全体像(フォーマット)を得られるのではないかと思った次第。

論文サイトarXiv
https://arxiv.org/abs/2303.10130

実際のコマンド

論文元PDFファイル(P24のRubric以下の部分)
https://arxiv.org/pdf/2303.10130.pdf

この画像分がコマンドの部分

これをざっくり読み解きます。

まず論文全体の趣旨

はい、ChatGPTにやらせました

この論文では、Generative Pre-trained Transformers (GPT)という大規模言語モデル (LLM) の労働市場への影響度について調査しています。研究者らは、LLMが持つ能力に合わせて職種を評価し、LLMを活用したソフトウェアによる労働力の影響度に焦点を当てました。

結果として、米国の労働力の約80%が、LLMの導入によって少なくとも10%の作業が影響を受ける可能性があり、約19%の労働者は少なくとも50%の作業が影響を受ける可能性があることが明らかになりました。影響度は給与レベルを問わずに広範囲にわたり、高収入の職種ほど影響が大きくなる傾向があります。

さらに、LLMによってパワーアップされたソフトウェアを組み合わせることで、米国の全作業の47〜56%が同等の品質で大幅に迅速に完了できることがわかりました。

この研究の結論は、GPTなどのLLMが汎用技術の特徴を持つことを示し、それによって重要な経済的、社会的、および政策上の影響をもたらす可能性があることを示唆しています。

私が解釈するに

  1. GPTという大規模言語モデル (LLM) の労働市場への影響度について調査した
  2. LLMが持つ能力に合わせて職種を評価した結果を分類した
  3. 米国の労働力(職業)の約80%のうち、タスク(労働内容)の10%はGPTでできるようになる
  4. 米国の労働力の約19%のうち、タスクの50%はGPTでできるようになる
  5. 高収入な人ほど給料を問わず影響を受ける
  6. 今後LLMに搭載されるであろう機能を考慮すると米国の全作業の47〜56%が同等の品質で大幅に迅速に完了できる

端的に、GPTの存在が後にもたらす現職業の影響がどうなるか分類した結果を分析した論文になります。

プロンプト分析

大きく3つに分けられてました。それは

  1. ChatGPTにやってほしいことを概要や背景をなるべく詳細かつ簡潔に説明する
  2. 分類の手法、基準としてGPTが主にどのようなタスクを完了すればここに分類されるかなど
  3. 出力結果フォーマット

以下3つの点をChatGPTにプロンプトの要約翻訳させて抜粋させたものと私の解釈になります。

1. ChatGPTにやってほしいことを概要や背景をなるべく詳細かつ簡潔に説明する

(ChatGPT4)
OpenAIの最も強力な大規模言語モデル(LLM)を考慮してください。このモデルは、入力がテキストで出力がテキストである多くのタスクを完了できます。入力の文脈を2000語でキャプチャできる場合に限ります。モデルはまた、入力でキャプチャされたものでなければ、最新の事実(1年未満のもの)を引き出すことができません。

与えられたタスクを完了しようとする役割を持つ労働者であり、役割における平均的な専門レベルを持っていると仮定します。あなたはLLMに加え、タスクで言及された他の既存のソフトウェアやコンピュータハードウェアツールにアクセスできます。また、ラップトップを介してアクセスできる一般的に利用可能な技術ツール(マイク、スピーカーなど)にもアクセスできます。他の物理的なツールや資料にはアクセスできません。

以下の指標に従って、「与えられたタスク」にラベルを付けてください。
同等の品質とは、作業をレビューする人が、それが人間が自力で完了したものか、LLMの支援を受けたものかどうかを区別できないことを意味します。タスクの時間をどのように判断するかわからない場合は、タスクに関連するサブタスクの大部分が公開されているかどうかを考慮してください。

2.分類の手法、基準としてGPTが主にどのようなタスクを完了すればここに分類されるかなど

E1 / E2/ E3 / E0 に分類法が書かれています。フォーマットは同じなので大部分端折ります

(ChatGPT4)
E1 - 直接的な露出
LLMへの直接的なアクセス(ChatGPTやOpenAI playgroundなどのインターフェースを介したもの)だけで、同等の品質でタスクの完了にかかる時間を半分以上短縮できる場合、タスクをE1とラベル付けします。

これには、以下のように簡素化できるタスクが含まれます。

複雑な指示に従ってテキストやコードを書き換える
仕様に従って既存のテキストやコードを編集する
手作業で行われていたタスクを支援するコードを書く
言語間のテキスト翻訳
中程度の長さの文書を要約する
文書にフィードバックを提供する
文書に関する質問に答える
ユーザーが文書について尋ねたい可能性のある質問を生成する
インタビューや評価のための質問を書く
書面でのやり取りで交渉が含まれる電子メールの作成や返信をする(交渉が書面で行われる場合に限る)
書かれたデータの記録を保持する
一般的な知識に基づくトレーニング資料を作成する
どのような書面または口頭媒体を通じても、誰かに情報を提供する

※このタスクについてはアメリカの仕事データベースO*NETを参考にしています。職病別にどんなタスク(仕事内容)があるのかが定義され、その内容が他の職業にも被ってるかわかるので転職の手助けにもなるようです。
https://www.onetonline.org/

ちなみに日本にも似たようなものがって厚労省が提供しているjobtagというサイトがあります
https://shigoto.mhlw.go.jp/User/

3.出力結果フォーマット

(ChatGPT4)
出力結果の例

(具体的な職がある場合)
職業:検査員、テスター、分類員、サンプラー、および計量員
タスク:検査中に見つかった欠陥を修正するために製品または加工装置を調整、クリーニング、または修理する
ラベル(E0/E1/E2/E3):E0
説明:モデルには物理的な部分がなく、調整、クリーニング、修理の大半が手で行うことが必要です。

(具体的な職ではなくアクティビティによる説明の場合)
※例えばプロンプトエンジニアリングコンサルとかまだないものを何ができる人か説明して分類したい場合

アクティビティ:ダイニングの予約をスケジュールする
ラベル(E0/E1/E2/E3):E2
説明:このための自動化技術はすでに存在します(例:Resy)し、LLMを使用することの追加の効果については不明です。ただし、Resyで予約を行うようにLLMに依頼することができる何かを構築することができます。

実際の出力結果サンプル

以上、プロンプトの部分をChatGPTにコピペして最後に「# the given taskの後に職業名やアクティビティ」を記述すると分類結果が出ます。以下例です。

#the given task
WebサイトやWebサービスを構築するWebデザイナー、Webエンジニア

(ChatGPT4)
タスク:WebサイトやWebサービスを構築する。ワイヤーフレーム、デザイン、コーディング、バックエンドの開発、テスト、アップロードなどのサイト作成の各段階を含む。

ラベル(E0/E1/E2/E3):E2

説明:LLMを使用して、多くのサブタスクを効率化できるが、完全に効率化されるわけではない。Webサイト構築には、LLMができるタスク(例:テキストの生成、質問の回答、情報の検索など)に加えて、特定の技術スキルやデザインセンスが必要であるため、完全に自動化されるわけではない。LLMを使用して、Webサイトの構築に必要な多くのサブタスク(例:デザインテンプレートの提供、テキストの生成、エラーの修正など)を自動化できるが、WebデザイナーやWebエンジニアの専門知識が必要なタスクについては、完全に自動化するのは難しい。

このようになります。今現在職にはないものでも、どういう事(アクティビティ)をする仕事か書けば結果を返してくれます。例えば「プロンプトエンジニアリングのコンサル」とか今後できそうな職も予測結果を表示してくれます。まあそこは書きませんので興味あれば試してみてください。

まとめ

ということで、ChatGPTの開発元であるOpenAIが活用したプロンプトエンジニアリングを読み解いてみました。この結果を受けて日本語で試した例はまだないんですが、このフォーマットを参考にこれから色々試すのもいいんじゃないかと思います。ご参考まで。

最後に、私自身プロンプト集を個人的に集めて公開するメディアを先日公開したのでよかったら参考にして見てください。

https://ai-ecy.com/

Discussion

野良バト野良バト

日本の場合、業務プロセスが英語圏と違いそうですしこの結論が妥当するかは微妙な気がします。

ただ、業務プロセス以上に仕事を

  • 60点を目標にやってるのか
  • 75点を目標にやってるのか
  • 90点を目標にやってるのか

でも結論は変わってきそうです。
ChatGPTは60点の作業をやるのは得意でも、
90点の作業をやらせようとすると支離滅裂な出力を吐いてる気がします。

kote2kote2

コメントありがとうございます!そうですね。当然英語圏と日本では業務プロセスは違うので、このプロンプトはあくまで参考という理解になりますかね。

あとこれお金(年収など)にも利用できそうなので、そっちのほうが一般的には興味を惹かれるんじゃないかなと思います😂