"Navigating the Jagged Technological Frontier..."を読む


BCGのコンサル758人を対象に、AIを使ったらパフォーマンスが上がるかどうか実験

グループ分け
- AIアクセスなし
- GPT-4 AIアクセス
- プロンプトエン ジニアリング概要付きGPT-4 AIアクセス

結果:ギザギザのフロンティアが垣間見えた
AIの能力のフロンティア内にある18の現実的なコンサルティ ング・タスク
- AIを使用したコンサルタントが平均で12.2%多くタスクを完了
- AIを使用したコンサルタントが平均で25.1%早くタスクを完 了
フロンティアの外のタスク
AIを使用したコンサルタントは、AIを使用しなかったコンサルタントと比較して、正しい解答を出す確率が19ポイント低かった

人間によるAIの成功の2つの特徴的なパターン
- ケンタウロス型:"dividing and delegating their solution-creation activities to the AI or to themselves"
- サイボーグ型:"completely integrating their task flow with the AI and continually interacting with the technology"
これだけじゃよくわからんな

Introduction
LLM以前
- 非定型作業は自動化から保護されているように思われていた
- テクノロジーの波は、 低スキルの職業を自動化することがほとんど
LLM以後
- 大学院や専門職の試験でトップレベルの得点を獲得
- AIの能力は最も創造的で、最も教育を受け、最も高給を得ている労働者と重なる

LLMの3つの特徴
- LLMの能力は、モデルのサイズと品質が向上するにつれて急速に高まっている
- 組織や技術に多大な投資をすることなく、これらのシステムを使用する労働者のパフォーマンスを直 接向上させる
- 誤った回答の可能性があるため、メリットが不透明

Early studies of the new generation of LLMs suggest direct performance increases from using AI, especially for writing tasks (Noy and Zhang, 2023) and programming (Peng et al., 2023), as well as for ideation and creative work (Boussioux et al., 2023; Girotra et al., 2023). As a result, the effects of AI are expected to be higher on the most creative, highly paid, and highly educated workers (Eloundou et al., 2023; Felten et al., 2023)

Contributing further to the opacity is that the best ways to use these AI systems are not provided by their developers and appear to be best learned via ongoing user trial-and-error and the sharing of experiences and heuristics via various online forums like user groups, hackathons, Twitter feeds and YouTube channels.
たしかに

思いもよらない仕事(アイデアの創出 など)はAIにとって簡単だが、機械にとっては簡単そうに見える仕事(基本的な数学など)は、一部のLLMにとっては難題である。
これは「ギザギザのフロンティア」を生み出し、同じような難易度に見えるタスクでも、AIを使った人 間の方が上手にこなせる場合もあれば、下手にこなす場合もある。
このフロンティアに付いて考えたい論文

Methods
ランダムサンプリングしたBCG個人貢献コンサルタント758人に5時間タスクに取り組んでもらった。
目的は、 高度なスキルを持つ知識労働者のタスクにAIを導入することで、彼らの従来のワークフローがどのように補強、破壊、影響を受けるかを明らかにすること。

インセンティブをつけて、サボりが出ないようにしているのか。なるほど。

参加者の約半数(385名)は、 創造性、分析力、説得力、文章力などに焦点を当てながら、新製品のアイデア を構想し、開発する一連のタスクに取り組んだ。
残りの半数(373名)は、定量的データ、顧客や企業へのインタビュー、説得力のある文章を書く要素を含 むビジネス問題解決の課題に取り組んだ。
ふつうのコンサルタスクらしい。

最初に、参加者はAIを使わずタスクを行い、パフォーマンスの基準を作成。
その後、参加者は3つの条件のいずれかに無作為に割り当てられた。
- AIのサポートなし
- GPT-4に基づくAIツールの支援
- AIツール+AI活用マニュアル的な教材(?)

各タスクには30~90minくらいの時間制限があったらしいけど記述が曖昧でよくわからん。
Each task assigned to participants came with a specific time allocation. In the
experiment using a task inside the frontier, the assessment task duration was set for 30
minutes, while the subsequent one was allotted 90 minutes. Conversely, in the outsidethe-frontier experiment, both the first and second tasks were designated 60 minutes each,
though participants could complete them earlier if they finished ahead of time. It is
important to note that for the task inside the frontier, participants were required to remain
on the task’s page for the entire duration of the task, and could not complete the exercise
earlier.

GPT-4利用

最初の課題はフロンティアの内側、2つ目は外側らしい。どうやって定義したのそれ。

Result

Quality and Productivity Booster - Inside the Frontier
革新的な飲料のコンセプトをブレイ ンストーミング
その中から最も実行可能性の高いものを選び出 し、市場デビューのための包括的な計画を
ニッチ市場向けの靴のアイデアを構想し、プロ トタイプの説明から市場セグメンテーション、市場参入に至るまで、関係する すべてのステップを明確にすることを課された。
合計18のタスク
創造性
分析的思考
文章力

採点は人間による

GPT-4の使用に伴う大幅な成績向上がはっきりと

GPT+ガイドは対照群と比較して42.5%のスコア上昇

完了率はAI使用グループを平均して12.2%増加

AIを使用することで最も大きな恩恵を受けるのは、下位半分のスキルレベルの被験者

トップ・ ハーフ・スキルの被験者が17%の上昇幅であったのに対し、ボトム・ハーフ・スキルの被験者は43%

ブレストタスクでは、AIを使用した被験者はより質の高いアイデアを生み出す一方で、AIを使用していない被験者と比較して、これらのアイデアのばらつきが顕著に減少していることがわかった

Quality Disruptor - Outside the frontier
AIの回答をコピペするだけでは簡単に完了できないタスクについて
To be able to solve the task correctly, participants would have to look at the quantitative data using subtle but clear insights from the interviews.
とあるが、いまならAdvanced Data Analyticsでできちゃうんじゃないかと思ってしまう

対照群の被験者はこの約84.5%の正答率だったのに対し、AIを使用したグループは60%と70%であった

速度自体は早くなっているらしい?

When we control for various factors (as in Table 1) in columns 2, 3, and 4, the positive impact of AI remains robust
結局AIを使うとポジティブな効果があるんか?よくわからなかった

Navigating the frontier
ケンタウルスとサイボーグの比較、全然意味わからん

付録Eに具体的なことが書いてあった。
分ける意味あるか?これ。普通に使ってればどっちもないまぜになるでしょう

ブログでここについてフィーチャされているのも見つけた
When I am doing an analysis with the help of AI, I often approach it as a Centaur. I will decide on what statistical techniques to do, but then let the AI handle producing graphs.
ここはちょっと共感できる。抽象を握って具体をやらせるのはケンタウルス的らしい。