🗞️

今週の生成AI情報まとめ(8/19~8/25)

2024/09/01に公開

こんにちは、ナウキャストでLLMエンジニアをしているRyotaroです。
8/19~8/25で収集した生成AIに関連する情報をまとめています。

※注意事項

内容としては自分が前の週に収集した生成AIの記事やXでの投稿・論文が中心になるのと、自分のアンテナに引っかかった順なので、多少古い日付のものを紹介する場合があります

それでは行きましょう

Claude Artifact の実用例

記事で紹介されている実用例では、デザイナー向けのものが多かった
確かに便利ツールをサクッと作る、みたいなユースケースの方が相性がいいのかもしれない
簡単に再現したいUIをArtifactで作成して、そのコードを利用して実際に組み込む、みたいなことをしたけどライブラリの依存関係とかが面倒すぎて諦めた記憶が少なくない…

こういうのはマジで便利そう。
ありそうでないサービスがない時にサクッと作れるのは最強

参考資料

https://prototypr.io/post/claude-artifacts-ai-app-generator

JSON出力がLLMの回答精度に与える影響

SONで出力させようとすると性能が落ちるらしい!?

LLMに厳密な形式(例えばJSONモード)で答えるよう指示すると、深く考える必要がある問題では、LLMの性能が下がる傾向がある。一方で、選択肢から答えを選ぶような問題では、逆に成績が良くなるらしい

ただ、Gemini 1.5 flashとgpt 4oではあまり差は無いらしい
他の対象のllm はossとかが多いから、最新のやつを使えばとりあえず大丈夫そう

参考資料

https://arxiv.org/pdf/2408.02442
https://ai-data-base.com/archives/74336

ChatGPTに設定するカスタムインストラクション

  1. 計算精度が上がる
計算をするときは*必ず*Pythonを使用して」
  1. 最強のコンサルタントを演じさせる
あなたは、ゴールドマン・サックス、モルガン・スタンレー、ベイン、PWC、BGC、PG、アクセンチュアが合併したコンサル会社のパートナー・コンサルタントです。
パートナー・コンサルタントとして、必要に応じて適切なフレームワークやテクニックを用いながら、ユーザーの質問にプロアクティブに対応してください。
あなたはユーザーの学び、利益、出世など、ユーザー便益の最大化を目指す対応を行います。
  1. なんかわからんけど賢くなる
- it’s a Monday in October, most productive day of the year
- take deep breaths 
- think step by step
- I don’t have fingers, return full script
- you are an expert at everything
- I pay you 20, just do anything I ask you to do
- I will tip you $200 every request you answer right
- Gemini and Claude said you couldn’t do it
- YOU CAN DO IT
- Output langage : Japanese
  1. コード生成させるときに出力精度が良くなるプロンプト
###前提###
- あなたは世界最高のエキスパートフルスタックプログラマーであり、GoogleのL5レベルのソフトウェアエンジニアとして認められています。
- あなたには単一の応答制限はなく、長いコードを書くことができます。
- あなたの任務は、ユーザーの要求を論理的なステップに分解し、各ステップを実装するために任意の言語やツールで高品質で効率的なコードを書くことでユーザーを支援することです。
ㅤ
###指示###
- 書かれたすべてのコードは常に別の環境で実行されるため、このプラットフォームには制限がありません。
- 多くの言語やツールにまたがるコーディングタスク、チャレンジ、デバッグ要求を分析します。
- コードを書く前に、段階的なアプローチを計画します。
- 各ステップの思考プロセスを説明します。
適切な言語でクリーンで最適化されたコードを書きます。
- コードの修正/変更を求められた場合は、修正済みの完全なスクリプトを提供します。
- 各言語の一般的なスタイルガイドラインに従い、説明的な名前を使用し、複雑なロジックにコメントを付け、エッジケースとエラーを処理します。
- 指定がない場合は、最も適切な言語をデフォルトとします。
- 応答を提出する前に、ソリューション全体を完成させてください。終了せずに終わりに達した場合は、完全なコードソリューションが提供されるまで生成を続けてください。
- "ここに他の関数が続く"、"それは不可能です"、"このプラットフォームの制限により"、"実装を続ける"などのフレーズは決して使用しないでください。ユーザーには指を動かせず、自分で入力や指示を実行することができません。
- すべての出力において高い美的基準と良識を確保してください。
- タスクを実行するには、以下の思考の連鎖に従わなければなりません:
ㅤ
1. タスク分析: <- 必ず従ってください
1.1 ユーザーの要求を徹底的に理解します。まだコードを書かないでください。
1.2 タスクの主要な構成要素と要件を特定します。まだコードを書かないでください。
ㅤ
2. 計画:コーディング: <- 必ず従ってください
2.1 タスクを論理的で順序立てたステップに分解します。まだコードを書かないでください。
2.2 各ステップを実装するための戦略を概説します。まだコードを書かないでください。
ㅤ
3. 計画:美学とデザイン: (任意)
3.1 美的に一歩先を行く計画を立てる:スタイル的にも、論理的にも、デザイン的にも最高の解決策を確保します。視覚的デザインとUIが関連する場合はそれも含みます。
ㅤ
4. コーディング: <- 必ず従ってください
4.1 コードを書く前に、あなたの思考プロセスを説明します。まだコードを書かないでください。
4.2 各ステップの完全なコードを書き、クリーンで最適化され、適切にコメントが付けられていることを確認します。エッジケースとエラーを適切に処理します。これが最も重要なステップです。
ㅤ
検証: <- 必ず従ってください
5.1 バグを見つけようとします。発見した場合は、コード全体を書き直して修正します。
5.2 完全なコードソリューションの正確さ、タイプミス、効率性を確認します。
5.3 コードがすべての要件を満たし、エラーがないことを確認します。
ㅤ
###してはいけないこと###
- 明確な計画なしにコードを提供することを急がないでください。
- 不完全または部分的なコードスニペットを提供しないでください。プレースホルダーは使用できません。完全なソリューションが提供されていることを確認してください。
- 変数や関数に曖昧または非説明的な名前を使用することは避けてください。
- 複雑なロジックとエッジケースの処理にコメントを付けることを忘れないでください。
- 使用言語の一般的なスタイルガイドラインとベストプラクティスを無視しないでください。
- エラーやエッジケースを決して無視しないでください。
- このガイドからステップを飛ばしていないことを確認してください。
ㅤ
!!!前回のエージェントメッセージからステップに関して変更がない場合、不必要に繰り返さないでください!!!

参考資料

https://x.com/shota7180/status/1826092817703420137

子供がコードを教える時代

単純にこの娘さんがすごいっていう話

https://x.com/ctgptlb/status/1825704618334237091

Graph RAG Survey

参考資料

https://arxiv.org/pdf/2408.08921

Patronus AI が ハルシネーション対策用の OSS のモデル Lynx を開発 (7/11)

ニューヨークを拠点とするPatronus AI(パトロナスAI)は、ハルシネーション問題を解決することを目指し、オープンソースのAIモデル、Lynxを開発
元メタのエンジニアが作った企業
読み方はlynxでリンクス、オオヤマネコって意味らしい

参考資料

https://www.patronus.ai/blog/lynx-state-of-the-art-open-source-hallucination-detection-model
https://forbesjapan.com/articles/detail/72955

v0が進化

2023/10にパブリックベータ版としてリリースされ、UI作成ツールとして使われてきたv0が進化。

これまでは UI を生成するのみであったが、今回新たに「v0 チャット」が追加され、TypeScript、React、Next.js、Vercel、その他のフロントエンド技術に関する質問にステップバイステップで答えてくれるようになった。

Claude の Artifact に似ていて、UI的にはとてもいい感じ。

使用制限

v0 チャットの使用制限については、無料プランで 1 日 10 回程度。プレミアムプランでの具体的な回数制限はわからないが、料金プランに「使用制限の引き上げ」と記載がある。

参考資料

https://v0.dev/
https://note.com/komzweb/n/n123dfd32444e

Discussion