[2024年11月15日]システムを丸ごと生成するAIがホット (週刊AI)
こんにちは、Kaiです。
先週は投稿をお休みしまして、すみません。
Big Techまわりのニュースはあまりなく、どちらかというと新興ツールがエンジニア界隈でホットになってる時期でしたね。
特にCline、Replitはかなり話題になっておりましたので、新興AIツールとして解説記事を載せました。
ではトピックスです。
注意事項
- 直近収集したAIおよびWeb系の記事やポストが中心になります
- 私のアンテナに引っかかった順なので、多少古い日付のものを紹介する場合があります
- 業務状況次第でお休みしたり、掲載タイミングが変わったりします
Big Tech AIサービス
OpenAI: OpenAIのCEOが「o2が博士号レベルのベンチマークで105%のスコアを達成」と投稿
このベンチマークは、博士号保持者または博士課程の学生であっても、65%のスコアしか取得できない非常に難易度が高い問題集とのことです。o2は恐らく、OpenAIの次世代モデル。既に特定領域で人間の能力を超えているということをアピールしたいものと思われます。
OpenAI: ChatGPTがMac上で他アプリと連携可能に、来年にはPC操作自体が視野
現時点ではVSCode、Xcode、Terminal、iTerm2のみとのこと。また、報道によると来年にはClaudeのComputer useのように統合的な「オペレーター」機能を予定しているそうです。
新興AIツール
Cline: VSCode拡張でコーディングを加速
任意のAIを選択してVSCodeに組み込める拡張機能。CopilotやCursorとの差はその任意性かつ従量制、といったところのようです。一瞬盛り上がりましたが、Cursorでいいのでは……?という気も正直してます。
Replit: システム全体(フロント、バック)を一括生成しそのままデプロイ
ベースはクラウド型IDEですが「Agent」機能があり、要件定義を投入すると、数分から数十分かけてシステム全体をデザイン、実装してくれるそうです。類似サービスにはBoltがありますが、Boltよりも完成度が高く、かつDBなども含めて完成版を作れる、ということのようです。かなり話題になっていました。
その他AI系話題
社内勉強会で生成AIについて発表したので70ページの資料を公開する!
生成AIまわりについて総ざらい的な資料です。基本的な内容ですが、初めて学ぶエンジニアにはちょうどよさそう。
創薬における機械学習技術について
正直、化学に詳しくないため創薬プロセスでどうAIを活用するのかイメージがあまりなかったのですが、非常によく分かりました。なるほど、化学構造式をグラフとして文字列表現する手法があるのか……。
DatabricksにおけるLLMOpsのベストプラクティス
あくまでDatabricksの構成では、という話。考え方については参考になる部分も多いです。
言語モデルの数値理解とその改善
プレプリント。一般的なLLMは、実際にはほとんど「数値」を理解していないという結果と、それを改善する手法の提案です。
GPT-4o(Claude)に危険物取扱者試験(甲種試験)を解かせてみる-その9: 様々なモデルの性能比較と感想
この記事シリーズ、RAGの実例としてめちゃくちゃ参考になります。最終的には、現時点でo1とClaude3.5 Sonnetが最適解とのこと。
日本の医師国家試験でo1が98%の正答率
プレプリント。学習オフセット後の問題なので、リークはしていません。ただ、画像や複数選択肢の問題は除外しているとのことなので、真の正答率ではないことに注意です。
当社からも記事を出しています。Vision-Language Modelを活用した「見た目が近い商品」レコメンド改善の取り組み
なるほど、メルカリはECと異なり型番などの情報がない場合も多いため、商品画像の類似性を用いるのですね。ファインチューニングによる画像ベクトル生成の改善で顕著な成果を得たということです。
生成AIとAWS CDKで実現! 自社ブログレビューの効率化
当社でも記事領域で近い取り組みを行っています。ただ、プロンプトをかなり作り込んでも結構抜け漏れがあるので、記事レベルになると人間のチェックは完全に廃止できなさそうな印象です。
WEB開発系話題
ReactからVueへの転向
当社でもちょうど技術スタック拡大を検討していたため、タイムリーな記事でした。コードレベルで思想を比較してくれるのはありがたいです。
外部API連携のスタンスや技術面の考慮事項をまとめてみた
同一社内でも、サービス間連携などで必要になりますね。要検討チェックリストとしてとてもよく機能すると思います。
Laravelが如何にダメで時代遅れかを説明する
かなり強火な記事。色々な意見があるのでちょっとコメントは控えておきます。
Webフロントエンドの脆弱性つまみ食い 2024年版
私はバックエンドの経験が長いので、こうしてざっと眺められるのはありがたいです。
メルカリ ハロ アプリの技術スタック
スマホアプリを作る際の最新技術スタック例。結構浦島太郎になってしまいがちなので、アップデートに。
S3にあるALBログの調査はAthenaよりDuckDBのほうが簡単
あ、これはすぐ使えるかも。
WebフロントエンドにおけるGraphQL(あるいはバックエンドのAPI)との向き合い方
API技術選定に関する考え方の整理。当社でもいくつか比較検討しましたが、確かにむずかしい。
データの信頼性を支える仕組みと技術
タイミーでの実際のアーキテクチャの変遷と、かなりの部分はdbtによるデータ変換の話。dbt寡聞にして存じませんでしたがいいですね。
Next.js知識ゼロから生成AI頼みでWebアプリを作って思ったこと
むしろ後半のメモ書きのようなところが、「初めて生成AIでWebアプリを作った人」の感想、未来予想図として大変面白かったです。
マイベストのデータ基盤の現在と未来
こちらもデータ基盤のアーキテクチャ図が出ているので参考に。
その他一般テック話題
日本人プログラマ向け、プログラミングに適した「フォント」まとめ。2024年版
コーディングに向いたフォントって発想はなかったですねぇ。でも言われてみれば文字の視認性は大事かも。
MySQLでわざとデッドロック発生させて挙動を確認してみた
「デッドロックを避ける」は徹底していても、「じゃあ起きたらどんな挙動になるの?」は意外と盲点。なるほどこうなるのか。
ダイナミックプライシング とその実例
AIとはまたちょっと違いますが、価格決定を数理モデルでやっていくというのはリアルタイム性のある取引で有効ですね。
Discussion