💡

[2024年8月2日]週刊AI・WEB開発関連記事まとめ

2024/08/02に公開

こんにちは、Kaiです。
今週もBig Techの動きが活発でした。そして、政府からAI関連の情報提供が多かったように思います。どのように社会実装できるかで、これから10年20年の経済成長性が変わってくると思いますので、政府には情報公開、規制緩和などで頑張っていただきたいところです。

では今週のトピックスをお送りします。

注意事項

  • 先週収集したAIおよびWeb系の記事やポストが中心になります
  • 私のアンテナに引っかかった順なので、多少古い日付のものを紹介する場合があります
  • 業務状況次第でお休みしたり、掲載タイミングが変わったりします

Big Tech AIサービス

OpenAI: GPT-4o Long Output

入力コンテキストウィンドウの話はよく出ますが、出力側はどのAIもあまり大差なく話題になりませんでした。今回、GPT-4oの出力を64kに拡張したモデルが公開。このボリュームであれば、ある程度の記事などをまとめて出力できそうです。
https://openai.com/gpt-4o-long-output/

Meta: SAM 2: Segment Anything in Images and Videos

ネーミングがすごいですが、オープンソースのセグメンテーションライブラリ。これがOSSで使えるなら、物体・人物検出(判別は別として)の問題はほぼ解決してしまうのでは。
https://github.com/facebookresearch/segment-anything-2
(デモ)
https://sam2.metademolab.com/

Gemini: Gemini-1.5-proアップデート

Gemini、いつものごとくひっそりとアップデート。しかしながら、OpenAI以外のモデルとして、初めてアリーナ総合評価1位を獲得したモデルのようです。以下はStudioでそのまま使えるURLです。
https://aistudio.google.com/app/prompts/new_chat?model=gemini-1.5-pro-exp-0801

その他AI系話題

LLM for 時系列分析の世界

以前サーベイ論文の解説記事をご紹介しました。さらに総説的な記事です。最新のLLMの時系列分析応用手法が豊富に解説されています。
https://zenn.dev/loglass/articles/3e596741a792b5

RAGかロングコンテキストか?を踏まえたハイブリッドアプローチ

プレプリント。よく比較される両者ですが、平均的にはロングコンテキストの方が性能が高くなるとのこと。しかし、RAGは圧倒的に安く済むので、これらを組み合わせたアプローチを提案。
https://arxiv.org/pdf/2407.16833

Density Controlによる最適輸送

最適輸送問題は個人的に興味のある領域です。ただここまで数学的な領域に踏み込むと、ちょっとついていけなかったです……勉強しよう。
https://zenn.dev/takuya_fukatsu/articles/fc7a8568ee1760

テキスト抽出不要のRAGを実現するColPali

プレプリント論文解説です。PDFのテキスト情報を抽出してベクトル化するのではなく、画像情報としてそのままベクトル化することでRAGを実現する手法。PDFのテキスト抽出が難題なのは、割と皆さん経験しているので問題意識には共感できると思います。ベクトル化の際に、異なる特徴量を持つ1024個のベクトルに変換するというのが面白い観点ですね。
https://zenn.dev/knowledgesense/articles/08cfc3de7464cb

FigmaがAIでさらに進化! Web制作はもはや完全自動化目前? 「Config APAC 2024」現地レポ

Appleの天気アプリに酷似したデザインが出力されたことで、Figmaは一度AI機能を取り下げましたが、着々と組み込みを進めているようです。
https://webtan.impress.co.jp/e/2024/07/29/47425

不均衡データを取扱う分類モデルを作る際に役に立つ10TIPS 🤣!!

半年ほど前の記事ではありますが、データ分布が不均衡なときにすぐ使えそうなノウハウがよくまとまっていたのでご紹介。
https://qiita.com/PowHolic/items/a62e9c49a39e9304fe6a

内閣府:AIで変わる労働市場

これはかなり話題になっていました。政府としても、労働人口の減少に伴うAI活用に本腰を入れないといけない意識なのでしょう。

https://www5.cao.go.jp/j-j/sekai_chouryuu/sh24-01/index-pdf.html

文化庁:AIと著作権に関するチェックリスト&ガイダンス

気付かないところで既にAI生成物を利用している可能性もあり、こういったチェックリストを政府が取りまとめてくれるのはありがたいです。
https://www.bunka.go.jp/seisaku/bunkashingikai/chosakuken/seisaku/r06_02/pdf/94089701_05.pdf

ChatGPT-Prompt-Sample-Japanese

MS畠山さん謹製の、日本語プロンプトサンプル集。分析、会議、営業、人事などジャンルに分かれており、そのまま使えそうなものもあります。
https://github.com/dahatake/ChatGPT-Prompt-Sample-Japanese

近似最近傍探索とVector DBの理論的背景

概念を総覧した上で、アルゴリズムを分かりやすく図説してくださっています。
https://speakerdeck.com/matsui_528/jin-si-zui-jin-bang-tan-suo-tovector-dbnoli-lun-de-bei-jing

ChatGPT - LLMシステム開発大全

以前もご紹介したと思いますが、定期アップデートされたとのことで再登場。LLMをざっくり理解する上で非常に優れたまとめだと思います。
https://speakerdeck.com/hirosatogamo/chatgpt-azure-openai-da-quan

WEB開発系話題

市区町村マスタを手に入れろ、そして更新し続けろ

こういうマスタ系の話はしばしば乱立していて困るのですよね。市区町村まではいいとして、住所のパーシング・正規化に足を踏み入れると真の泥沼が待っています。「上る・下る・東入ル・西入ル」などと戦ったことがある人だけが私に石を投げなさい。
https://www.m3tech.blog/entry/city-master

BigQueryの承認済みビューを利用した社内データ公開設計

ちょうど社内向けデータ基盤をBigQueryに移行している最中だったので、タイムリーな記事でした。
https://techblog.enechain.com/entry/bq-architecture-design-for-data-pipelines

【AWS】近年の終了サービスから見るAWSの今後の方向性

AWSはなかなかサ終しないことで定評がありますが、最近CodeCommit、CloudSearchなどの終了を匂わせる発表があり、ざわついていました。もちろんAWSも全くサ終しないわけではないので、最近の事例をもとに、基準などを考察されています。
https://qiita.com/bonjiko/items/d9376531f57e4008c3bd

食べログノートでWebSocket不要の(ほぼ)リアルタイム更新を実現した話

リアルタイムのデータ反映であれば、WebSocketが選択肢に上がる一方で実装は複雑。要件を満たしつつ技術的困難性とのバランスを取ったという事例でした。
https://tech-blog.tabelog.com/entry/tabelog-note-real-time-update-optimization

その他一般テック話題

僕たちはサービスの終わりとどう付き合っていくのか

上記のAWSからの流れの記事ですが、より一般的なのでこちらに。サ終は提供側も、利用側も避けたいもの。それでも商業上避けられない場合に、コミュニケーションやスタンスが重要だよね、というお話です。AWSはその観点で割と信頼感あるのですよね。
https://blog.akuwano.net/2024/08/01/how-do-we-deal-with-the-end-of-our-services/

CareNet Engineers

Discussion