🎎

今月面白いと思ったトピック 2025/03 (VLM関係多め)

に公開

今月のニュース(私視点)なので、最新ではないかもです。悪しからず。

SLMの本当のマルチモーダル化 (Text, Image, Video, Audio)

著名モデルパブリッシャからマルチモーダルモデルの公開が相次ぐ。
これまではText, Image入力までが多かったが、Video, Audioにも対応する流れ。

https://huggingface.co/microsoft/Phi-4-multimodal-instruct
初手から公式Fine tuning用のコードが公開されたり、分かりやすいアーキ図が提供されていたりと気合を感じる。(Phi3vision比)

https://huggingface.co/Qwen/Qwen2.5-Omni-7B

拡散言語モデルSaaS

自己回帰型Transformerではなく、拡散型Transformerを使用しているSaaSの登場。(リンク先の表現について、Transformer自体には依存しているよね。)
精度は微妙そうだけど爆速。

https://note.com/shi3zblog/n/n608e125e95ac

超オープンVLM Molmo

学習データや学習スクリプトまでオープンのモデル。ここまでオープンで商用利用OKなモデルは珍しい。

https://github.com/allenai/molmo

RISC-Vベースの完全欧州製スパコン開発を目指すプロジェクト

ARMの対抗馬であるRISC-Vってどこから普及するのか気になっていました。スパコンでの社会実装開始は面白いかも。

https://pc.watch.impress.co.jp/docs/news/1669389.html

A 10x Faster TypeScript

TypeScript製のTypeScriptトランスパイラがGo製になって10倍高速になるらしい。

https://devblogs.microsoft.com/typescript/typescript-native-port/

ChatGPTの画像生成が進化

文字が処理できている。。
個人的に画像生成の最難関課題と思っていた霞が関スライド生成もできるようになりそう。。

https://x.com/yousuck2020/status/1904864909650702692

Mac miniコスパ良くね?

ユニファイドメモリ64GBで税込み34万円を切る。
Jetson Orin AGX 64GB (40万ぐらい)では、通常のオフィス業務は難しいことを考えるとコスパ最強の1台かもと思いつつある。

ヘッドウォータース

Discussion