🎎
今月面白いと思ったトピック 2025/03 (VLM関係多め)
今月のニュース(私視点)なので、最新ではないかもです。悪しからず。
SLMの本当のマルチモーダル化 (Text, Image, Video, Audio)
著名モデルパブリッシャからマルチモーダルモデルの公開が相次ぐ。
これまではText, Image入力までが多かったが、Video, Audioにも対応する流れ。
初手から公式Fine tuning用のコードが公開されたり、分かりやすいアーキ図が提供されていたりと気合を感じる。(Phi3vision比)
拡散言語モデルSaaS
自己回帰型Transformerではなく、拡散型Transformerを使用しているSaaSの登場。(リンク先の表現について、Transformer自体には依存しているよね。)
精度は微妙そうだけど爆速。
超オープンVLM Molmo
学習データや学習スクリプトまでオープンのモデル。ここまでオープンで商用利用OKなモデルは珍しい。
RISC-Vベースの完全欧州製スパコン開発を目指すプロジェクト
ARMの対抗馬であるRISC-Vってどこから普及するのか気になっていました。スパコンでの社会実装開始は面白いかも。
A 10x Faster TypeScript
TypeScript製のTypeScriptトランスパイラがGo製になって10倍高速になるらしい。
ChatGPTの画像生成が進化
文字が処理できている。。
個人的に画像生成の最難関課題と思っていた霞が関スライド生成もできるようになりそう。。
Mac miniコスパ良くね?
ユニファイドメモリ64GBで税込み34万円を切る。
Jetson Orin AGX 64GB (40万ぐらい)では、通常のオフィス業務は難しいことを考えるとコスパ最強の1台かもと思いつつある。
Discussion