C-WebGL: LiteRT(旧TFLite) の LLM Inference したい

コンピュートシェーダーに対応するにあたって、やりたいことと言えばUpscalerといわゆる生成AIが営業上は必要だろう。Upscalerは普通にOpenGL ES実装があったり、まぁ手で移植すれば充分なので良いとして、AIはなかなか難しい気がする。
https://zenn.dev/okuoku/scraps/8ae786e2fa0136

 Gemmaとりあえず基盤となるモデルにはGemmaを選び、LiteRTをターゲットにする。llama.cppがSyclあったりとかするのでSycl → OpenCL → Vulkan → OpenGL ESみたいな流れで移植しても良いかもしれないけど遠そうなので。
モデル自体はHFからダウンロードできる。4B-int8でも充分な性能と感じた。
https://huggingface.co/litert-community
...というかHFにvision系のモデルが全然無いのはどうなんだ。。本来そっちだったと思うんだけど。。
Gemmaの重大な問題は、エッジ向けを謳っているのに直接的なtool callingのサポートが無いこと。ちょっと使ってみた感じ14B以上のモデルにPythonを書かせて代わりにはできそうだけど、Webサイト組込みは無理なのでどうしたもんか。

okuoku

 WebGPU (Web版 Mediapipe)https://deepwiki.com/google-ai-edge/mediapipe/5.2.2-web-llm-inference

https://deepwiki.com/search/where-is-gpu-shader-used-for-w_221b9b2d-cb27-43df-b7a1-5722142bd8a1
WebGPUでのシェーダーの位置を質問してみた

WGSLシェーダーはその場で生成、というかWebGPU向けのinferenceコードはLiteRTのリポジトリには入ってないのか。。
C-WebGLにこれを載せる場合、簡単でも良いからWebGPU実装も用意する必要がある。Computeだけなら直ぐできると思うけどちょっと面倒。

okuoku

 OpenGL ES... Vulkanじゃないのかよ！MediapipeはLiteRT側に実装させている。
https://deepwiki.com/google-ai-edge/mediapipe/5.2.3-android-llm-inference
LiteRTはOpenCL(!)とOpenGLをサポートしていて、OpenGLは事実上Android専用(Emscriptenのifdefがあったりするけど)。
https://deepwiki.com/google-ai-edge/LiteRT/5.5-gpu-acceleration

https://deepwiki.com/search/where-is-gpu-shader-sources-fo_c481cc07-6b8a-4829-89f8-f0d62e73cb33
同様にシェーダーは動的生成

そもそもREADMEに書かれているオペレーターが少なすぎる気がする。。
https://github.com/google-ai-edge/LiteRT/blob/b9cc5e9c187d69f4e290243d3513d97fc5d1a59d/tflite/delegates/gpu/README.md
素のLiteRTをビルドしてみて、それで実行するのをトライするのが良いかな。。
→  gemma3-4b-it-int4-web.task は素の .tflite ファイルのようだ。 ...グラフ類無いけど、その辺はMediapipe側で補完してるのかな。

okuoku

 Mediapipeの llm_inference_engine.h
https://github.com/google-ai-edge/mediapipe/blob/6b804cb0b7aa83ad1b54d4bffa9780670f71d6b6/mediapipe/tasks/cc/genai/inference/c/llm_inference_engine.h
これがCバインディングを提供しているようだ。というわけで、このAPIをライブラリとして切り出すのが最初のステップかな。。