Open2024/09/04にコメント追加15

Camel AI

ピン留めされたアイテム

アイデア

モデルレジストリ
データフォーマット
モデルサーバ
データ管理

モデルレジストリ

学習済みモデルを外部のレジストリ（Zoo）から動的に読み込める仕組みを考える。

データフォーマット

バイナリ ⇔ テンソルのデータ変換。

モデルサーバ

モデルサーバを提供するコンポーネント。インタフェースをどうするか。

データ管理

AIモデル学習に付随する学習データセットの置き場所（HTTP、S3、etc.）やデータ転送をどうするか。

Camel DJL

学習済みモデル／データセット

データセット	モデル	メモ
MNIST	MLP	手書きの数字を判別できる
CIFAR-10	ResNet	画像をairplane, automobile, bird, cat, deer, dog, frog, horse, ship, truckの10種類に分類
ImageNet	ResNet, SENet, SE-ResNeXt, ResNeSt, SqueezeNet, MobileNet, GoogLeNet, Darknet, Inception v3, AlexNet, VGGNet, DenseNet, Xception, Simple Pose	WordNetをベースに画像を1000のカテゴリに分類。画像認識、ポーズ認識
Pikachu	SSD	ピカチュウ
COCO	SSD, YOLO, DeepLabV3, Mask R-CNN	物体認識
VOC	SSD, YOLO	物体認識
UCF101	Action Recognition	アクション認識
-	-	-

Camel DJLのユースケース

画像データを分類して別々の宛先にルーティングする（SSD → ResNet）
画像をテキストデータに変換してルーティングする（OCR）
音声データをテキストデータに変換してルーティングする（Audio）
テキストデータを感情分析して別々の宛先にルーティングする（DistilBERT）
簡易的なテキストデータベースに基づく自動応答システム（BertQA）

画像データを分類して別々の宛先にルーティングする（SSD → ResNet）

音声データをテキストデータに変換してルーティングする（Audio）

テキストデータを感情分析して別々の宛先にルーティングする（DistilBERT）

ONNXモデルの分類

CV
- 画像分類
- 物体検出・画像セグメント化
- 身体・顔・ジェスチャー分析
- 画像操作
自然言語処理
- 機械による理解
- 機械翻訳
- 言語モデリング？
その他
- 視覚的Q&A・対話
- 口述・音声処理
- その他

TODO

OCR

https://github.com/PaddlePaddle/PaddleOCR
https://github.com/JaidedAI/EasyOCR (inactive?)
https://github.com/open-mmlab/mmocr (inactive?)