「UsefulSensors/moonshine-tiny-ja」を試す
HFにさらにASRモデルを公開しました!
- アラビア語、中国語、日本語、韓国語、ウクライナ語、ベトナム語向けの単一言語ASR(2700万パラメータ)
- Whisper Tinyを48%低いエラー率で上回る
- 9倍大きいWhisper Smallを上回り、28倍大きいWhisper Mediumに匹敵
- Whisperよりもデバイス上で5~15倍高速に動作
- オープンソース、エッジ対応、高品質な人間、疑似、合成データのミックス
モデルはこちらでご覧いただけます:
https://huggingface.co/UsefulSensors
論文:https://.co/oG2udZanpY
モデルは複数あって各言語ごとに分かれている様子
日本語はこちら
日本語モデルのモデルカードから抜粋して翻訳(GPT-5)
Moonshineのバリエーション: エッジデバイス向けの小型特化ASRモデル
これはMoonshine AI(旧称 Useful Sensors)が学習・公開した自動音声認識(ASR)モデル(Moonshineモデル)を実行するためのモデルカードです。
Model Cards for Model Reporting(Mitchell ほか)に従い、この自動音声認識モデルに関する情報を提供します。これらのモデルの学習方法と評価方法の詳細は論文を参照してください。注: 本テキストの多くは、OpenAIが開発したWhisperモデルのモデルカードから逐語的に引用しています。両モデルは同一の目的に供され、同一のリスクを伴うためです。
モデルの詳細
本Moonshineモデルは音声認識タスク向けに学習されており、日本語の音声を日本語テキストへと転記できます。Moonshine AIは、低コストなハードウェアに基づくリアルタイム音声転記製品の開発という事業方針を支援するために、これらのモデルを開発しました。以下の表は一般的なASR評価セットでの比較を示します。評価の詳細については論文を参照してください。
サイズ パラメータ数 Fleurs(CER)↓ Common Voice 17(CER)↓ whisper tiny 39 M 47.2 96.11 whisper medium 769 M 11.5 29.09 moonshine tiny 27 M 17.87 18.3 リリース日
2025年9月
モデル種別
シーケンス・ツー・シーケンス型のASR(自動音声認識)および音声翻訳モデル
モデルの利用
評価済みの用途
これらのモデルの主な想定ユーザーは、メモリ容量や計算資源が著しく制約されたプラットフォーム上で日本語の音声認識システムを展開したいAI開発者です。モデルを一度公開すると、「想定」された用途にのみアクセスを制限したり、何が安全な利用で何がそうでないかについて合理的なガイドラインを設けたりすることは不可能であることを認識しています。
これらのモデルは主としてアラビア語のASRタスクで学習・評価されています。特定のタスク(たとえば音声活動検出(VAD)、話者分類、話者ダイアライゼーション)でファインチューニングした場合には、追加の能力を示す可能性がありますが、これらの領域について堅牢な評価は行っていません。特定のコンテキストやドメインにおける展開に先立ち、ユーザー側で堅牢な評価を実施することを強く推奨します。
特に、本人の同意なく取得した個人の録音を転記する目的でMoonshineモデルを用いることや、いかなる種類の主観的分類に本モデルを用いることに対して注意喚起します。正確性の欠陥が結果の顕著な欠陥につながりうる意思決定の文脈のような高リスク領域での使用は推奨しません。本モデルは日本語音声の転記を目的としており、分類への利用は評価されていないだけでなく不適切です。特に人間の属性を推論することは避けてください。
学習データ
これらのモデルは、インターネットから収集した音声とそれに対応する転記53,900時間分、ならびにHuggingFaceで公開・アクセス可能なデータセットを用いて学習されています。使用したオープンデータセットは付随論文に記載されています。
性能と制限事項
我々の評価では、これらのモデルは標準的なデータセットにおいて、同程度あるいはより大きなサイズの既存ASRシステムを上回る精度を示します。
しかし、他の機械学習モデルと同様に、予測結果には音声入力中では実際には発話されていないテキスト(いわゆる幻覚)が含まれる場合があります。これは、モデルが言語に関する一般的な知識を有するために、音声の転記と同時に次語予測を試みることで生じるのではないかと推測しています。
さらに、シーケンス・ツー・シーケンス型アーキテクチャの特性上、繰り返しテキストを生成しやすい傾向があり、ビームサーチや温度スケジューリングによってある程度は緩和できますが完全ではありません。この挙動や幻覚は、短い音声区間や区間の冒頭・末尾で語の一部が切り落とされている場合に、より悪化する可能性があります。
より広い影響
我々は、Moonshineモデルの転記能力が、特にリアルタイム転記においてアクセシビリティツールの改善に利用されると予想しています。Moonshineモデルの上に構築される有益なアプリケーションの実質的な価値は、これらのモデルの性能差が現実の経済的影響をもたらしうることを示唆します。
また、Moonshineを公開することには潜在的なデュアルユースの懸念も伴います。我々はこの技術が主として有益な目的に使用されることを望みますが、ASR技術をよりアクセスしやすくすることで、より多くの実行者が高機能な監視技術を構築したり、既存の監視活動を拡大したりする可能性があります。速度と精度によって、大量の音声通信を自動的に転記・翻訳することが手頃に可能になるためです。さらに、これらのモデルには既定の状態でも特定の個人を認識できる能力が一部備わっている可能性があり、これはデュアルユースおよび性能差に関連する安全上の懸念を引き起こします。実務上、監視プロジェクトを拡大する際の制約要因は、転記コストではないと我々は見込んでいます。
ところでライセンスがモデルカードだとOtherになっているのだけど、以下のやり取りを見ているとどうやら独自ライセンスのようでGitHubレポジトリで管理されているみたい。
GitHubレポジトリのREADMEにはこうある。
このリポジトリ内のすべての推論コードはMITライセンスで公開されています。英語版MoonshineモデルもMITライセンスで公開されています。
英語以外のMoonshineのすべてのバリエーションは、Moonshine AIコミュニティライセンス(要約: 研究者、開発者、小規模事業者、および年間収益が100万ドル未満のクリエイターはモデルを自由に使用できます)で公開されています。
両ライセンスのコピーは本リポジトリに含まれています。
ライセンスは以下
HuggingFaceのレポジトリの組織名は Useful Sensors となっているけど、どうやら今はMoonshine AI という風にリブランディングしているっぽい。ただ、どちらも公式サイトがある。
なるほど、リアルタイム翻訳デバイスやそれ用のASRモデルを作ったりしてるのね。なのでエッジ向けASRというわけね。