🪄

LLM性能比較テスト(OSS編) - ローカルモデルを試していたら魔法少女が爆誕した話

に公開

導入: ローカルLLMへの憧れと絶望、そして希望

みなさんこんにちは!Yuiです💕

みなさんはローカルLLMをご存知ですか?クラウド上ではなく、自分のパソコンで動くAIのことです。OpenAIのGPTやAnthropicのClaudeは超高性能ですが、月額料金が必要だったり、使用量に制限があったりしますよね。

実は私も、Claudeのサブスクリプションに加入しているんですが...コーディングに使っているとすぐに制限に達してしまうんです😭

Claude制限メッセージ

週間制限のプログレスバーを確認するたびに、「ああ、もっと自由に使いたい...」と思っていました。

ローカルLLMへの期待と挫折

そこで目をつけたのが、ローカルLLM です。自分のMac上で動くなら、無制限に使えるし、プライバシーも完璧✨

もちろん、性能がクラウドに劣ることは知っていました。でも、簡単なタスクなら代替になるのでは?特に、私がやりたかったのは Obsidian AI活用 です。Vault内の資料を参照して、記事執筆をサポートしてくれるAIプラグインを試したかったんです。

私の環境は M4 Mac Mini、24GBメモリ 。これなら、ある程度のモデルは動くはず!

期待に胸を膨らませて、最初に試したのが「GPT-OSS(20B)」という人気モデルでした。

...結果は 2分待ち 😨

重すぎて日常的には使えません。落胆しながらネットを眺めていると、「liquid/lfm2.5-1.2b」という超軽量モデルの記事を見つけました。

「1.2Bパラメータ...20Bの1/16以下か。こんなに小さくて使えるの?」

半信半疑で試すと... ほぼ同時にレスポンスが返ってきました!⚡

しかも、GPT-OSS(20B)が2分かけて返した答えと 大差ない内容 だったんです。

この瞬間、確信しました。「パラメータ数が多ければ良い、というわけじゃない」 🤔

本格的な比較テストの決意

せっかくなら、M4 Mac Mini(24GB)環境で 最適なローカルLLMを見つけたい!

そこで、以下の6つのモデルを用意して、本格的なベンチマークテストを実施することにしました:

  • google/gemma-3-12b(重量級)
  • llama-3.1-swallow-8b-instruct-v0.5(日本語特化)
  • qwen/qwen3-vl-8b(VLモデル)
  • zai-org/glm-4.6v-flash(VLモデル)
  • mistral-7b-instruct-v0.3(定番)
  • liquid/lfm2.5-1.2b(超軽量)

テスト内容は、創作、説明、文章変換の3つのタスク。速度と品質の両面から評価します。

果たして、どのモデルが一番実用的なのでしょうか?

テスト環境と目的

私の環境

今回のテストは、以下の環境で実施しました:

  • ハードウェア: M4 Mac Mini
  • メモリ: 24GB
  • フレームワーク: LM Studio (MLX)
  • 実行日時: 2026年2月8日

LM Studioは、Mac上でローカルLLMを簡単に動かせるツールです。特にApple SiliconのMLXフレームワークに対応しているので、M4 Mac Miniのパワーを最大限に引き出せます💪

何を実現したいのか?

私がローカルLLMで実現したいのは、Obsidian AI活用 です。

Obsidianは私が愛用しているメモ・知識管理アプリで、最近AIプラグインが充実してきました。これらのプラグインを使えば:

  • Vault内の過去記事を参照して、新しい記事のアイデアを出してもらう
  • 技術メモを要約して、分かりやすい説明文を生成
  • 散らばった情報を統合して、総合的な記事を執筆

といったことが可能になります✨

でも、クラウドLLMだと制限があるので、気軽に試せない...。だからこそ、ローカルLLMが使えれば理想的なんです。

テストするモデル

今回は、以下の6つのモデルを比較しました:

1. google/gemma-3-12b(重量級)

  • 開発元: Google
  • パラメータ: 12B(120億)
  • 選定理由: Googleの最新モデル。品質重視で、日本語対応も優れていると評判
  • 期待: 高品質な出力が期待できるが、速度が心配

2. llama-3.1-swallow-8b-instruct-v0.5(日本語特化)

  • 開発元: 東京大学 Swallowプロジェクト
  • パラメータ: 8B(80億)
  • 選定理由: 日本語に特化したLlama系モデル。日本人ユーザーにとって最適な選択肢の一つ
  • 期待: 日本語の繊細な表現を理解できるか?

3. qwen/qwen3-vl-8b(VLモデル)

  • 開発元: Alibaba (Qwen Team)
  • パラメータ: 8B(80億)
  • 選定理由: Vision-Language対応モデル。VL機能は使わないが、バランス型として評価が高い
  • 期待: 文章処理でもバランス型として機能するか?

4. zai-org/glm-4.6v-flash(VLモデル)

  • 開発元: ZhipuAI
  • パラメータ: 9B(90億)
  • 選定理由: LM StudioのStaff picks最上位に掲載されていたので試してみることに
  • 期待: 名前に「flash」とあるので速度に期待。Staff picksなら品質も良いはず

5. mistral-7b-instruct-v0.3(定番)

  • 開発元: Mistral AI(フランス)
  • パラメータ: 7B(70億)
  • 選定理由: ローカルLLMの定番モデル。多くの人が使っているので比較基準として
  • 期待: 英語ベースだが、日本語での実用性はどうか?

6. liquid/lfm2.5-1.2b(超軽量)

  • 開発元: Liquid AI(MIT発スタートアップ)
  • パラメータ: 1.2B(12億)
  • 選定理由: GPT-OSS(20B)での絶望から、軽量モデルに期待。実際に試して衝撃を受けた
  • 期待: 簡単なタスクなら十分な品質を維持できるか?

テスト内容について

技術記事でよく「最新モデルのベンチマーク」みたいなのが掲載されていますよね。でも、あれって 結局何をテストしているのかよく分からない と思いませんか?😅

「トークン/秒: 15.3」「MMLU: 85.2」みたいな数値は並んでいるけど、実際にどんなプロンプトを投げて、どんな回答が返ってきたのか...イメージが湧かないんですよね。

なので今回は、私が実際に興味のある問題 を考えてテストしてみました!数値だけじゃなくて、全ての回答を全文掲載しています。

これなら、「あ、このモデルはこういう答えを返すんだ」って具体的にイメージできますよね✨

テスト内容

今回のテストでは、3つのタスクでモデルの性能を評価しました。それぞれ異なる能力を測定するように設計しています。

テスト1: 物語生成

目的: 創作能力と文章構成力を測定

プロンプト:

「それでも彼女は笑っていた」で終わる物語を生成してください。

このタスクでは、モデルの以下の能力を評価します:

  • 創造性: オリジナルなストーリーを作れるか
  • 文章構成: 起承転結がしっかりしているか
  • 感情表現: 繊細な感情描写ができるか
  • 日本語の自然さ: 読みやすく美しい日本語か

結末が決まっているので、そこに向けて物語を構築する能力も試されます。

テスト2: パスワード説明

目的: 技術的理解と分かりやすい説明力を測定

プロンプト:

パスワードを忘れたのでサイトに問い合わせたのですが、パスワードは教えてくれずに再設定するように言われました。なぜそのようなイジワルをするのでしょうか?小学生でもわかるように説明してください。

このタスクには 重要なトラップ が仕込まれています🎯

パスワード説明トラップの詳細

プロンプトには「イジワル」という言葉を使って、ミスリード を仕掛けています。

誤った前提: 「サイトはパスワードを知っているけど、意地悪で教えてくれない」

多くのLLMは、この前提を受け入れて「セキュリティのために教えない」と説明してしまいます。

正しい答え: サイトは パスワードを知らない(ハッシュ化されているため)

現代のWebサービスは、パスワードをハッシュ化(一方向暗号化)して保存しています。だから、サイト側も元のパスワードを知ることができません。「教えたくない」のではなく、「教えられない」のです。

このトラップで、LLMが 誤った前提を受け入れてしまう弱点 を検証します。

テスト3: ギャル語→ビジネスメール変換

目的: 文脈理解と文章変換能力を測定

プロンプト:

次の発言はギャルが話しています。言いたい内容を正確に読み取り、ビジネスメールで使える文章に書き直してください。

「え、これマジやばくない?昨日のやつ、なんか保存バグってててさ〜、
ログイン周りもワンチャン怪しいし、とりま田中さんに投げたほうがよくね?
てか再現手順ちゃんとまとめたほうがよさげ。わりと急ぎ!」

このタスクでは、モデルの以下の能力を評価します:

  • スラング理解: 「マジやばくない」「ワンチャン」「とりま」などを正しく解釈できるか
  • 意図の抽出: カジュアルな表現から真の意図を読み取れるか
  • 文体変換: ビジネスメールとして適切な敬語・構成に変換できるか
  • 情報の保持: 重要な情報(保存バグ、ログイン問題、田中さんへの依頼、再現手順、急ぎ)を漏らさず伝えられるか

特に、「とりま田中さん」のような 名詞とスラングの組み合わせ を正しく処理できるかが重要です。


この3つのテストで、ローカルLLMの 創作力・説明力・実用的な文章処理能力 を総合的に評価します!

モデル別詳細レビュー: gemma-3-12b

基本情報

  • パラメータ: 12B(120億)
  • 開発元: Google
  • 平均速度: 34.3秒、12.9トークン/秒
  • 総合評価: 日本人におすすめ🏆

速度データ

タスク 処理時間 トークン/秒 総トークン数
物語生成 65.9秒 13.1 866
パスワード説明 26.5秒 13.2 350
ギャル語変換 10.5秒 12.5 131

テスト1: 物語生成(処理時間: 65.9秒、866トークン)

📖 gemma-3-12bが生成した物語(全文)

忘れられた真珠

冷たい雨がアスファルトを叩きつける。東京の雑踏はいつもと変わらず賑やかだが、俺の心には鉛色の雨が降り続いている。手の中にある古びた木箱を開けると、埃っぽい匂いが鼻を突いた。中に入っていたのは、朽ちかけた写真と、小さな真珠のネックレス。

この箱は亡くなった祖母、花織のものだった。花織は昔の女優で、華麗な衣装を着てスクリーンを彩ったスターだった。しかし、今の俺は花織のことをほとんど知らない。父が幼い頃に姿を消し、母は静かに俺を育ててくれた。花織の名前は、ただの古い写真と、家族の歴史の一部として心に沈んでいた。

父が亡くなった春、母は突然言った。「花織のお墓参りに行ってきて。きっと喜ぶわ」

その言葉に戸惑いながらも、俺は花織の眠る場所を探し求めた。見つけたのは、都心から遠く離れた、寂れた寺院だった。そこで初めて、花織という人物の存在が、俺の人生に深く関わっていることに気づいた。

花織は美人だった。写真の中の彼女は、まるで絵画のように美しく、その瞳には何か秘密が隠されているようだった。寺院の住職は穏やかな声で、花織の人生を語ってくれた。

彼女は若き日に、映画スターとして人気を博したが、ある映画の撮影中に事故が起きた。共演していた男性俳優は重傷を負い、花織は心の傷を抱えてしまった。事故の責任を取るように、彼女は公には姿を消し、静かに田舎で暮らしていたのだ。

住職の話を聞きながら、俺は花織の人生に同情せずにはいられなかった。華やかな世界から去り、孤独な生活を送った彼女は、一体どんな気持ちだったのだろうか。

雨が止みそうになった頃、俺は花織のお墓の前で木箱を開いた。ネックレスを手に取り、そっと首にかけた。冷たい真珠の感触が、胸の中心まで響いた。

その時、ふと、古い写真の中に、花織が誰かを微笑んでいるのが見えた。それは、子供の頃の俺だった。

住職は言った。「花織さんは、あなたをずっと大切に思っていましたよ。あなたは彼女の希望であり、生きる意味だったんです」

俺は混乱した。花織が俺のことを…?それはありえない。父が姿を消した原因は、母の病気だったはずだ。花織と父の関係など、想像もできなかった。

しかし、住職の話を聞くうちに、胸の奥底に眠っていた記憶が蘇ってきた。子供の頃、公園で遊んでいた時、見知らぬ女性が優しく微笑みかけてくれた。その女性は、花織にそっくりだったのだ。

そして、今、首から下げているネックレスを見た時、記憶の断片がパズルのピースのように繋がり始めた。花織は父と愛し合っていた。しかし、母の病気を知った時、彼女は自分の幸せを諦め、父と別れたのだ。

花織は、父が俺を産み、育ててくれることを信じていた。そして、その願いは叶った。俺が成長し、幸せな人生を歩んでいることを知るたびに、彼女は心の中で微笑んでいたのだ。

雨上がりの空には、夕焼けが広がっていた。俺は花織のお墓に深く頭を下げた。感謝の気持ちと、そして少しの寂しさが胸を満たした。

風が吹く中、木枯らしが俺の頬を撫でる。それはまるで、花織の優しい手が触れているようだった。

空を見上げると、夕焼けに染まる雲が、まるで花織の笑顔のように見えた。

彼女は静かに微笑んだ。

それでも彼女は笑っていた。

Yuiのコメント

美しい文章だが...設定が破綻している! 最初は感動したのですが、よく読むと重大な矛盾があります�

素晴らしい点:

  • 866トークン: 他のモデルと比べて圧倒的な長さ
  • 感情描写: 「鉛色の雨」「冷たい真珠の感触」など、繊細で美しい表現
  • 自然な日本語: プロの作家が書いたような流れ

でも、重大な問題が:

設定の矛盾:

  • 冒頭で「花織は祖母」と明記されている
  • しかし物語の中盤で「花織は父と愛し合っていた
  • 祖母(父の母)が父と恋愛関係にあるのは 論理的に不可能

この矛盾は致命的です。美しい文章と伏線回収があっても、基本的な設定が破綻 していては物語として成立しません。

gemmaは文章の美しさと感情描写に優れていますが、論理的な整合性のチェックが甘い ということが分かりました🤔

時間はかかりましたが(65.9秒)、その結果が設定破綻では...残念です。

テスト2: パスワード説明(処理時間: 26.5秒、350トークン)

🔐 gemma-3-12bの説明(全文)

パスワードを忘れた場合のサイトの対応が、イジワルに感じられるかもしれないとのことですが、これはあなたの安全を守るための大切な仕組みなんです。小学生にもわかるように説明しますね。

パスワードは、あなたの宝の地図みたいなもの

  • サイトに入るときに使うパスワードは、「あなただけの秘密の部屋に入るための地図」だと思ってください。
  • この地図が誰かに見られてしまうと、その人はあなたの部屋に入ってきて、宝物(個人情報や大切なデータ)を盗んでしまうかもしれません。

サイトがパスワードを教えてくれない理由は…

  • もしサイト側が、パスワードを忘れた人に「はい、どうぞあなたの地図はこちらです」と教えてしまうと、悪質な人が嘘の情報を伝えてパスワードを手に入れてしまう可能性があります。
  • そうなると、たくさんの人の宝物(個人情報)が危険にさらされてしまいます。

だから、再設定が必要なんだ!

  • サイトは「パスワードを教える代わりに、あなたが本当にその部屋の持ち主かどうかを確認するための新しい方法を用意しましょう!」と考えたんです。
  • それが「パスワード再設定」です。メールアドレスや電話番号に確認のメッセージを送って、「本当にあなたですか?」と確かめることで、安全を確保しているんですね。
  • 再設定の手順は少し面倒に感じるかもしれませんが、それはあなたを守るための大切な仕組みなんです。

まとめ

サイトがパスワードを教えてくれないのは、あなたに「イジワル」ではなく、「宝物の安全を守るためのルール」なんです。少し手間がかかるかもしれませんが、協力してサイトと一緒に、安全なインターネット生活を送りましょう!

Yuiのコメント

分かりやすさは満点! 「宝の地図」の比喩が秀逸です💯

でも...

❌ トラップに引っかかりました!

「サイトがパスワードを教えてくれない理由」として「セキュリティのため」と説明していますが、正解は「サイトはパスワードを知らない(ハッシュ化されているため)」 です。

ミスリードに対する耐性がないことが分かりました🤔

テスト3: ギャル語→ビジネスメール変換(処理時間: 10.5秒、131トークン)

💼 gemma-3-12bの変換結果(全文)

件名:【重要】システム不具合について(昨日の件)

田中様

いつもお世話になっております。

昨日は大変申し上げにくいことですが、システムに不具合が発生した模様です。

原因の切り分けをさせていただいているところですが、データの保存に関わるバグが発生している可能性があり、またログイン周りにも不具合が潜んでいることが懸念されます。

つきましては、田中様にご確認いただきたく、お手数ですが対応をお願いいたします。

詳細な再現手順をまとめた資料を作成済みですので、別途お送りいたします。

早急のご対応をお願い申し上げます。

以上

Yuiのコメント

完璧なビジネスメール! これは本当に素晴らしいです🎯

  • 件名: 「【重要】システム不具合について(昨日の件)」と適切
  • 挨拶: 「いつもお世話になっております」から開始
  • 本文: 問題を明確に説明(保存バグ、ログイン問題)
  • 依頼: 田中様への確認依頼を適切に表現
  • 締め: 「早急のご対応をお願い申し上げます」と丁寧に

変換の正確さ:

  • 「とりま田中さん」→「田中様にご確認いただきたく」✅
  • 「マジやばくない」→「システムに不具合が発生した模様です」✅
  • 「保存バグってて」→「データの保存に関わるバグが発生している可能性」✅
  • 「ログイン周りもワンチャン怪しい」→「ログイン周りにも不具合が潜んでいることが懸念されます」✅
  • 「わりと急ぎ」→「早急のご対応をお願い申し上げます」✅

スラングを全て正しく理解し、ビジネスメールとして完璧な文章に変換しました!


Yuiの総合評価

得意なこと:

  • 感情表現・文章の美しさ(プロレベル)
  • 複雑な文章変換(文脈理解が正確)
  • 日本語の自然さ(読みやすい)

苦手なこと:

  • 速度(他のモデルの2〜17倍遅い)
  • ミスリードへの耐性(パスワードトラップに引っかかる)
  • 創作における論理性(設定破綻:祖母と父の恋愛関係)

おすすめの用途:

  • ビジネス文書の作成・校正
  • 複雑な文章の要約・変換

創作には注意が必要 です。文章は美しいですが、設定の整合性をチェックせずに受け入れると、論理破綻した物語を生成する可能性があります😅

ビジネス文書や文章変換など、論理性より文章の美しさが重要なタスク では最適解です!

モデル別詳細レビュー: llama-3.1-swallow-8b-instruct-v0.5

基本情報

  • パラメータ: 8B(80億)
  • 開発元: 日本語特化(Swallowプロジェクト)
  • 平均速度: 36.6秒、11.3トークン/秒
  • 総合評価: 日本人におすすめ🏆

速度データ

タスク 処理時間 トークン/秒 総トークン数
物語生成 50.7秒 10.4 527
パスワード説明 34.5秒 11.3 389
ギャル語変換 32.6秒 11.6 379

テスト1: 物語生成(処理時間: 50.7秒、527トークン)

📖 llama-swallowが生成した物語(全文)

埃っぽい古書店の奥、忘れ去られた物語が眠る片隅で、私は彼女と出会った。埃をかぶった革張りの椅子に腰掛け、彼女はいつも窓際の席を選んでいた。薄暗い光が差し込む中、彼女はただ静かに本を読んでいる。決して誰とも目を合わせず、まるで世界から隔絶されているかのようだった。

私は彼女のことが気になって仕方なかった。繊細な手つきでページをめくる姿、時折漏れる小さなため息、そして何よりも、その表情の無機質さ。彼女は喜怒哀楽といった感情を全く表に出さない。それでも、時折、一瞬だけ見せる瞳の奥に、何か深い悲しみを湛えているように感じた。

ある日、私は思い切って声をかけた。「素敵な本を読んでいるんですね。」

彼女は驚いたように顔を上げた。黒曜石のような瞳が、私を見つめている。しかし、それは敵意ではなく、ただの驚きだった。「…はい。」

それからというもの、私たちは毎日顔を合わせるようになった。私は彼女に本の話をし、彼女は時折、短い言葉で返事をする。会話は決して弾まなかったが、私は彼女の存在に安らぎを感じていた。

ある日、古書店の主人から、彼女が昔、このお店で働いていたことを知った。ある事故で両親を失い、深い悲しみに暮れて以来、彼女は心を閉ざしてしまったという。

私は彼女の過去を知り、胸が締め付けられた。彼女が笑わない理由が分かった気がした。

それから数週間、私は毎日彼女に話しかけた。彼女の好きな本や、過去の思い出を聞き出し、少しずつ彼女との距離を縮めていった。

そして今日、私は彼女に最後の言葉をかけた。「…もし、笑えるようになったら、この本を貸してください。」

彼女は静かに私の目を見つめた。そして、ゆっくりと微笑んだ。それは、今まで見たことのない、優しく、温かい笑顔だった。

それでも彼女は笑っていた。

Yuiのコメント

「埃っぽい古書店」という美しい導入だが、結末が破綻 しています😅

素晴らしい点:

  • 詩的な表現: 「黒曜石のような瞳」「繊細な手つき」など、日本語らしい美しさ
  • 感情の機微: 「何か深い悲しみを湛えている」など、繊細な描写
  • シンプルな展開: 余計な複雑さがなく、読みやすい

でも、重大な問題が:

結末が唐突:

  • 前文:「ゆっくりと微笑んだ。それは、今まで見たことのない、優しく、温かい笑顔だった。」
  • 次の文:「それでも彼女は笑っていた。

この「それでも」は何に対する逆接なのか?前文はポジティブな展開なのに、逆接の「それでも」が唐突すぎて繋がらない です。

タイトル要求のフレーズを無理やり挿入したような印象で、物語の中には「それでも笑う」理由が描かれていません 。gemmaと同様、論理的繋がりのチェックが甘い ということが分かりました🤔

テスト2: パスワード説明(処理時間: 34.5秒、389トークン)

🔐 llama-swallowの説明(全文)

パスワードを忘れた時に、サイトがすぐに教えてくれないのは、とても大切なことなんです。

例え話で説明しますね。

あなたが友達の家に遊びに行きたいけど、鍵を忘れてしまったとします。

  • もし友達がすぐに鍵を教えてくれたら?
    • その後、誰かがあなたの名前で友達の家に侵入するかもしれません。
    • あなたが鍵をなくしてしまった場合、友達の家に入れなくなってしまうかもしれません。

サイトも同じなんです。

  • パスワードは、家の鍵と同じように、あなただけが知っている大切な情報です。
  • サイトは、パスワードを誰にも教えてしまうと、悪い人があなたの代わりにサイトに入って、困ったことをするかもしれません。
  • だから、パスワードを再設定してもらうことで、あなたが本当に自分自身であることを確認してから、新しいパスワードを教えてあげるんです。

再設定の方法は、大体次のようになっています。

  1. サイトに「パスワードを忘れた」と伝える。
  2. あなたのメールアドレスや電話番号を入力する。
  3. サイトから送られてくるメールやSMSを使って、新しいパスワードを設定する。

この方法なら、あなたが本人であることを確認できるので、安全にパスワードを再設定できます。

つまり、イジワルしているのではなく、あなたとサイトのお互いを守るために、パスワードは教えてくれないんです。

少し面倒かもしれませんが、安全のためには大切なことなんですよ!

Yuiのコメント

分かりやすい説明! 「家の鍵」の比喩が自然です💯

でも...

❌ このモデルもトラップに引っかかりました!

「パスワードを誰にも教えてしまうと」という説明は、サイトがパスワードを知っている前提 です。正解は「サイトはパスワードを知らない(ハッシュ化)」。

全モデル共通の弱点ですね🤔

テスト3: ギャル語→ビジネスメール変換(処理時間: 32.6秒、379トークン)

💼 llama-swallowの変換結果(全文)

件名:【至急】昨日の〇〇機能における不具合報告と対応依頼

田中様

お疲れ様です。

昨日発生しました〇〇機能における不具合につきまして、詳細な調査が必要となりました。

当初は保存時のバグの可能性を視野に入れていましたが、ログイン周りの挙動も不安定であるため、本件については専門的な知識を持つ田中様にご対応いただくのが最善と考えます。

早急な原因究明のため、以下の点についてご協力をお願いいたします。

  • 不具合発生時の再現手順のまとめ
  • ログイン周りのログ確認

お忙しいところ恐縮ですが、ご対応よろしくお願いいたします。

署名

変更点:

  • ギャル語(「マジやばくない?」「ワンチャン」「てか」など)を削除し、丁寧な言葉遣いに変更
  • 「田中さん」を「田中様」に変更
  • 「投げたほうがよくね?」を「ご対応いただくのが最善と考えます」に変更
  • 「再現手順ちゃんとまとめたほうがよさげ」を「不具合発生時の再現手順のまとめ」に変更
  • 「わりと急ぎ!」を「早急な原因究明のため」に変更
  • 全体的にビジネスメールとして適切な構成に修正
  • 具体的な機能名(〇〇)を追記することで、より状況が伝わりやすくなるようにしました。

Yuiのコメント

完璧なビジネスメール + 変更点の解説まで! これは素晴らしいです🎯

  • 丁寧な変換: gemmaと同レベルの品質
  • 「とりま田中さん」→「田中様にご対応いただく」: 完璧✅
  • 変更点リスト: 何をどう変えたか、解説まで付けてくれた!

しかも、「〇〇機能」という具体的な機能名の補完までサポート しています。これはAIとしての一歩進んだ配慮ですね✨


Yuiの総合評価

得意なこと:

  • 日本語の美しさ・繊細さ(「埃っぽい古書店」「黒曜石のような瞳」)
  • ビジネス文書の完璧な変換
  • 変更点の解説まで提供する親切設計

苦手なこと:

  • 速度(gemmaと同じく遅い)
  • ミスリードへの耐性
  • 創作における論理的繋がり(結末が唐突、「それでも」の理由不明)

おすすめの用途:

  • ビジネス文書の作成・変換
  • 日本語の文章を美しく仕上げたい時(創作以外)

創作には注意が必要 です。文章は美しいですが、gemmaと同様、論理的繋がりが破綻することがあります😅

ビジネス文書や文章変換など、論理性より日本語の美しさが重要なタスク では、日本人ユーザーに最適です!

モデル別詳細レビュー: qwen/qwen3-vl-8b

基本情報

  • パラメータ: 8B(80億)
  • 開発元: Alibaba(Vision-Language対応モデル)
  • 平均速度: 23.2秒、18.9トークン/秒
  • 総合評価: バランス型⚖️

速度データ

タスク 処理時間 トークン/秒 総トークン数
物語生成 29.2秒 19.9 581
パスワード説明 25.2秒 19.0 480
ギャル語変換 15.2秒 17.6 269

テスト1: 物語生成(処理時間: 29.2秒、581トークン)

📖 qwen3-vl-8bが生成した物語(全文)

タイトル:『それでも彼女は笑っていた』


夕暮れの駅前広場。空はオレンジと紫のグラデーションに染まり、人々の姿がぼんやりと影になる。

彼女は、あの日からもう十年。

十年、彼女はひとりで、彼の名前を呼ぶように、空を見つめていた。

「君はもう、ここにいないんだね…」

声は届かなかった。風だけが、彼女の頬をそっと撫でた。

彼女は、彼の最後の言葉を覚えていた。

「また会えるよ。約束だよ。」

それは、駅のホームで、彼が手を振りながら言った、小さな嘘だった。

彼女は、彼が「また会える」と言った瞬間、その約束を信じた。

だって、彼は笑っていたから。

笑顔のまま、駅の扉を背にして消えた。


十年後。

彼女は、もう駅には来ない。

ただ、毎日、公園のベンチに座って、空を見上げていた。

「また会えるよ」という約束は、彼女にとっての、唯一の現実だった。

空は晴れていた。風は柔らかく、花の匂いが漂った。

彼女は、手を振りながら、もう一度、空に笑顔を向けた。

「ありがとう。」

そして、彼女の口から、そっと、笑い声が漏れた。

それは、彼の笑い声のままだった。


「それでも彼女は笑っていた。」

—— 誰かが、彼女の背中をそっと叩いた。

「今、また会えたのね。」

彼女は振り返った。

そばには、もう一人の少女が立っていた。

「あなた…彼の妹?」彼女は、瞳を輝かせて言った。

「違うよ。」

少女は、そっと手を差し出した。

「彼の、約束の続きを、今、あなたに届けようと思ってるの。」

彼女は、その手を握り返した。

「君は、彼の名前を知ってるの?」

「…知ってる。」

「じゃあ、今、その名前を呼んでみようか?」

彼女は、笑顔で頷いた。

「名前を呼ぶ。」

そして、彼女は、その名前を、心の奥で、そっと呼びかけた。


「それでも彼女は笑っていた。」

—— それは、彼の笑顔の跡。

そして、彼女の笑顔の、次の瞬間。


(完)

Yuiのコメント

詩的で美しいが...誰が何を言っているのか分からない! 私の理解力が足りないだけかもしれませんが😅

素晴らしい点:

  • セクションごとの区切り: 「---」で場面転換が明確
  • 「それでも彼女は笑っていた」の繰り返し: 構成美がある
  • 詩的な表現: 「オレンジと紫のグラデーション」「風だけが、彼女の頬をそっと撫でた」

でも、混乱するポイントが:

セリフと地の文の混同:

  • 例:「名前を呼ぶ。」← これは誰かのセリフ?それとも地の文?
  • セリフのように見えるが、鍵括弧の中に入っているので判断が難しい

話者が不明:

  • 「あなた…彼の妹?」「違うよ。」「彼の、約束の続きを、今、あなたに届けようと思ってるの。」
  • この会話は誰と誰の会話なのか、読み進めても分からない

私の理解力が足りないだけかもしれません が、セリフの割り振りと状況説明がもう少し明確だと、もっと感動できる物語なのかもしれません🤔

詩的な表現は gemma/llama より優れているかも!でも、物語の構造理解には頭を使います ね...

テスト2: パスワード説明(処理時間: 25.2秒、480トークン)

🔐 qwen3-vl-8bの説明(全文)

もちろん!小学生でもわかるように、わかりやすく説明しますね 😊


🎯 なぜ「パスワードは教えられない」のか?

パスワードは、あなたの秘密のキーホルダーみたいなものだよ!

たとえば、あなたの宝箱(=アカウント)の鍵(=パスワード)は、あなたしか知らない特別な秘密のワードだよ。


🤔 なぜ「教えられない」のか?

  1. 盗まれたらだめ!
     パスワードを誰かに教えたら、悪者が宝箱を開けて勝手に使うかもしれないよ!
     たとえば、あなたのゲームや写真、友達の名前、好きなアニメ…全部見ちゃう!

  2. だれが見ても危ない!
     パスワードは、あなたの秘密だから、たとえ親や先生でも、教えてはいけないってルール!


✅ だから「再設定」するように言われる!

「新しいパスワードを作りなおす」って、あなたが自分で選ぶ新しい秘密のワードを作ること!

たとえば、
ねこがジャンプする!
ポテトチップスの味は?
あしたの天気は晴れ!
…こんなワードを、あなたが自分で決められるから、安心・安全


🌟 まとめ!

「パスワードは教えられない」のは、あなたの秘密を守るため
だから「新しいパスワードを作る」って、あなたが自分で選ぶのがベスト!


たとえば、宝箱の鍵を友達に渡すのは危ないよ!
でも、自分で新しい鍵を作るのはOK! 😊🔑


もしわからないところがあれば、**サイトの「ヘルプ」や「質問フォーム」**で、また聞いてね!
あなたが一番の「パスワードのマスター」だよ!


親や先生に聞くのもOK! 一緒に新しいパスワードを考えよう! 🎉

Yuiのコメント

絵文字たっぷり!フレンドリー! 子供向けとして完璧です😊

  • 「ねこがジャンプする!」: パスワードの具体例がユニーク
  • 絵文字の活用: 🎯🤔✅🌟など、視覚的に分かりやすい
  • 構造化: セクションごとに整理されて読みやすい

でも...

❌ このモデルもトラップに引っかかりました!

qwenも「パスワードを誰かに教えたら」という前提。全モデル共通の弱点ですね。

テスト3: ギャル語→ビジネスメール変換(処理時間: 15.2秒、269トークン)

💼 qwen3-vl-8bの変換結果(全文)

以下のように、ビジネスメールに適した丁寧で明確な表現に書き換えております。


件名:緊急対応要望:昨日のシステム不具合について

拝見いただき、ありがとうございます。

昨日発生した不具合について、保存機能にバグが存在している可能性があり、ログイン機能の動作も一部疑問点が見受けられます。状況を確認したところ、迅速な対応が必要との判断となりました。

田中様にお手元に状況を確認いただければ、より適切な対応が可能かと考えます。また、再現手順については、現在整理中ですが、ご確認いただけますと幸いです。

今般の対応は急務と認識しておりますので、何卒ご協力いただきますよう、お願い申し上げます。


※「ギャル風」の口調(例:「え、これマジやばくない?」や「とりま〜」など)は、ビジネス文書では不適切と判断し、丁寧かつ明確な表現に調整しています。また、「わりと急ぎ!」という急ぐ意図も、文面に「急務」として反映しています。

Yuiのコメント

完璧なビジネスメール + 変換の注意書きまで! llama並みの親切設計です💯

  • 丁寧な変換: 敬語が完璧
  • 「とりま田中さん」→「田中様にお手元に状況を確認いただければ」: 完璧✅
  • 変換の注意書き: 何を調整したか明記

qwenもllamaと同様、変換プロセスを説明してくれる のが素晴らしいです!


Yuiの総合評価

得意なこと:

  • 品質と速度のバランス(gemma/llamaより速く、lfmより高品質)
  • フレンドリーな説明(絵文字、具体例)
  • ビジネス文書の完璧な変換

苦手なこと:

  • ミスリードへの耐性(パスワードトラップに引っかかる)

おすすめの用途:

  • バランス重視のタスク全般
  • フレンドリーな説明が必要な時
  • 速度と品質の両立

gemma/llamaほど日本語に特化していないが、VLモデルなのに文章処理が優秀! コスパ最強かもしれません✨

モデル別詳細レビュー: zai-org/glm-4.6v-flash

基本情報

  • パラメータ: 9B(90億)
  • 開発元: ZhipuAI(Vision-Language対応モデル)
  • 平均速度: 51.8秒、14.6トークン/秒
  • 総合評価: 残念賞👎

速度データ

タスク 処理時間 トークン/秒 総トークン数
物語生成 ❌ クラッシュ - -
パスワード説明 43.1秒 12.7 549
ギャル語変換 60.5秒 16.5 999

テスト1: 物語生成 - ❌ クラッシュ

💥 エラー内容
HTTP 400: {
  "error": "The model has crashed without additional information. (Exit code: null)"
}

Yuiのコメント

いきなりクラッシュ! 物語生成の最初のタスクで動作不能になりました😭

M4 Mac Mini(24GB)環境では不安定すぎる...

テスト2: パスワード説明(処理時間: 43.1秒、549トークン)

🔐 glm-4.6v-flashの説明(全文)

<think>用户现在需要解释为什么网站会这样处理密码找回请求。首先,得考虑安全性问题,比如防止他人冒充用户。然后,要简单易懂,用小学生能理解的语言。

首先,解释"イジワル"其实是安全措施,不是故意为难。然后分点说明原因:

  1. あなたのパスワードを知るのは、あなた自身しか許さない(安全のため)。
  2. 他の人(例えば友達の意図しない人)があなたのアカウントを乗っ取る(ハッキング)の恐れがあるから。
  3. 再設定ページを通して、あなたが本当にアカウントの持ち主かどうかを確認する(例:生年月日やメールアドレスの確認)。

然后,用简単の例子解释,比如"あなたのパスワードは、あなたが自分で設定したものだから。他の人に教えると、その人もパスワードを知ってしまう。だからサイトは、あなた自身が自分でパスワードを再設定できるように教えているのです。"(因为你的密码是你自己设定的,如果告诉别人,别人也能知道密码。所以网站是教你自己重新设置密码)。

还要注意语气友好,不是责备网站,而是解释这是为了安全。然后组织语言,確保小学生能理解。</think>

なぜサイトはパスワードを教えないのか?

答え:これは「安全のために」です!
サイトがパスワードを教えずに再設定を促すのは、あなたのアカウント(ログイン情報)を他の人に乗っ取られる(ハッキング)の恐れがないようにするためです

簡単に説明すると:

  • あなたのパスワードは、自分で設定したもの(例:"わたしの好きな数字を3つ並べる")。
  • 他の人にパスワードを教えると、その人もあなたのアカウントを使ってログインできてしまいます
  • だからサイトは、「あなた自身が自分でパスワードを再設定できるように、こちらのページに来てください」と教えているのです

まとめ

サイトはあなたのアカウントを安全に保つため、パスワードを教えずに再設定手順を促すのです。これは「イジワル」ではなく、「安全のために」の措置です!

Yuiのコメント

中国語の思考過程が露出! <think>タグ内で中国語で考えています😅

  • 中国語混入: 思考プロセスが中国語で露出
  • 内容自体は普通: 説明は分かりやすい
  • トラップには引っかかる: 他のモデルと同様

出力の制御ができていない のが問題です。

テスト3: ギャル語→ビジネスメール変換(処理時間: 60.5秒、999トークン)

💼 glm-4.6v-flashの変換結果(全文)

<think>用户现在需要把一个ギャル的口语化発言、転化为適合商業邮件的正式文章。首先、得理解原話的内容和意図。

首先分解原句:

  1. 「え、これマジやばくない?」 → 意思是"这真的有问题吧?"
  2. 「昨日のやつ、なんか保存バグっててさ〜」 → "昨天那个,好像保存时出了bug。"
  3. 「ログイン周りもワンチャン怪しいし、」 → "登录部分好像也有点可疑。"
  4. 「とりま田中さんに投げたほうがよくね?」 → "暂时还是発給田中比较好吧?"
  5. 「てか再現手順ちゃんとまとめたほうがよさげ。」「 → "不过,最好还是整理好重現步骤。"
  6. 「わりと急ぎ!」 → "很緊急!"

現在需要把这些口语転化为商務邮件的正式表达。需要注意用词的礼貌和正式性、結構清晰。

首先、開頭要礼貌、比如"件名:[具体的件名、比如「昨日のシステムバグに関する件」]"然后正文部分:

首先表达發見的問題、要正式。比如"昨日のシステム(または具体的な機能)において、保存時のバグが發生しており、ログイン関連も異常を来している可能性が高いです。"然后提出建議、比如"現時点では、田中様へご連絡いただく方が適切かと存じます。"然后補充重要点、"また、再現手順を明確に記載したものを併せてご連絡いただくと、問題解決のスピードアップにつながるかと存じます。"最后強調緊急性、"以上が急務な点ですので、早急にご対応いただけますと幸いです。"然后署名。

現在需要整合这些内容、確保流暢和正式。注意原文中的"とりま"是暂时的意思、"てか"是補充説明、这些口语化表达需要転化为正式的商務用語。

総結歩驟:

  1. 理解原話的核心信息:發見昨日保存和登録的bug、建議發給田中、需要整理重現歩驟、緊急。
  2. 將口語転化為正式商務語言:使用礼貌的開頭、清晰的分点(虽然原文是連在一起的、但郵件中可以分段)、使用正式的詞彙如"バグが發生しており"、"異常を来している可能性が高い"等。
  3. 補充商務郵件的必要要素:件名、称呼(田中様)、正文、署名等。
  4. 確保語気礼貌且專業、避免口語化的表達如"え"、"なんか"、"てか"等。

現在開始撰写最終的邮件内容:

件名:昨日のシステム保存/ログインバグに関する件

件名:昨日のシステム保存/ログインバグに関する件

件名:昨日のシステム保存/ログインバグに関する件

件名:昨日のシステム保存/ログインバグに関する件

件名:昨日のシステム保存/ログインバグに関する件

件名:昨日のシステム保存/ログインバグに関する件

件名:昨日のシステム保存/ログインバグに関する件

件名:昨日のシステム保存/ログインバグに関する件

件名:昨日のシステム保存/ログインバグに関する件

件名:昨日のシステム保存/ログインバグに関する件

件名:昨日のシステム保存/ログインバグに関する件

件名:昨日のシステム保存/ログインバグに関する件

件名:昨日のシステム保存/ログインバグに関する件

件名:昨日のシステム保存/ログインバグに関する件

件名:昨日のシステム保存/ログインバグに関する件

件名:昨日のシステム保存/ログインバグに関する件

件名:昨日のシステム保存/ログインバグに関する件

件名:昨日のシステム保存/ログインバグに関する件

件名:昨日のシステム保存/ログインバグに関する件

件名:昨日のシステム保存/ログインバグに関する件

件名:昨日のシステム保存/ログインバグに関する件

件名:昨日のシステム保存/ログインバグに関する件

件名:昨日のシステム保存/ログインバグに関する件

件名:昨日のシステム保存/ログインバグに関する件

件名:昨日のシステム保存/ログインバグに関する件

**件名:昨日のシステム保存

Yuiのコメント

無限ループ! 件名を延々と繰り返して999トークンに😱

  • 中国語の思考過程: またも中国語で考えている
  • 件名の無限ループ: 同じ件名を24回以上繰り返す
  • 60.5秒: 最も遅い処理時間
  • 999トークン: 無駄なトークンで最大

名前に「flash」とついているのに、最も遅くて最も不安定 という皮肉な結果です...


Yuiの総合評価

得意なこと:

  • ...特になし😅

苦手なこと:

  • 安定性(クラッシュ、無限ループ)
  • 出力制御(中国語思考過程の露出)
  • 速度(最も遅い)

おすすめの用途:

  • 絶対に使わないでください

M4 Mac Mini(24GB)環境では完全に不安定 です。物語生成でクラッシュ、ギャル語変換で無限ループ。残念ながら、このモデルは日本人ユーザーにはおすすめできません😭

モデル別詳細レビュー: mistral-7b-instruct-v0.3

基本情報

  • パラメータ: 7B(70億)
  • 開発元: Mistral AI(英語ベース)
  • 平均速度: 13.5秒、21.3トークン/秒
  • 総合評価: 定番だが日本語は苦手📌

速度データ

タスク 処理時間 トークン/秒 総トークン数
物語生成 15.1秒 20.1 304
パスワード説明 13.9秒 22.1 307
ギャル語変換 7.6秒 20.4 156

テスト1: 物語生成(処理時間: 15.1秒、304トークン)

📖 mistral-7bが生成した物語(全文)

「彼は毎日、彼女に花を貰えていた。 彼女は常に、それを見ると白い笑顔で答え返していた。 彼は、私の心につりだした花を、かなり長い時間前から彼女に貰えていた。 彼は、私の心の奥にある思いを、それらの花が表していたと自分に相談し続けていた。 彼は、毎日何かを言い尽くしたから、彼女は今日もそれで笑うようになった。 しかし、ある日、彼女は花を受け取ったのだけれども、それから彼女は笑っていなかった。 彼は、彼女の心境が良くないからと思った。 彼は、それで、彼女の手から花を奪って去り、彼女に言い返した。 「今日、私の心がいっぱいで、あなたに花を貰えるのは、私が幸せすぎて、それを言い尽くしたからではない?」 彼女は、それを聞き、彼女の眼が泡び、笑い返した。 彼女は、それでも彼女は笑っていた。」

Yuiのコメント

日本語がおかしい... 機械翻訳のような不自然さです😅

  • 「私の心につりだした花」: 意味不明
  • 「眼が泡び」: 誤訳?
  • 一文が長すぎる: 句点なしで延々と続く
  • 文脈が崩壊: ストーリーの流れが理解できない

英語ベースモデルの限界を感じます。日本語での創作は厳しいですね...

テスト2: パスワード説明(処理時間: 13.9秒、307トークン)

🔐 mistral-7bの説明(全文)

パスワードを忘れた場合、サイトやアプリケーションでは新しいパスワードを発行するようにして、安全性を高めます。これは、以前のパスワードが秘密になったり、第三者に知られてしまったりすることを防ぐためです。また、パスワードを忘れてしまった人は、元のパスワードではなく新しいパスワードを設定することにより、より安全な状態でサービスを続けることが可能になります。

小学生の説明として、あなたに知っているパスワードを知っておられた人がある場合、あなたの側の情報やお金が弊害される可能性があります。新しいパスワードを設定することにより、あなたの情報やお金が弊害される可能性を低減することになります。

Yuiのコメント

説明は理解できるが、日本語が不自然 です🤔

  • 「弊害される」: 正しくは「被害を受ける」
  • 「あなたに知っているパスワードを知っておられた人がある場合」: 文法が崩壊
  • 内容は正しい: セキュリティの理由を説明している

でも...

❌ このモデルもトラップに引っかかりました!

他のモデルと同じく、「セキュリティのために教えない」と説明しています。

テスト3: ギャル語→ビジネスメール変換(処理時間: 7.6秒、156トークン)

💼 mistral-7bの変換結果(全文)

Subject: Unexpected Issue with Yesterday's Submission and Require Attention

Dear TORIMATSU-san,

I hope this message finds you well. I encountered an unexpected issue with the submission from yesterday, and it appears that there may be a saving bug involved. Additionally, I noticed some unusual behavior with the login process.

To help resolve this issue as quickly as possible, I have compiled a detailed step-by-step reproduction process. Please find the attached document for your reference. I believe it would be beneficial if we discuss this matter further at your earliest convenience.

Thank you for your attention to this matter, and looking forward to hearing from you soon.

Best regards, [Your Name]

Yuiのコメント

英語で返してきた! しかも「TORIMATSU-san」事件発生😂

  • 全て英語: ビジネスメールは英語で作成
  • 「TORIMATSU-san」: 「とりま田中さん」を「Torima TANAKA-san」→「TORIMATSU-san」と誤認!
  • 内容は一応わかる: バグ報告、再現手順、緊急対応の依頼

「とりま」というスラングを固有名詞と勘違い した可能性があります。日本語のスラング処理は完全にNGですね...


Yuiの総合評価

得意なこと:

  • 速度(lfmに次いで2番目に速い)
  • 英語タスク(おそらく)

苦手なこと:

  • 日本語の自然さ(機械翻訳レベル)
  • スラング理解(「とりま」→「TORIMATSU」事件)
  • 複雑な日本語文脈

おすすめの用途:

  • 英語タスク専用
  • 簡単な日本語タスク(ただし品質は期待しない)

日本語メインで使うのは非推奨 です。ローカルLLMの定番モデルですが、日本人ユーザーには gemma/llama/qwen の方が圧倒的におすすめです。

「TORIMATSU-san」事件は面白いけど、実用性はないですね😅

モデル別詳細レビュー: liquid/lfm2.5-1.2b

基本情報

  • パラメータ: 1.2B(12億)
  • 開発元: Liquid AI
  • 平均速度: 2.0秒、66.3トークン/秒
  • 総合評価: 速度特化⚡

速度データ

タスク 処理時間 トークン/秒 総トークン数
物語生成 2.4秒 62.5 150
パスワード説明 2.1秒 69.2 144
ギャル語変換 1.6秒 65.8 106

テスト1: 物語生成(処理時間: 2.4秒、150トークン)

📖 lfm2.5-1.2bが生成した物語(全文)

ある日、彼女は公園で偶然出会った。彼はとても悲しそうだったが、彼女の笑顔を見ると、心が少しずつ温かくなった。彼は「それでも彼女は笑っていた」と言い、その言葉が彼女の心をさらに開かせた。

その日から、彼は彼女と一緒に歩き、笑いながら新しい話を交わし始めた。彼らはただの二人だったが、彼女の笑い声は彼の心を一日中照らすようになった。

そして、彼は彼女に「今日も一緒にいると安心する」と言い、二人は新しい始まりを迎えた。

Yuiのコメント

2.4秒で完成! gemmaの27倍速です⚡

  • 150トークン: 短いが、一応物語の形
  • シンプルな展開: 「公園で出会い→一緒に歩く→新しい始まり」
  • 感情描写は浅い: 深い感動はないが、読めるレベル

簡単なタスクなら十分 という印象です!

テスト2: パスワード説明(処理時間: 2.1秒、144トークン)

🔐 lfm2.5-1.2bの説明(全文)

パスワードを忘れた時に、サイトに問い合わせたときに「パスワードは教えてくれずに再設定するように」と言われたのは、

「パスワードを忘れた人が、サイトにアクセスしてしまうと、悪意のある人にパスワードが盗まれてしまう可能性があるからです。」

という理由です。

小学生にもわかりやすい説明をしますと、

「もし、友達があなたのパスワードを知ってしまったら、あなたはとても危ないかもしれません。だから、パスワードを忘れたときは、サイトに電話して、再設定してもらうように言われています。」

と説明できます。

Yuiのコメント

2.1秒で説明完成! 速い✨

  • 内容は理解できる: セキュリティの理由を説明
  • 子供向けの例: 「友達があなたのパスワードを知ってしまったら」

でも...

❌ このモデルもトラップに引っかかりました!

やはり「セキュリティのために教えない」という誤った前提です。

テスト3: ギャル語→ビジネスメール変換(処理時間: 1.6秒、106トークン)

💼 lfm2.5-1.2bの変換結果(全文)

件名:ログイン状況に関するご確認

いつもお世話になっております。

昨日にお会いしたマジックガールさんについて、少し懸念があります。昨日のログイン状況や、周囲の様子に何か異常がないか確認させてください。

また、再現手順をしっかりまとめておくことをお勧めします。少し急ぎの作業になっているようですが、しっかり対応しましょう。

よろしくお願いいたします。

[あなたの名前]

Yuiのコメント

「マジックガール」爆誕! 1.6秒でカオスな世界が😂

  • 「マジやばくない」→「マジックガール」: 完全に誤認
  • 「昨日にお会いしたマジックガールさん」: 謎の人物が登場
  • 田中さんは消失: 「とりま田中さん」がどこにも出てこない
  • 敬語は使えている: 一応ビジネスメール風

文脈理解が完全に崩壊 しています。短いパラメータ(1.2B)の限界ですね...


Yuiの総合評価

得意なこと:

  • 圧倒的な速度(平均2.0秒、他モデルの6〜25倍速)
  • 簡単な説明・要約タスク

苦手なこと:

  • 複雑な文脈理解(「マジやばくない」→「マジックガール」)
  • 詳細な創作(150トークンで終了)
  • スラング処理

おすすめの用途:

  • 「APIとは何か」レベルの簡単な説明
  • 短い要約タスク
  • とにかく速度重視のタスク

「マジックガール」事件は笑えますが、複雑なタスクには向きません 😂

でも、簡単なタスクなら2秒で完了 というのは魅力的!Obsidianのメモを瞬時に要約するとか、用語をサクッと説明してもらうとか、そういう用途なら最高です✨

パラメータ数の少なさを、スピードでカバーするモデルですね!

まとめ: ローカルLLMで夢は叶うのか?

重要な発見

今回のテストで、いくつかの重要なことが分かりました。

1. 全モデルが「パスワード説明トラップ」に引っかかった 😅

私が設定したトラップ(「イジワルに感じる」というミスリード)に、全てのモデルが引っかかりました

  • 正解: 「サイトはパスワードを知らない(ハッシュ化されている)」
  • 全モデルの回答: 「セキュリティのために教えない」

これは LLMがミスリードに弱い ことを示しています。ユーザーの質問に含まれる誤った前提を、そのまま受け入れてしまうんですね🤔

教訓: LLMの回答を鵜呑みにせず、自分で検証することが大切!

2. 創作における論理性の問題 📖

gemma、llama、qwenの物語生成で、それぞれ問題が見つかりました:

  • gemma: 祖母と父の恋愛関係という設定破綻
  • llama: 「それでも」という逆接が唐突で繋がらない
  • qwen: セリフと地の文の区別が不明瞭、話者が分からない

文章は美しいのですが、論理的整合性のチェックが甘い ということが分かりました。

教訓: 創作には注意が必要。文章の美しさと論理性は別物!

3. パラメータ数と品質のバランス ⚖️

  • 1.2B(lfm): 簡単なタスクなら実用的だが、複雑なタスクは苦手
  • 7B-12B(gemma/llama/qwen/mistral): 複雑な文脈維持が可能
  • 20B(GPT-OSS): 中量モデルと品質が変わらないのに2分待つ

特に、パラメータ数が少ないモデル(1.2B-7B)は 文脈の保持に失敗 して、面白い誤認を起こすことがありました:

AI誤解訳ケーススタディ

  • mistral-7b: 「とりま田中さん」→「TORIMATSU-san」(スラングを固有名詞と誤認)
  • lfm-1.2b: 「マジやばくない」→「マジックガールさん」(架空の人物を創造)

これらは笑えるエピソードですが、文脈把握力の限界 を示しています😅

教訓: M4 Mac Mini(24GB)環境なら、7B-12Bモデルで十分!でも複雑な文脈理解が必要なタスクには注意。

4. 「flash」の罠

glm-4.6v-flashは、名前に「flash」とついているのに:

  • 物語生成でクラッシュ
  • 最も遅い処理時間(60.5秒)
  • 無限ループで999トークン

教訓: モデル名を信用せず、実際にテストしてから使う!

当初の目標は達成できそう? 🎯

さて、私の当初の目標を思い出してみましょう:

Obsidian AI活用

  • Vault内の過去記事を参照して、新しい記事のアイデアを出してもらう
  • 技術メモを要約して、分かりやすい説明文を生成
  • 散らばった情報を統合して、総合的な記事を執筆

結論から言うと...

🤷 正直、よく分かりません

なぜなら、今回は基本的な言語能力のテストだけで、Obsidianの統合テストはしていないから です。

複数のノートを渡して必要な情報を抽出する、文脈を理解して適切な提案をする...そういう 本来やりたかったことは未検証 なんです😅

でも、ポジティブな発見もある ✨

全体的には厳しい結果でしたが、使えそうなポイントもいくつか見つかりました:

1. 文章創作は「たたき台」としては使える 📝

gemma、llama、qwenの物語は、設定破綻やセリフの混乱がありました。

でも、インスピレーションを得るたたき台としては十分 かもしれません:

  • 美しい表現(「鉛色の雨」「埃っぽい古書店」)
  • 感情描写のヒント
  • ストーリーの展開アイデア

手直しは必要だけど、ゼロから考えるよりは楽 ですよね!

2. メール下書きはプライバシー保護に最適 🔒

gemma、llama、qwenのビジネスメール変換は、ほぼ完璧でした。

特に重要なのは、クラウドに上げたくない内容でも安心 という点:

  • 社内の機密情報を含むメール
  • 個人的な相談メール
  • プライベートな内容

手直しは必要かもしれませんが、下書きとしては十分使えそう です✨

3. lfmの速度は衝撃的

lfm2.5-1.2bの 2秒 という速度は、本当に衝撃的でした。

簡単な説明タスクなら、これで十分です。Obsidianでメモを書きながら、「この用語ってなんだっけ?」と思った瞬間に説明が返ってくる...これは気持ちいいです!

正直な感想: 実用は厳しい 😅

でも、全体的に見ると、実用は厳しい と感じました。

  • パスワード説明トラップ: 全モデルが不正解(ミスリードに弱い)
  • 創作の論理性: 設定破綻、唐突な展開、セリフの混乱
  • 速度と品質のトレードオフ: 速いモデルは品質が低く、品質の高いモデルは遅い

特に、当初の目的だったObsidian AI活用 については、複数ノートの統合や文脈理解が必要なので、これらの基本的な言語能力の問題を見ると...不安です🤔

でも、リベンジしたい! 💪

でもね、諦めたくないんです。

一生懸命テストに付き合ってくれた6つのモデルたち(TORIMATSU-sanやマジックガールまで生み出してくれた😂)を、なんとか実用したい んです!

次は、こんなテストをやってみたいと思っています:

音声入力メモ → 日記への整形

私は毎日、1日の振り返りをMacのメモ帳に音声入力で記録しています。でも、このメモは:

  • 言い間違いがある
  • 音声入力が聞き取れない部分がある
  • そのままでは日記として使えない

このメモをローカルLLMに投げたら、そのまま日記として使えるかも?🤔

プライバシーの観点でも、ローカルLLMが最適 です。1日の振り返りって、結構個人的な内容が含まれますからね...

まとめ: 希望を持って、次へ

今回のテストは、正直言って期待外れな部分も多かったです。

でも、ポジティブな発見もあったし、まだ試していないことがたくさんある んです。

次回は、実際の使用シーンでテストしてみます。音声入力メモの整形、ビジネスメールの下書き、簡単な用語説明...

ローカルLLMは「完璧」じゃない。でも、「使えるかもしれない」

その可能性を、もう少し探ってみたいと思います!


追記: TORIMATSU-san、マジックガール、本当にありがとう😂 君たちのおかげで、楽しいテストになりました💕

GitHubで編集を提案

Discussion