🐕

商用利用可能な日本語要約SLM「HACHI-Summary-Ja」と学習データセットの公開

に公開

はじめに

はじめまして、HACHI Intelligence(@hachi_intelli)のはちこー(@oriharu5432)です。

我々が新たに立ち上げたプロジェクト「HACHI Intelligence」は、主に商用利用可能な日本語のSLM(Small Language Model:小規模言語モデル)の開発を目的としており、忠犬ハチ公のように「誠実」で「優秀」な、信頼されるAIモデルを目指しています!🐕

SLMはLLMと比べて計算資源が少ないため、設備投資が難しい企業や個人開発者でも導入することが可能です。
また、学習コストもLLMと比較して少ないため、様々な用途に特化したドメイン特化モデルを構築することができ、様々な産業・技術に応用が期待できます。

当プロジェクトでは可能な限り商用利用可能なモデルを開発していくと共に、学習に用いたデータセットや評価方法、開発過程の知見も積極的に公開していきます。

開発プロセスやデータの透明性を高めることで、微力ながらも日本のAI研究・開発の基盤を支え、皆さんと共に切磋琢磨していけるような存在になりたいと考えています!
今回の公開が、皆様のプロジェクトや研究の助けとなれば幸いです。

開発した日本語要約モデルについて

公開モデルとデータセット

概要

HACHI-Summary-Jaは高い抽出型要約性能を持ち、公的文書や研究・医療・金融など情報の正確性が極めて重要視されるビジネス・専門領域に特化した、商用利用可能な日本語要約SLMです。

本モデルは、SB Intuitions株式会社が開発した、軽量ながら高い日本語処理能力を誇る国産SLM 「sarashina2.2-0.5b-instruct-v0.1」 をベースとしています。
学習方法については高性能なLLMの処理能力を継承させる知識蒸留というアプローチを採用し、高い抽出型要約性能を実現しました

モデルの特徴やユースケースとして以下の内容が挙げられます。

  • 文章の抽出型要約: 固有名詞や数値・単位・時系列・因果関係などが重要視される文章やレポートの要約に活用可能です。
  • エッジデバイスでの動作: 0.5Bという超軽量パラメータのため、要約というタスクにおいては通常のLLMと比べて高速な推論が可能であり、計算資源が限られた環境やエッジデバイスへの組み込みが可能です・
  • 商用サービスへの組み込み: Apache-2.0という商用利用・改変・再配布に寛容なライセンスのため透明性の高い日本語AI基盤としての活用が期待できます。

学習

Open-R1を参考にした学習

Hugging Faceが公開しているOpen-R1の学習手法を応用しました。
高性能LLMによる高品質なデータセット作成とSFT(教師ありファインチューニング)によるフルパラメーターファインチューニングを組み合わせ、効率的な知能の転移を行いました。

マルチモデル・ディスティレーション(Multi-model Distillation)

特定のモデルへの依存やバイアスを避けるため、日本語能力に定評のある 「Qwen3-30B-A3B-Thinking-2507」 と指示追従性に優れた 「gpt-oss-120b」 の2系統を教師モデルとして採用しました。
Qwen3-30B-A3B-Thinking-2507は日本語の基本性能の高さを活かし、標準的な要約と三行要約の生成を行い、gpt-oss-120bは示従順性を活かし、文字数指定(100字以内、300字以内、500字以内)の要約の生成を行わせました。

大規模な抽出型要約データセット

hotchpotch様が公開されているfineweb-2-edu-japaneseから厳選したテキストを元に、標準・三行・文字数指定(100字以内、300字以内、500字以内)の要約文章の計10億トークン規模の要約データを生成しました。
要約時には「原文の固有名詞・数値・単位・時系列・因果関係を正確に転記する」という厳格なプロンプトを適用しています。

知識蒸留用データセット: JapaneseSummarization-FW2EduJa-Distill

lossとハイパーパラメータ

学習にはTRL、DeepSpeedを利用し、学習パラメーターは知識蒸留用のOpen-R1のTRLのレシピを参考に以下のように設定しました。

{
    "learning_rate":1.5e-5,
    "num_train_epochs":1,       
    "overwrite_output_dir": true,
    "bf16": true,
    "gradient_accumulation_steps": 1,
    "gradient_checkpointing": true,
    "gradient_checkpointing_kwargs": {
        "use_reentrant": false
    },
    "lr_scheduler_type": "cosine_with_min_lr",
    "lr_scheduler_kwargs": {
        "min_lr_rate": 0.1
    },
    "do_eval": false,
    "eval_strategy": "no",
    "eval_steps": 500,
    "report_to": [],
    "logging_strategy": "steps",
    "logging_steps": 100,
    "save_strategy": "steps",
    "save_steps": 2000,
    "save_total_limit": 1,
    "per_device_train_batch_size": 32,
    "per_device_eval_batch_size": 32,
    "max_steps": -1,
    "seed": 42,
    "max_grad_norm": 0.3,
    "warmup_ratio": 0.1
}

以下は得られたlossの学習曲線です。

loss_curve_img

グラフを見ると、初期(step 0〜2500付近)で急激に Loss が減少した後、後半にかけて非常に滑らかに減少し続けています。
今回は過学習および学習リソースの関係上、エポック数を1として学習させたため、lossが頭打ちになる前に終了していますが、問題なく学習できていることが確認できました。

計算リソース

開発および学習環境には、Google ColabのNVIDIA A100およびDGX SPARKを活用し、短期間での効率的なフルパラメータ・チューニングを実施しました。

評価

本モデルの評価にあたっては、一般的な日本語要約ベンチマークである XLSUM-jamkshing/xlsum_ja)に加え、本プロジェクトのコンセプトである「事実関係を正確に維持した要約」を測定するための独自指標 HES-Ja (HACHI-Extractive-Summarization-Ja) を用いて評価を行いました。

ベンチマークについて

XLSUM-jaはLLMの要約タスクを測定するための最も一般的なベンチマークです。
しかし、このベンチマークは主に「抽象的要約(文脈を汲み取った言い換え)」を評価するデータセットです。
本モデルのように、原文の固有名詞、数値、単位、時系列、因果関係を正確に転記することを重視する「抽出型要約」の性能を測る場合、既存の抽象的要約スコアだけでは真の性能が反映されない可能性があります。

そこで、当プロジェクトではXLSUMのテストデータから100件を抽出し、原文内の固有名詞や数値を正確に転記(数字の漢字表記、半角全角英数字も原文のまま転記)し、文章内の時系列、因果関係の順番を維持しながら要約を行った新たなベンチマークであるHES-Jaを作成しました。

抽出的要約においては作成したベンチマーク(HES-Ja)を用いて、BLEU、ROUGE-2、ROUGE-Lのスコアを算出しました。

ベンチマーク結果

今回はベースとしたsarashina2.2以外に商用利用可能かつ日本語性能の高い代表的なSLMを比較対象にしました。

XLSUM-ja評価 (抽象的要約指標)

一般的な要約タスクにおける性能比較です。文字数制限を明示した場合(about 100 chars)、高いスコアを記録しています。

モデル名 BLEU ROUGE-2 ROUGE-L
Qwen3-0.6B 0.0147 0.0419 0.0837
gemma-3-270m-it 0.0328 0.0788 0.1549
granite-4.0-350m 0.0343 0.0728 0.1575
sarashina2.2-0.5b-instruct-v0.1(Base) 0.0263 0.0731 0.1317
HACHI-Summary-Ja 0.0276 0.0747 0.1363
HACHI-Summary-Ja (about 100 chars) 0.0412 0.0748 0.2055

HES-Ja評価 (抽出型要約指標)

原文情報の正確な転記(固有名詞、数値、半角全角の維持、論理順序の保持)を評価するベンチマークです。HACHI-Summary-0.5bは、すべての指標において他のSLMを超える性能を記録しました。

モデル名 BLEU ROUGE-2 ROUGE-L
Qwen3-0.6B 0.0963 0.1496 0.1820
gemma-3-270m-it 0.1960 0.3029 0.3403
granite-4.0-350m 0.1003 0.1963 0.2330
sarashina2.2-0.5b-instruct-v0.1 (Base) 0.2457 0.3394 0.3635
HACHI-Summary-0.5b-Ja 0.2757 0.3644 0.4044

出力結果のサンプル

原文の出典: 忠犬ハチ公

原文

忠犬ハチ公

犬種は秋田犬(あきたいぬ)で、性別はオス。名前はハチ。ハチ公の愛称でも知られる。
ハチが飼い主を待ち続けた渋谷駅の出入り口の前には、ハチの銅像が設置されており、この「忠犬ハチ公像」は、渋谷のシンボルとして、観光名所としても有名である。

ハチは、飼い主が死去した後も駅前で帰りを待ち続けた「忠犬」として知られる。東京・渋谷をはじめ、ゆかりの地には像が置かれている。
特に、渋谷駅前のハチ公銅像は、いつしか待ち合わせの目印として使われるようになり、その銅像周囲は待ち合わせ場所としては「ハチ公前」などと呼ばれ、広く親しまれている。

ハチの飼い主は、東京府豊多摩郡渋谷町大向(現・東京都渋谷区松濤一丁目)に住んでいた、東京帝国大学の教授・上野英三郎であった。
彼は、大変な愛犬家であり、ハチの前にもたくさんの犬を飼っていた。出かける時には、渋谷駅までハチを伴うことも多かった。
しかしながら、ハチを飼い始めた翌年にあたる1925年(大正14年)5月21日に上野は急死した。

上野の死後も、駅前で亡くなった飼い主の帰りを毎日待ち続けたハチの姿は、新聞記事に掲載され、人々に感銘を与えたことから「忠犬ハチ公」と呼ばれるようになった。
(521文字)

要約結果(指示:なし)

秋田犬(あきたいぬ)のオス・ハチは、飼い主が死去した後も渋谷駅の出入り口で帰りを待ち続けた「忠犬ハチ公」として知られる。東京・渋谷のハチ公銅像は渋谷のシンボルとして観光名所となり、待ち合わせの目印として「ハチ公前」と呼ばれる。飼い主は東京府豊多摩郡渋谷町大向(現・東京都渋谷区松濤一丁目)の東京帝国大学教授・上野英三郎で、ハチの前に多数の犬を飼っていた。1925年(大正14年)5月21日に上野が死去した後も、ハチは渋谷駅で 飼い主の帰りを待ち続け、新聞記事で「忠犬ハチ公」と称された。 (242文字)

要約結果(指示:三行で要約)

秋田犬オスのハチは、飼い主の上野英三郎が1925年(大正14年)5月21日に急死した後、渋谷駅前で毎日帰りを待ち続けた「忠犬ハチ公」として知られる。
ハチの銅像は渋谷のシンボルとして観光名所となり、「ハチ公前」という待ち合わせの目印として広く親しまれている。
ハチの飼い主は東京府豊多摩郡渋谷町大向(現・東京都渋谷区松濤一丁目)の東京帝国大学教授・上野英三郎で、ハチの前に多数の犬を飼っていた。

要約結果(指示:100字程度で要約)

秋田犬オス・ハチは上野英三郎の死後渋谷駅前で帰り待ち、銅像が観光名所となり渋谷シンボルとなった。 (48文字)

要約結果(指示:300字程度で要約)

忠犬ハチ公は秋田犬オスで愛称ハチ。飼い主は東京府豊多摩郡渋谷町大向(現・東京都渋谷区松濤一丁目)在住の東京帝国大学教授・上野英三郎。上野は1925年5月21日に急死し、ハチは渋谷駅前で飼い主の帰りを待ち続けた。ハチ の銅像は渋谷のシンボルとして観光名所化し、待ち合わせの目印「ハチ公前」など広く親しまれている。 (154文字)

要約結果(指示:500字程度で要約)

忠犬ハチ公は秋田犬オスで愛称ハチ。飼い主は東京府豊多摩郡渋谷町大向(現・東京都渋谷区松濤一丁目)在住の東京帝国大学教授・上野英三郎で、ハチの前に多数の犬を伴い渋谷駅まで赴くほどの愛犬家であった。上野は1925年(大正14年)5月21日に急死し、ハチは上野死後も駅前で飼い主の帰りを待ち続けた。その姿が新聞に掲載され「忠犬ハチ公」と称され、渋谷駅前のハチ公銅像は観光名所として広く親しまれ、待ち合わせの目印「ハチ公前」などと呼 ばれる。 (216文字)

評価の結論

HES-Jaベンチマークにおいて、ベースモデルである sarashina2.2-0.5b-instruct-v0.1 を大きく上回る結果が得られたことは、本プロジェクトで行った「高品質な知識蒸留」が、情報の正確性を保持する能力を飛躍的に向上させたことを示しています。
また、100字程度で要約という指示を付与する必要がありますが、XLSUM-Jaの抽象的要約においてもほかのモデルと遜色ないスコアを達成できることがわかります。

これにより、抽出的要約が必要とされる場面において高い実用性を持つモデルであることが実証されました。

量子化

本モデルでは、エッジデバイスでの利用および高速推論を目的としてGGUF形式でのモデル作成と量子化を行いました。
Q4への量子化においては性能の劣化を低減するために独自に作成した日本語のコーパスを利用してiMatrix量子化を行うことでQ4量子化でありながら精度劣化を最小限に抑えることに成功しました。

量子化後のベンチマーク

XL-Sum-ja

Model Variant BLEU ROUGE-2 ROUGE-L
HACHI-Summary-0.5b (Base) 0.02765 0.07473 0.13640
HACHI-Summary-0.5b-BF16 0.02790 0.07439 0.13852
HACHI-Summary-0.5b-Q8_0 0.02806 0.07467 0.13880
HACHI-Summary-0.5b-IQ4_K_M 0.02737 0.07377 0.13827
HACHI-Summary-0.5b-IQ4_K_S 0.02773 0.07400 0.13951

HES-Ja

Model Variant BLEU ROUGE-2 ROUGE-L
HACHI-Summary-0.5b (Base) 0.27575 0.36449 0.40445
HACHI-Summary-0.5b-BF16 0.25382 0.34304 0.39262
HACHI-Summary-0.5b-Q8_0 0.25362 0.34254 0.39124
HACHI-Summary-0.5b-IQ4_K_M 0.25027 0.33802 0.38393
HACHI-Summary-0.5b-IQ4_K_S 0.24464 0.33150 0.37814

Q8_0はBF16とほぼ同等の性能を維持できており、IQ4_K_MおよびIQ4_K_Sはスコアとして低くはなっているものの大きな差はなく、実用レベルの精度を担保しているといえます。

終わりに

ここまでお読みいただき、誠にありがとうございます。

AI初心者の手探りでの開発ゆえ、至らぬ点も多々あるかと思いますが、日本のAIコミュニティに少しでも貢献できるよう、一歩ずつ着実に進んでいく所存です。
どうぞ温かい目で見守っていただければ幸いです。

もしこのプロジェクトや「HACHI-Intelligence」に興味を持っていただけましたら、ぜひ公式のDMからメッセージをお送りください。
皆様からのご意見やフィードバックをなにとぞよろしくお願いいたします。

また、公式アカウントのフォローや記事の拡散も大変励みになります。
皆様と一緒に、このプロジェクトを大きく育てていけることを心より願っております。🐾

HACHI Intelligence

Discussion