第33回 人工知能学会 金融情報学研究会(SIG-FIN)に参加してきました!
はじめに
データソリューション事業部の宮澤です。
弊社のお客様との共同研究成果が発表された第33回 SIG-FINに参加してきました!
学会について
人工知能学会 金融情報学研究会(SIG-FIN)は、研究成果を発表し討論する場を設けることにより、金融市場に対する人工知能技術の利用を拡大することを目的とする学会です。
共著論文について
以下が私たちの共同研究の成果発表です。詳細につきましてはぜひ論文をご覧ください。
(本記事においては著者名は敬称略とさせていただきます。)
進化的モデルマージを用いた日本語金融LLMモデルの構築
山口 流星, 田代 雄介, 鈴木 彰人, 辻 晶弘 (株式会社 三菱UFJトラスト投資工学研究所), 亀田 希夕, 宮澤 朋也 (データアナリティクスラボ株式会社)
研究背景
- 1つのモデルで金融ドメインの広範なタスクを解けるLLMの構築は難易度が高い。
- よく使われるのは特定のタスクでのファインチューニングだが、それ以外のタスクの性能は劣化する可能性がある。またデータ整備と計算のコストが大きい。
- 最新の手法である進化的モデルマージを活用することで、ドメイン特化・学習コスト削減・タスク汎化性を達成した日本語金融LLMを構築することができるかを検証する。
先行研究
- 進化的モデルマージ(Evolutionary Optimization of Model Merging Recipes)
- 日本語モデル + 英語数学モデル = 日本語数学モデル
- 数学とその他の汎用タスクどちらも精度向上が見られた。
- 日本語モデル + 英語数学モデル = 日本語数学モデル
研究目的
- 進化的モデルマージによる日本語金融ドメイン特化モデルの構築
- 手法の有効性、最適化タスクの違いによるモデル性能の評価。
- パラメータ最適化結果に対する各モデルの寄与を考察。
実験設定
- 同一のベースモデルから追加学習されたモデルを利用。
- ベースモデル:meta-llama/Meta-Llama-3-8B
- 日本語モデル:elyza/Llama-3-ELYZA-JP-8B
- 英語金融モデル:instruction-pretrain/finance-Llama3-8B
- マージ手法は先行研究で使われていたDARE-TIESを使用。
- TIES: TIES-Merging- Resolving Interference When Merging Models
- DARE: Language Models are Super Mario- Absorbing Abilities from Homologous Models as a Free Lunch
- DAREにおける枝刈りと、TIESにおける重み按分がそれぞれハイパーパラメータとなる。
- 各層でハイパーパラメータを設定すると探索範囲が広すぎるので、32層のモデルを8層ごとに分割してハイパーパラメータを設定。
- 最適化はjapanese-lm-fin-harnessからタスクを選定して使用。
- 4パターンのマージを設定した。(fpbは英語の金融感情分析タスク。)
- chabsa
- fp2
- chabsa + fpb
- fp2 + fpb
- 4パターンのマージを設定した。(fpbは英語の金融感情分析タスク。)
- 評価はjapanese-lm-fin-harnessの5つのタスクおよびその平均スコアを使用。
実験結果
- fp2が最適化タスクに含まれたパターンの平均スコアが高かった。
- 特にcmaの性能さが顕著に見られた。cmaは証券分析における基礎知識を問うタスクであり、「文章理解の重要性が高い+一定の高度な金融知識を要するタスク」であると言える。結果から、cmaのスコア向上にはchabsaよりもfp2を最適化タスクに設定する方が有効であることがわかった。
- fpbを入れたことによる性能向上はほとんど見られなかったが、一方で性能劣化もなかった。
- 最適化で得られたハイパーパラメータの考察(平均スコアが高かったモデルに対して)
- 枝刈りは多くが1であったため、枝刈りはほとんどされていない。不要とされるパラメータはあまりなかったと考えられる。
- 重み按分は入力に近い層ではLlama-3-ELYZA-JP-8Bのパラメータに対する重みが大きく、中間層および出力に近い層ではfinance-Llama3-8Bに対する重みが大きかった。
- これは入力に近い層ではLlama-3-ELYZA-JP-8Bの重みを使った日本語の解釈が行われており、中間層および出力に近い層ではfinance-Llama3-8Bにおける金融知識が使われていると解釈することができる。
今後の課題
- 幅広い金融タスクで性能が向上するような最適化タスク、マージ設定の検証。
- 他マージ手法(例:データフロー空間でのマージ)の検討。
その他 聴講した発表
本学会はその名の通り金融ドメインに関わる研究が発表されます。残念ながら私自身は金融ドメインの知見がないため、自分の専門分野でありかつ自分たちの発表があった「テキストマイニング」のセッションのみ聴講しました。(本学会は10月19日, 20日の2日間で開催されていましたが、10月20日のみ参加しました。)
金融特化大規模言語モデルの構築と検証
平野 正徳, 今城 健太郎, 齋藤 俊太, 岡田 真太郎, 的矢 知樹, 谷口 徹, 太田 佳敬 (Preferred Networks, Inc.)
研究背景
- 現在、日本語に特化したLLMが数多く登場してきている。
- BERT時代においては、金融特化日本語BERTを作ることでタスク性能が向上していた。
リサーチクエスチョン
- LLMにおいて追加学習を行うことで金融に特化させる価値があるのか?
- 特化する意味がないという意見もある。
- すでに汎用性が高いので必要ない。
- 様々なことを学ぶことで初めて賢くなれる。
- 特化する意味があるという意見もある。
- データが十分にあれば、追加で新しいことを学ばせる価値がある。
- 特化する意味がないという意見もある。
取り組み
- 金融タスクの性能を測るためのベンチマークを構築。
- japanese-lm-fin-harness
- 感情分析、証券分析、公認会計士試験、FP試験、証券外務員試験などのタスクを含む。
- 参考:言語モデル性能評価のための日本語金融ベンチマーク構築と
各モデルのパフォーマンス動向 - Github: https://github.com/pfnet-research/japanese-lm-fin-harness
- pfmt-bench-fin-ja
- 12種類のタスクでマルチターン性能を評価するベンチマーク。各30問の計360問で構成されており、例えばユーザーにおすすめのポートフォリオを提案するようなタスクが含まれる。スコアはGPT-4o(-mini)によって10点満点で評価される。
- 本ベンチマークは中央銀行の会見・政策決定、Wikipedia、各種金融機関が公表しているレポート、企業情報などを元に構築した。
- Github: https://github.com/pfnet-research/japanese-lm-fin-harness
- japanese-lm-fin-harness
実験設定
- 金融ドメイン知識の付与はフルパラメータでの継続事前学習を採用。
- 継続事前学習用のコーパスには、中央銀行の役員等の会見や挨拶、政策決定会合の要旨、各種金融機が公表しているレポートや語彙集、企業情報、Wikipedia から抽出した金融に関連する記事などが含まれる。
- モデルはrinna/nekomata-14bとmeta-llama/Meta-Llama-3-70Bを使って実験。
- pfmt-bench-fin-jaの評価を行うために指示対応性能をつける必要があったが、インストラクションチューニングはデータの準備に工数がかかるため、モデルマージによって対話能力を追加することとした。
- 金融知識とインストラクション (対話) 対応が異なるスキルであると仮定しているため、単純な足し合わせでの構築を試みた。
実験結果
- japanese-lm-fin-harnessにおいては、Meta-Llama-3-70Bのchabsaを除き性能が向上した。
- →ドメイン特化チューニングの有効性を明らかにできた。
- pfmt-bench-fin-jaのベンチマークにおいては、nekomata-14bで大幅に性能が向上した。(ただし翻訳タスクは低い。)Meta-Llama-3-70Bでは継続事前学習モデルよりも性能が低下した。
- この結果に対する追加検証として、nekomata-14bにおける金融知識のベクトルとインストラクションベクトルかなり直行に近いことがわかった。つまり、それぞれが別の役割を持っていたためマージがうまく機能した可能性があると考えられる。
今後の課題
- 他のモデルでも提案手法が有効かを検証。
- 金融に真に強いモデル(GPT-4を超えるような日本語LLM)の構築。
大規模言語モデルを用いた金融テキスト二値分類タスクの定義文生成とチューニング手法の提案
高野 海斗 (野村アセットマネジメント株式会社), 中川 慧 (野村アセットマネジメント株式会社, 大阪公立大学), 藤本 悠吾 (野村アセットマネジメント株式会社)
研究背景
- 業務におけるテキスト分類の多くは二値分類に落とし込むことができる。
- テキスト分類の手段としては言語モデル・LLMのファインチューニングかLLMのプロンプトエンジニアリング(Zero-shot, Few-shot, many-shot推論)が挙げられる。
- ファインチューニングは高い精度を出せる傾向にあるが、解釈性と手軽さに難あり。
研究目的
- LLMのプロンプト(=ここでは分類の定義文)を自動構築することで、ファインチューニングよりも低コストで精度の高い定義文を構築する。
- 実務においては詳細なことが記載されておらず担当者の主観で判断を行っていことも多い。
- LLMの分類に適した定義文は人間が思いつくものと異なる可能性がある。
- 金融業界におけるテキスト分類は見る側面によって判断が異なる場合があるため、定義文のように言語化することは価値がある。
- 定義文は引き継ぎなど業務的に活用できる部分が多いため、これを作ることは有意義である。
提案手法
- まず、二値分類がTrueである文とFalseである文を使ってLLMに分類の定義文を作らせる。
- 次にその定義文を使って2番目以降のデータを分類させる→誤分類を精査して定義文を更新する→再度分類する→定義文を更新するを繰り返す。
- これによって分類精度の高い定義文を用いたZero-shot推論を行う仕組みを作る。
- Githubで実装を公開している。
実験設定
- タスク1: 有価証券報告書の配当政策文の分類問題
- タスク2: 景気ウォッチャーのポジネガ判定
- 比較手法
- 提案手法(定義文生成)
- BERTのファインチューニング
- LLMのZero-shot
- LLMのFour-shot
- LLMはgpt-4o-mini-2024-07-18を使用。
- 評価指標は正解率・適合率・再現率・F1スコア。
実験結果
- 正解率とF1スコアにおいて、タスク1では提案手法はBERTのFTに次いで2番目のスコアであった。タスク2では正解率で2番目、F1スコアでは3番目であった。
考察
- 提案手法はZero-shotと比較すると大幅に精度が向上しているため、分類における定義文の作成は重要なトピックであると言える。
- タスク2でBERTのFTのスコアが低かったが、タスク1と2ではデータ件数に違いがあったことが原因であると考えられる。タスク1は学習に525件使うことができ、タスク2では150件しか使用できなかったため、過学習している可能性がある。
- 一番最初の定義文を人手で与えたり、自動生成される定義文を必要に応じて人手で修正・改善することで、より良い定義文を生成することも可能である。
- 生成された定義文およびその更新を見ていくと、徐々に文章が追加されて細かい定義がつけられていったことがわかる。また、生成された定義文は人間による解釈が可能であるため、提案手法はHuman in the loop的な観点から、人間のフィードバックを加えながら改善していくことができる手法である。
今後の課題
- 自動生成した定義文の評価方法を検討する。
有価証券報告書からの経営者による経営環境と企業業績に関する因果認知の抽出
陳 穎, 井上 光太郎, 市瀬 龍太郎 (東京科学大学)
研究背景
- 経営者は持続的な成長のために市場情報および内部情報に基づいて意思決定をしている。しかし、情報を収集、処理する際に生じる主観的な認知の歪み(認知バイアス)が発生する可能性がある。
- 特に自己奉仕バイアス(良好な業績を自分の力によるものとみなす一方で、悪い業績を外部環境のせいにする)が正しい意思決定に悪影響をもたらす場合がある。
研究目的
- 経営者の認知パターンを定量化するために,有価証券報告書から因果関係を抽出し分類すること。
取り組み
- 有価証券報告書のテキストデータ(経営成績及び キャッシュ・フローの状況の分析(MD&A))から、事前に設定された「手がかり」を用いて因果関係に関する文を抽出し、3人の専門知識を持つアノテーターでCC-BizEnvというデータセットを作った。
- CC-BizEnvを使って、ファイナンスのテキストから「手がかり」「内部要因」「外部要因」「ポジティブな結果」「ネガティブな結果」を分類するようにBERTをファインチューニングした。
- 専門家によるアノテーションデータとLLMによるアノテーションデータで、それぞれファインチューニングした後のモデル精度を比較した。LLMはClaudeやGPT-4oを使用。
実験設定
- 比較手法
- 提案手法(BERT Base?)
- LSTM
- Bi-LSTM
- ELECTRA Base
- 評価指標は適合率・再現率・F1スコア。
実験結果
- BERT Baseの手法が最もスコアが高かった。
- ファイナンスの知識がないアノテーターとファイナンスの専門家のアノテーターでは、後者の作ったデータセットでよりスコアの高いモデルが構築された。
- LLMによるアノテーションデータと今回作ったCC-BizEnvでは、後者を使って構築したモデルがより高いスコアを示しており、特に「手がかり」の分類で大幅に上回った。これはLLMでは難しい、人間(の専門家)による判断が必要な要素が含まれていると考えられる。
感想
初参加でしたが、雰囲気としてはすごく畏まった空気ということもなく、思ったよりリラックスして参加することができました。質疑応答はやや緊張感があると感じました。金融ドメインについては前提知識がなかったため理解できない部分がありましたが、テキストマイニングに関する取り組みと研究結果は非常に勉強になりました。(次の「投資戦略2」のセッションも聴いてみましたがあまりわかりませんでした、、)
おわりに
無事に弊社とお客様との研究成果の発表を見届けることができて一安心でした。本学会に参加して他の企業や研究者の方々の発表および質疑応答を聴くことで、どのようにリサーチクエスチョンを立て、それを明らかにしていくのかという、一連の研究の流れを学ぶことができました。また、本記事で紹介してきたように、テキストマイニングの技術そのものについても新たに学ぶことができたので、今後の実務や研究に活かしていければと思います。
Discussion