🦁

どこよりも早い人工知能学会2024参加レポート[Day3]

D2C データサイエンティスト Y

2024/05/30に公開

はじめに

人工知能学会全国大会2024に参加中の株式会社D2CのYです。
過去2日間のレポート(下記)に続きまして、本日は3日目のレポートを現地静岡からお届けします！

記事まとめ

Day1: URL
Day2: URL
Day3: 本稿
Day4: URL

おことわり

本稿はあくまで筆者の個人的・学術的関心を主としたものであり、言及した論文の著者様・企業様と当社に特定の関わり合いはございません。また、時間の都合上全てのセッションを回れていないため、一部セッションのみへの言及となることをご了承ください。
ポスター発表の内容への言及にあたっては発表者の方に口頭で確認を行い、許可を頂戴できたものを取り扱っております。
本稿での論文・ポスター・講演に対する言及は全て筆者の理解によるものであり、誤りがある場合は全て本稿筆者に帰責します。誤りがあった場合はご指摘いただけますと幸いです。

Day3 参加レポート

AI安全性のための日本語徳倫理データセットの作成^[1]

言語モデル作成時からモデルの道徳的側面をケアできないかという問題意識から、高品質な日本語のデータセットを作成する研究。
既に関連データセットの作成にも取り組まれている中、今回のご発表で徳倫理データセットの作成についてご発表いただきました。
徳倫理学というのは行為そのものではなく「有徳者であればするような仕方である」といった行為者に着目する倫理学のこと(ご講演内容より)で、この観点でのデータセットの開発はLLMが「人間はどのようにあることが望ましいのか」を捉えることにつながるとのことです。
現状のLLMが性格に対する理解についてまだまだ課題が多いことをご指摘いただき、社会的意義の高いご研究と拝聴しました。

デンマークにおける公共部門によるデータセット公開とプライバシー保護^[2]

公的機関によりオープンデータ化について日本でどのような取り組みがなされるべきか、デンマークの事例をもとに考察された研究。
プライバシー保護と経済推進・透明性担保のトレードオフがあることをスマートメーターのデータ収集や判例の公的公開データベースの事例などから解説されていました。

個人的には一データサイエンティストとしてついつい「データをどのソースから取得するか」「与えられたデータセットのなかでどのような示唆を出すか」のみを考えてしまいがちですが、そもそもデータの公開がどうあるべきかという大前提から巨視的視点で捉えることはデータサイエンティストとしてのあるべき姿を考えることにも繋がることだと感じられ、襟を正される思いがしました。

(ポスター)金融ドメイン特化のための大規模言語モデルのインストラクションチューニング評価^[3]

学習方式のチューニングによる金融データxLLMの性能評価を問題意識として、インストラクションチューニング後のタスク性能を評価した研究。
昨日の別セッション(URL)ともオーバーラップするのですが、極性のアノテーションのゆらぎが潜在的にモデルのパフォーマンスに影響を及ぼすているのではないか、という貴重な議論ができました。

(ポスター)財務指標への影響を予測するESG施策シミュレータの開発^[4]

二酸化炭素排出などの非財務指標がReturn-On-Assets(ROA)などの財務指標にどのように影響するか、因果関係を説明可能にする試みについて発表いただきました。

専門家の知識に依拠して進めるべきところ、分析示唆を元にデータドリブンに進めるべきところの使い分けをされており、実務的側面でも強い説得力があったと感じられました。

テクニカル指標を用いた時系列クラスタリング手法の評価と比較^[5]

ご発表者方様の既存提案手法^[6]に対してテクニカル指標を適用し、表題の検証比較を行った研究。
テクニカル分析、UMAPという次元削減手法など、個人的には今まで利用経験がなかったためTakeawayが大変多かったです。
また、時系列データを非時系列的な構造データとしてクラスタリングしているような局面は実務で多々あるなと感じるのですが、特徴量を付与することで時系列性を取り込むようなアプローチは応用可能性が高いのではと感じられ、興味をそそられました。

データ流通市場におけるデータ探索のための深層データ表現学習モデル^[7]

データの流通市場における検索性の低さに着目した研究。
AWS Data Exchange^[8]などのデータ流通市場において現在はデータの中身について説明した「メタデータ」をもって検索がなされることが主流だとのことですが、
データの中身のみをモデルで評価し埋め込み表現を獲得し、メタデータを作成せずとも同等の検索性を果たせるようにする試みをされていました。
アノテーションコストの削減という、(きっと)誰もが叶えたい課題について地平を開くような研究だったのではないかと拝聴しました。

むすびに

本日ももりだくさんの1日でした！
個人的所感として、全体的にはLLMを取り巻く社会科学的な領域での発表が盛んだった印象で、データサイエンティストとしての視野を広げられる思いがいたしました。
次回は最終日Day4です!

脚注

https://confit.atlas.jp/guide/event/jsai2024/subject/3G1-GS-11-04/tables?cryptoId= ↩︎
https://confit.atlas.jp/guide/event/jsai2024/subject/3K1-OS-2a-03/tables?cryptoId= ↩︎
https://confit.atlas.jp/guide/event/jsai2024/subject/3Xin2-53/tables?cryptoId= ↩︎
https://confit.atlas.jp/guide/event/jsai2024/subject/3Xin2-89/tables?cryptoId= ↩︎
https://confit.atlas.jp/guide/event/jsai2024/subject/3D5-GS-2-02/tables?cryptoId= ↩︎
松井,蔦木,加藤,後藤(2020).株価時系列に基づく企業クラスタリング.JSAI_2020_2L5-GS-13-01. ↩︎
https://confit.atlas.jp/guide/event/jsai2024/subject/3K5-OS-2b-04/tables?cryptoId= ↩︎
https://aws.amazon.com/jp/data-exchange/ ↩︎

D2C m-techPublication

株式会社D2C d2c.co.jp のテックブログです。 D2Cは、NTTドコモと電通などの共同出資により設立されたデジタルマーケティング企業です。ドコモの膨大なデータを活用した最適化を行える広告配信システムの開発をしています。

はじめに

記事まとめ

おことわり

Day3 参加レポート

AI安全性のための日本語徳倫理データセットの作成[1]

デンマークにおける公共部門によるデータセット公開とプライバシー保護[2]

(ポスター)金融ドメイン特化のための大規模言語モデルのインストラクションチューニング評価[3]

(ポスター)財務指標への影響を予測するESG施策シミュレータの開発[4]

テクニカル指標を用いた時系列クラスタリング手法の評価と比較[5]

データ流通市場におけるデータ探索のための深層データ表現学習モデル[7]