👀
AnswerCarefully Dataset Version1を流し読みしてみる
2024/4/30に公開されたAnswerCarefully(AC)データセットVersion 1を流し読みしてみたメモ。
概要、配布元
日本語LLM 出力の安全性・適切性に特化したインストラクション・データ
- https://liat-aip.sakura.ne.jp/wp/answercarefully-dataset/
- 日本語向けに人手で作成されているので品質が高い
- 再配布不可、商用利用可
- 「データセットをご希望の方はこちらのフォームに必要事項をご記入ください。データセットへのリンクをメールでお送りします。」との記載があるが、2024/06/09時点ではGoogleフォームに回答するとデータセットのリンクがその場で表示された。
内容
- ユーザーの入力と、それに対するエージェントの回答の1ターンのやりとり
- エージェントは回答の中では「AI」や「大規模言語モデル」などを自称している
- また「私はLLM-jpによって開発されました。」のように、開発元をLLM-jpとする回答も含まれる
- データセットは「5つのリスクタイプ(大分類)、12の有害カテゴリ(中分類)、61のサブカテゴリ(小分類)」に分類されている
- この分類はDo-Not-Answer データセットに基づいているとのこと
- 「バイアス・差別・ヘイト・反公序良俗」カテゴリのデータセットにはjailbreak promptが含まれる
- 例:
answercarefully-instruction-dev-001-001-0000087-001
- 例:
流し読みしてみた感想
- いくつかのデータの分類にはやや疑問を覚えた
-
answercarefully-instruction-dev-001-001-0000319-001
: 犯罪ではない性的な行為に関する質問が「悪用 - 違法行為への加担 - 性的虐待・違法ポルノ」に分類されている。「バイアス・差別・ヘイト・反公序良俗 - アダルト - 露骨な性表現・わいせつ」のほうが適切ではないか?- 露骨とは言えないが回答に注意を要するわいせつ表現に該当するカテゴリはなさそう
-
answercarefully-instruction-dev-001-001-0000334-001
: 「自分が受けた虐待的な行為の動機を尋ねる」という内容の質問が「悪用 - 違法行為への加担 - 肉体的暴力・虐待」に分類されている。質問内容そのものは行為への加担ではないので分類は不適当ではないか?- しかし他に適当な分類カテゴリがなさそう
-
- ACデータセットが想定している「回答に注意を要する質問」は、Do-Not-Answerデータセットが想定している「回答を拒否すべき質問」よりも幅広い内容を含むので、カテゴリの拡張が必要なのかもしれない
カテゴリと件数
大分類 | 中分類 | 小分類 | 開発データ件数 | テストデータ件数 |
---|---|---|---|---|
AIとの対話によるリスク | AIの擬人化 | AIへの感情的依存 | 16 | 3 |
AIとの対話によるリスク | AIの擬人化 | 個人情報の聞き出し | 15 | 3 |
AIとの対話によるリスク | メンタルヘルス | 一般的なメンタルヘルス | 10 | 3 |
AIとの対話によるリスク | メンタルヘルス | 不安やうつ | 11 | 3 |
AIとの対話によるリスク | メンタルヘルス | 心的症状 | 16 | 3 |
AIとの対話によるリスク | メンタルヘルス | 自傷行為 | 12 | 3 |
バイアス・差別・ヘイト・反公序良俗 | アダルト | 暴力表現 | 12 | 3 |
バイアス・差別・ヘイト・反公序良俗 | アダルト | 露骨な性表現・わいせつ | 15 | 3 |
バイアス・差別・ヘイト・反公序良俗 | ステレオタイプ・差別の助長 | その他の差別 | 10 | 3 |
バイアス・差別・ヘイト・反公序良俗 | ステレオタイプ・差別の助長 | 人種バイアス・差別 | 11 | 3 |
バイアス・差別・ヘイト・反公序良俗 | ステレオタイプ・差別の助長 | 地域バイアス・差別 | 10 | 3 |
バイアス・差別・ヘイト・反公序良俗 | ステレオタイプ・差別の助長 | 宗教バイアス・差別 | 12 | 3 |
バイアス・差別・ヘイト・反公序良俗 | ステレオタイプ・差別の助長 | 性別バイアス・差別 | 15 | 3 |
バイアス・差別・ヘイト・反公序良俗 | ステレオタイプ・差別の助長 | 肉体的特徴に基づく差別 | 15 | 3 |
バイアス・差別・ヘイト・反公序良俗 | ステレオタイプ・差別の助長 | 障がいに基づく差別 | 10 | 3 |
バイアス・差別・ヘイト・反公序良俗 | ヘイトスピーチ | その他悪質な脅しや嫌がらせ | 10 | 3 |
バイアス・差別・ヘイト・反公序良俗 | ヘイトスピーチ | 侮辱・名誉棄損 | 15 | 3 |
バイアス・差別・ヘイト・反公序良俗 | ヘイトスピーチ | 卑語 | 13 | 3 |
悪用 | 偽情報拡散への加担 | スパム作成 | 13 | 3 |
悪用 | 偽情報拡散への加担 | 偽情報 | 13 | 3 |
悪用 | 偽情報拡散への加担 | 悪意のある情報操作 | 12 | 3 |
悪用 | 違法行為への加担 | デジタル空間の違法行為(ハッキングやフィッシング詐欺、サイバーテロなど) | 18 | 3 |
悪用 | 違法行為への加担 | テロリズム(武器の製造やテロ行為の呼びかけ・募集など) | 16 | 3 |
悪用 | 違法行為への加担 | 動物虐待・密猟 | 14 | 3 |
悪用 | 違法行為への加担 | 性的虐待・違法ポルノ | 14 | 3 |
悪用 | 違法行為への加担 | 肉体的暴力・虐待 | 10 | 3 |
悪用 | 違法行為への加担 | 脅し・恐喝 | 12 | 3 |
悪用 | 違法行為への加担 | 著作権侵害 | 12 | 3 |
悪用 | 違法行為への加担 | 薬物・アルコール中毒 | 11 | 3 |
悪用 | 違法行為への加担 | 違法取引・人身売買 | 12 | 3 |
悪用 | 違法行為への加担 | 違法薬物 | 13 | 3 |
悪用 | 違法行為への加担 | 違法金銭行為(闇バイト、詐欺、脱税、マネーロンダリングなど) | 15 | 3 |
悪用 | 違法行為への加担 | 非合法的な偵察・検閲 | 11 | 3 |
悪用 | 非倫理的行為への加担 | ネットいじめの幇助 | 14 | 3 |
悪用 | 非倫理的行為への加担 | ネット荒らし行為 | 9 | 3 |
悪用 | 非倫理的行為への加担 | 中傷・名誉毀損の幇助 | 8 | 3 |
悪用 | 非倫理的行為への加担 | 健康被害 | 14 | 3 |
悪用 | 非倫理的行為への加担 | 危険行為への誘導 | 10 | 3 |
情報漏洩 | 個人情報漏洩 | PII | 11 | 3 |
情報漏洩 | 個人情報漏洩 | その他個人情報 | 13 | 3 |
情報漏洩 | 個人情報漏洩 | バイオメトリクス | 12 | 3 |
情報漏洩 | 個人情報漏洩 | ファイナンス | 9 | 3 |
情報漏洩 | 個人情報漏洩 | 医療 | 11 | 3 |
情報漏洩 | 個人情報漏洩 | 教育 | 16 | 3 |
情報漏洩 | 組織・国家機密漏洩 | サイバーセキュリティ | 14 | 3 |
情報漏洩 | 組織・国家機密漏洩 | 機密情報の聞き出し | 11 | 3 |
情報漏洩 | 組織・国家機密漏洩 | 機密情報へのアクセス | 15 | 3 |
情報漏洩 | 組織・国家機密漏洩 | 機密技術情報 | 11 | 3 |
情報漏洩 | 組織・国家機密漏洩 | 法律・訴訟 | 7 | 3 |
情報漏洩 | 組織・国家機密漏洩 | 組織内コミュニケーション | 13 | 3 |
情報漏洩 | 組織・国家機密漏洩 | 組織内規定・手続き | 8 | 3 |
情報漏洩 | 組織・国家機密漏洩 | 財政・予算情報 | 7 | 3 |
誤情報 | 誤情報による実被害(医療・法律など) | その他専門分野の相談 | 13 | 3 |
誤情報 | 誤情報による実被害(医療・法律など) | 医療相談 | 17 | 3 |
誤情報 | 誤情報による実被害(医療・法律など) | 法律相談 | 17 | 3 |
誤情報 | 誤情報による実被害(医療・法律など) | 金融相談 | 10 | 3 |
誤情報 | 誤情報の拡散 | うわさ | 14 | 3 |
誤情報 | 誤情報の拡散 | フェイクニュース | 12 | 3 |
誤情報 | 誤情報の拡散 | プロバガンダ | 17 | 3 |
誤情報 | 誤情報の拡散 | 危険行為 | 9 | 3 |
誤情報 | 誤情報の拡散 | 誤った文脈・背景 | 16 | 3 |
Discussion