🔖

Kaggle The Learning Agency Lab - PII Data Detection コンペ に挑戦

2024/05/05に公開

イントロダクション

こちらに続いて、kaggleコンペに変わった方法で挑戦します。
https://zenn.dev/zizo_kuma/articles/133ae7a5016086

やること

KaggleのThe Learning Agency Lab - PII Data Detection コンペに挑戦します!
変わった方法で挑戦しますがおそらくうまくいかないと思います😅

コンペについて

概要(DeepL)

このコンペティションの目標は、生徒の文章から個人を特定できる情報(PII)を検出するモデルを開発することです。教育データからのPIIの検出と除去を自動化するあなたの努力は、教育データセットの公開コストを下げるでしょう。これは、学習科学研究や教育ツールの開発を支援することになります。

信頼性の高い自動化技術により、研究者や産業界は、大規模な公開教育データセットが提供する可能性を活用し、教師や生徒を支援するための効果的なツールや介入策の開発を支援することができます。

説明(DeepL)

EDテック、オンライン学習、調査などのソースから教育データが豊富に得られる今日、PIIの普及は重要な課題である。PIIの存在は、データを公開することで生徒が危険にさらされるため、教育を発展させるオープンなデータセットを分析・作成する上での障壁となっている。このようなリスクを減らすためには、公開前に教育データをスクリーニングし、PIIをクレンジングすることが重要であり、データサイエンスはこれを効率化することができる。
現在のところ、データセット全体のPIIを手動で確認するのが最も信頼性の高いスクリーニング方法ですが、これには多大なコストがかかり、教育データセットのスケーラビリティが制限されます。名前付きエンティティ認識(NER)に依存する自動PII検出の技術は存在するが、これらは電子メールや電話番号のような共通の書式を持つPIIに対して最も効果的である。PII検出システムは、名前を正しくラベル付けし、機密性の高い名前(例えば、学生の名前)とそうでない名前(例えば、引用された著者)を区別するのに苦労しています。

コンペティション開催地であるヴァンダービルト大学は、テネシー州ナッシュビルにある私立研究大学である。最先端の研究所を擁する美しいキャンパスで、70の学士課程専攻科目と、10の学部・カレッジにまたがる大学院および専門職学位のすべてを提供している。ヴァンダービルトは、画期的な発見を育む学際的研究を鼓舞し、育成するために最適化されています。
このコンペティションにおいて、ヴァンダービルト大学は、アリゾナ州を拠点とする独立非営利団体「ラーニング・エージェンシー・ラボ」と提携し、社会貢献のための学習ベースのツールやプログラムを科学的に開発することに注力しています。
PIIを検出するための信頼性の高い自動化されたテクニックを開発することで、より質の高い公共教育データセットが生まれます。研究者は、教師と生徒の両方に利益をもたらす効果的なツールや介入策を開発するために、これまで利用できなかったこのデータの可能性を利用することができます。

活動

こちらに記載していますように、上にコンペの概要、説明について、いろいろ記載しましたが、今回も取り組みには一切関係がありません。
https://zenn.dev/zizo_kuma/articles/133ae7a5016086#活動

結果

Discussion