Open2

HuggingFace入門

チャアーハンチャアーハン

ことはじめ
https://huggingface.co/transformers/quicktour.html

記事
https://zenn.dev/ttya16/articles/ce89dcab833d32cadb39

piplineを利用した2値分類

modelの検索

ja,classificationで絞り込み検索でモデルを見ることができる

https://huggingface.co/models?language=ja&pipeline_tag=text-classification&sort=downloads

日本語の2値分類を試す

# Huggingface Transformersのインストール
!pip install transformers

# Sentencepieceのインストール
!pip install sentencepiece

from transformers import pipeline
classifier = pipeline('sentiment-analysis')

!pip install fugashi
# !pip install unidic_lite
!pip install ipadic

from transformers import AutoModelForSequenceClassification, AutoTokenizer
model_name = "daigo/bert-base-japanese-sentiment"

model = AutoModelForSequenceClassification.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

classifier = pipeline('sentiment-analysis', model=model, tokenizer=tokenizer)

jp_texts = [
    "セーブデータが消えた!マジで死ね!!!",
    "今のはメラゾーマではない、メラだ。",
    "まだ全てが終わったわけではない、そうだろう?",
    "ざぁこ❤ざこエンジニア❤前髪すかすか❤",
    "私は同性愛者ではありませんが、大谷翔平さんと一緒に森の中の丸太小屋に住みたいです。私たちはセックスすることはないでしょう。しかし彼が臀部を引き締めながら木を切るとき、次第に汗ばむ裸の上半身を、キッチンの窓から見ていた私は密かに腰の炎を燃やします。私は階段を上って、自慰行為をするでしょう。私は翔平を頭から追い出そうと、必死に女性の身体を想像しますが、それが無意味なことを知っています。最終的に私は絶頂に達することができないでしょう。そして私は怒りと切なさを感じながら階下に戻ります。時には私たちはテーブル越しに目を合わせることがあるでしょう。その瞬間、私たちは自分自身の内奥に潜む感情に、喜びを見出だす暇もなく蓋をして、そしてそれぞれがしていたことに戻っていくのです。ある日私たちの一人が死に、もう一人が丸太小屋の外に彼を埋めます。それから彼は旅立った友人にちょっとした詩を書いて、そして真のプラトニックな愛なしには生きる理由を見出だせずに自殺するでしょう。"
]

classifier(jp_texts)

結果

[{'label': 'ポジティブ', 'score': 0.8910778760910034},
 {'label': 'ポジティブ', 'score': 0.8558965921401978},
 {'label': 'ネガティブ', 'score': 0.8662201762199402},
 {'label': 'ポジティブ', 'score': 0.7411061525344849},
 {'label': 'ポジティブ', 'score': 0.8096109628677368}]

チャアーハンチャアーハン

よくある自然言語処理タスクとHFでの利用方法

https://huggingface.co/transformers/task_summary.html

  • Sequence Classification:分類
  • Extractive Question Answering:質問応答
  • Language Modeling
    • Masked Language Modeling:文中のあるマスク部分の補完
    • Causal Language Modeling: 文章生成
    • Text Generation:文章生成(これ実態は上と同じでは?)
  • Named Entity Recognition:固有表現抽出
  • Summarization:要約
  • Translation :翻訳

こまかい解説記事
https://qiita.com/Papillon6814/items/8565d23017d0451b2c94