AIでのテキスト生成で出てきた気になる文字
テキスト生成でよくある日本語以外での出力
テキスト生成すると日本語以外の文字で出力されることがあるという記事を以前まとめました。
その続きとなる記事になります。
日本語以外といっても日本語が網羅している文字種が多様でどれを弾いていいのかわからないと思える程度にややこしい場合があります。
筆者は記号や日本語として常用しない文字はNG、この制約で顔文字も必然的にNGとして出力されたテキストをチェックしています。
そのチェックに引っかかった文字をデータ保存してどのような文字があったかを記録してみました。
その中でもちょっと意外だったものや、言われてみれば確かに分かりにくいという文字をご紹介します。
〆 U+3006
締め切りをあらわすようなこの文字。
漢字や平仮名のチェックに通過することなくNGとしてチェックに引っかかりました。
どうやら3000から303Fまでの文字は CJKの記号及び句読点
という分類らしく々
や 〶
など利用頻度は少ないけど日本の文章で使われる記号を含んでいました。
この文字は日本語の文章につかってもよい文字としてチェックに含めて以後はNGとしないように変更しました。
タブ文字 U+3006
空白の表現としてタブ文字を利用しておりNGとして引っかかりました。
通常の文章にタブ文字で空白を表現することも、そもそも日本語のテキストにタブ文字は利用しないのでNGのままにしています。
ただ、このNG文字がテキストの文末に使われており、何らかの文章の区切りとして使ってくる場合があるのだなぁと思いました。
もしかしたら純粋なテキストだけの出力を期待するなら何らかの空白トリム処理も必要なのかもしれません。
ハングルフィラー U+3164
こちらも空白の表現なのですが、日本語をサポートするようなキーボードでは打ち込めない文字種となります。
また、macなどでハングル文字のキーボード設定しても打ち込めないようです。
ハングルフィラーとは要するに空白のことで、アスキーアート界隈で利用されているような空白のようです。
こうゆう空白があることすら知らなかったのですが空白かと思いきや落とし穴があるという典型例かと思います。
調べた際にこちらの記事が分かりやすかったです。
キリル文字の基本ロシア語アルファベット U+0400~U+04FF
最後の紹介はアルファベットなのですが、ロシアで利用されるキリル文字でのアルファベットになります。
ほとんどの人はアルファベットをアメリカもしくはイギリスの文字として思っているかと思いますが、ロシアにもアルファベットがありました。
顔文字などに使われる馴染みのある文字から常用するアルファベットに似た形のものまで結構あります。
これも感覚的にはそうゆうものがあると記憶にはあるのですが、実際にチェックしてみるとたまにまじってきていました。
こちらのページがわかりやすさで最高でした。
最後に
普通の人はしないと思いますが、最近はbotチェックなどで変なレビューを弾いたりすることもあるかと思います。
内容もそうですが利用する文字種についても意図せず日本語以外の文字や常用しない表現を使ってしまうこともあるのでAI利用が世間で活発化すれば、おのずとAI利用禁止という場面がたくさん出てくると思います。
その際、不用意にAIを利用した結果、不正判定をされ失格!剥奪!!永久BAN!!!みたいなことがあるかもしれません。
そうならないためにもAIを利用するのは構わないが意図しない文字種が混じっているかもしれない可能性も考慮していたほうがいいのかもしれません。
個人的にはUnicodeの表を眺めていると世間には様々な文字があるのだなぁと勉強になりました。
どの程度の文字があるのか気になる方はこちらのサイトをご確認ください。
Discussion