Closed3
langextractの日本語対応

langextractのウリだと感じている、抽出区間のアライメント(char_interval)が日本語文章だとうまくない。
この issue はある。CJKを文字単位でトークン化する対応。
なかなかmainに取り込まれていない。いまとなっては古いコードで、そのままマージできない。

暫定的に取り込んだ。tokenizer.pyを差し替えただけ。本家mainで対処されれば捨てる。

念のため:
char_intervalの問題について言及している記事があったりなかったり。
困っていない人はスペース区切り、改行区切りの文章だったのだろう。
このスクラップは24日前にクローズされました