Closed3

langextractの日本語対応

moriokamorioka

langextractのウリだと感じている、抽出区間のアライメント(char_interval)が日本語文章だとうまくない。

この issue はある。CJKを文字単位でトークン化する対応。

https://github.com/google/langextract/issues/13
https://github.com/google/langextract/tree/feature/multi-language-tokenizer

なかなかmainに取り込まれていない。いまとなっては古いコードで、そのままマージできない。

このスクラップは24日前にクローズされました