langextractの日本語対応

langextractのウリだと感じている、抽出区間のアライメント(char_interval)が日本語文章だとうまくない。
この issue はある。CJKを文字単位でトークン化する対応。
https://github.com/google/langextract/issues/13

https://github.com/google/langextract/tree/feature/multi-language-tokenizer
なかなかmainに取り込まれていない。いまとなっては古いコードで、そのままマージできない。

morioka

暫定的に取り込んだ。tokenizer.pyを差し替えただけ。本家mainで対処されれば捨てる。

https://github.com/morioka/langextract

morioka

念のため：
char_intervalの問題について言及している記事があったりなかったり。

困っていない人はスペース区切り、改行区切りの文章だったのだろう。
https://qiita.com/k_nabe/items/48fa653790df2375a4f2

https://zenn.dev/tfutada/articles/68dd0e19d92279

https://milvus.io/ja/blog/langextract-milvus-a-practical-guide-to-building-a-hybrid-document-processing-and-search-system.md

https://note.com/r7038xx/n/n69e1d48fb9a0

https://zenn.dev/chameleonmeme/articles/0688da86af9a32

https://iret.media/166365

https://bwgift.hatenadiary.jp/entry/2025/08/09/232433

https://qiita.com/tetutetu214/items/b3177ee596d3d75e7f10

https://qiita.com/xxyc/items/610e2e06a88e621e0c54

このスクラップは24日前にクローズされました