日本語文境界判定ツールのメモ

bunkai

ただし遅い(BERT ベースのため)... CUDA で動かしてもみたが, GPU で高速化もそんなにされない感じであった

ルールベース? 未検証だが bunkai よりは速いと思う. 上記 chiTra の記事によれば入力文が長いと O(n^2)? くらいで処理時間がかかる模様

ぺろっと使えるのはよい.
BERT(Transformer)版は遅いので, LLM 向けコーパス構築などの大量処理には向かない.

これが 2023/12 時点技術的には最新っぽい

すくなくとも bunkai よりは速そう?

ただ wtpslit の pretrain モデルでは, 日本語は全然だめでした...
日本語データセットで train し直しが必要かもしれません.

ja_sentence_segmenter

ルール頑張って書く!

絵文字扱えるのはええね

CommonCrawl などの web 文章を扱う場合,
途中で切れている文章の結合しなおしも考えると, 現状は

の組み合わせがよいか.

wtpslit も一応論文 reproduce 手順はあるようなので, 日本語で再学習させるといいかもはしれません...