Closed5
mozilla/readabilityをRustで書き直す
既存の https://github.com/kumabook/readability は https://github.com/mozilla/readability とはまったく違う挙動をするので、極力mozilla ver.に合わせた仕様のreadabilityをRustで書き直したい。
現状クライアントサイドでPuppeteer -> readability、サーバーサイドでammoniaという構成で抽出しているが、これをすべてサーバーサイドで行うようにするのが目標。すでにheadless_chromeがあるので、あとはreadabilityさえ移植できればいいのだけれど…
https://github.com/kumabook/readability は開発が止まっていて色々と古い書き方な上、(当時は準拠していたかもしれないが)最新のmozilla版とはほぼ別物と言っていい実装なので、わりと一からやらないといけないっぽい。
html5ever, markup5ever_rcdomを使っているが、これをすべてkuchiki経由でparse, manipulateするようにしたい。
他にも
- tl
- lol_html
とパーサー・マニピュレータはあるが、まだ枯れてない印象。lol_htmlはcloudflare発でよさげな雰囲気だけど、何度もdomを読み込んで操作しないといけないreadabilityとは相性があまり良くないように思うので、とりあえずkuchikiで頑張ってみる。
このスクラップは2023/06/20にクローズされました