Closed5

mozilla/readabilityをRustで書き直す

kyoheiukyoheiu

現状クライアントサイドでPuppeteer -> readability、サーバーサイドでammoniaという構成で抽出しているが、これをすべてサーバーサイドで行うようにするのが目標。すでにheadless_chromeがあるので、あとはreadabilityさえ移植できればいいのだけれど…

kyoheiukyoheiu

https://github.com/kumabook/readability は開発が止まっていて色々と古い書き方な上、(当時は準拠していたかもしれないが)最新のmozilla版とはほぼ別物と言っていい実装なので、わりと一からやらないといけないっぽい。

kyoheiukyoheiu

html5ever, markup5ever_rcdomを使っているが、これをすべてkuchiki経由でparse, manipulateするようにしたい。
他にも

  • tl
  • lol_html

とパーサー・マニピュレータはあるが、まだ枯れてない印象。lol_htmlはcloudflare発でよさげな雰囲気だけど、何度もdomを読み込んで操作しないといけないreadabilityとは相性があまり良くないように思うので、とりあえずkuchikiで頑張ってみる。

このスクラップは2023/06/20にクローズされました