現状、最低限動いてはいるけどガバガバ
<h2 id="readability.js-%E3%81%A8%E3%81%AF" data-line="2" class="code-line">
<a class="header-anchor-link" href="#readability.js-%E3%81%A8%E3%81%AF" aria-hidden="true"></a> Readability.js とは</h2>
HTML から本文を抽出するライブラリ。
<iframe id="zenn-embedded__bc8fda63459eb" src="https://embed.zenn.studio/card#zenn-embedded__bc8fda63459eb" data-content="https%3A%2F%2Fgithub.com%2Fmozilla%2Freadability" frameborder="0" scrolling="no" loading="lazy"></iframe><a href="https://github.com/mozilla/readability" style="display:none" target="_blank" rel="nofollow noopener noreferrer">https://github.com/mozilla/readability</a>
元々はArc90によって開発され、現在はMozillaのFirefox Reader View に使われている。
AIモデルではなくルールベースだが、かなり精度がでる。
自分はこれを AI に食わせるサマリを作るのに愛用していたのだが...
<h2 id="dom-api-%E4%BE%9D%E5%AD%98%E3%81%A8-cloudflare-%E3%81%A7jsdom%E3%81%8C%E5%8B%95%E3%81%8B%E3%81%AA%E3%81%84%E5%95%8F%E9%A1%8C" data-line="14" class="code-line">
<a class="header-anchor-link" href="#dom-api-%E4%BE%9D%E5%AD%98%E3%81%A8-cloudflare-%E3%81%A7jsdom%E3%81%8C%E5%8B%95%E3%81%8B%E3%81%AA%E3%81%84%E5%95%8F%E9%A1%8C" aria-hidden="true"></a> DOM API 依存と Cloudflare でJSDOMが動かない問題</h2>
DOM API に依存しているので、 jsdom に依存してしまう。
<div class="code-block-container"><pre class="language-ts"><code class="language-ts code-line" data-line="18">import { JSDOM } from "jsdom";
import { Readability } from "@mozilla/readability";
import html2md from "html-to-md";

function getExtractContent(htmlContent: string) {
 const doc = new JSDOM(htmlContent);
 const article = new Readability(doc.window.document).parse();
 if (!article) {
 throw new Error("Article not found");
 }
 return html2md(article!.content);
}
</code></pre></div>普段は気にしないのだが、これによって cloudflare workers にデプロイできなかった。
mastra の MCP サーバーに載せて cloudflare deployer を使おうとしたが、駄目。
<iframe id="zenn-embedded__39ed44c4b5829" src="https://embed.zenn.studio/card#zenn-embedded__39ed44c4b5829" data-content="https%3A%2F%2Fgithub.com%2Fmastra-ai%2Fmastra" frameborder="0" scrolling="no" loading="lazy"></iframe><a href="https://github.com/mastra-ai/mastra" style="display:none" target="_blank" rel="nofollow noopener noreferrer">https://github.com/mastra-ai/mastra</a>
<h2 id="%E6%9B%B8%E3%81%8D%E7%9B%B4%E3%81%97%E3%81%9F" data-line="39" class="code-line">
<a class="header-anchor-link" href="#%E6%9B%B8%E3%81%8D%E7%9B%B4%E3%81%97%E3%81%9F" aria-hidden="true"></a> 書き直した</h2>
とりあえずコアロジックだけDOM非依存して、使えるようにした。一旦は htmlparser2 を使っている。
<iframe id="zenn-embedded__d33bbcacb2c16" src="https://embed.zenn.studio/card#zenn-embedded__d33bbcacb2c16" data-content="https%3A%2F%2Fgithub.com%2Fmizchi%2Freadability" frameborder="0" scrolling="no" loading="lazy"></iframe><a href="https://github.com/mizchi/readability" style="display:none" target="_blank" rel="nofollow noopener noreferrer">https://github.com/mizchi/readability</a>
<div class="code-block-container"><pre class="language-bash"><code class="language-bash code-line" data-line="45">npm install --save @mizchi/readability htmlparser2 html-to-md
</code></pre></div><div class="code-block-container"><pre class="language-ts"><code class="language-ts code-line" data-line="49">import { toHTML, extract } from "@mizchi/readability";
import html2md from "html-to-md";

const url = "https://zenn.dev/mizchi/articles/ts-using-sampling-logger";
const html = await fetch(url).then((res) =&gt; res.text());
const extracted = extract(html, { charThreshold: 100 });
// 結果を表示
console.log(`Title: ${extracted.title}`);
console.log(`Author: ${extracted.byline}`);
if (!extracted.root) {
 process.exit(1);
}
const htmlContent = toHTML(extracted.root);
const md = html2md(htmlContent);
console.log(md);
</code></pre></div>API が違うが、テキスト密度のコアロジックを移植したつもりではある。
出力例
<div class="code-block-container"><pre class="language-md"><code class="language-md code-line" data-line="71">$ pnpm tsx examples/run.ts
Title: TS の using でプリントデバッグを確率的にサンプリングして出力する
Author: null
pageType: article
[![](https://storage.googleapis.com/zenn-user-upload/topics/23eef6d9d7.png)

AI](/topics/ai)[![](https://storage.googleapis.com/zenn-user-upload/topics/f13e758fdb.png)

TypeScript](/topics/typescript)[![](https://static.zenn.studio/images/drawing/tech-icon.svg)

tech](/tech-or-idea)

スコープ単位でログをサンプリングする。

```
{
 using log = createSampleLog&lt;string&gt;(5);
 log("a");
 log("b");
 // スコープを抜けるときに最大5件サンプリングされて表示される
}
```
</code></pre></div>見てわかるが html-to-md のせいか自分のせいか不明だがリンクが壊れている。まあAI向けには多少壊れてても使えなくはないのだが...
<h2 id="%E6%9B%B8%E3%81%8D%E7%9B%B4%E3%81%97%E3%81%9F%E6%89%8B%E9%A0%86" data-line="98" class="code-line">
<a class="header-anchor-link" href="#%E6%9B%B8%E3%81%8D%E7%9B%B4%E3%81%97%E3%81%9F%E6%89%8B%E9%A0%86" aria-hidden="true"></a> 書き直した手順</h2>
Gemini 2.5 に食わせて、コアロジックを解釈させた。
自分で htmlparser2 で VDOM 的な構造体を決めて、そこにつなぎ込むのを前提に、AIに元実装でコードを読ませながら翻訳させた。
元コードが3600行ぐらいだが、Gemini 2.5 のコンテキストウィンドウが大きくすんなり言った。
とはいえ実際読んでみると、2006 年のベースらしく HTML5 依然のコードが対象になってるので、いらない仕様を自分で判断して捨てた。
もう少しちゃんとやる。

本文抽出ライブラリの readability.js を DOM 非依存に書き直す(WIP)

DOM API 依存と Cloudflare でJSDOMが動かない問題

Discussion