🗑️

web.archive.org からサイトを除外する(令和最新版)

2022/06/01に公開

DNS

idea

いわゆる寄生系CGMサイトをやろうかなと思っていて、トラブル防止のためそこで使うつもりのドメインを ウェブアーカイブから除外 とすることにした。

ウェアーカイブ(Internet Archive Wayback Machine)はWebサイトを収集してバックアップ、それを公開するシステムで、サイトの過去のデータにアクセスできる。

今回は自分が所有しているドメイン okotama.org とそのサブドメイン一切を除外してみた。

http://web.archive.org/web/*/okotama.org

This URL has been excluded from the Wayback Machine.

(ただし、これを書いている時点ではサマリページ http://web.archive.org/details/okotama.org には統計情報が残っている。)

前提

Internet Archiveは基本的に赤の他人からの除外依頼を受理しないので、一般には以下のどちらかを満たす必要がある:

情報を載せているドメインの現在のオーナーである 。今回はこちらの立場で除外依頼を出した。
著作権侵害を報告できる立場である 。 Internet ArchiveのFAQ に掲載されている方法はこちらで、Copyright agentに著作権侵害の旨をメールや郵便で通知する。

どちらのケースであっても info@archive.org 宛にメールすることになり、そのときアーカイブされたコンテンツに送信元のメールアドレスがあればそれをもってコンテンツの所有者の立証とできる。 署名大事だね 。

逆に、ドメインを手放してしまった場合のように自身が著作権者であることを立証できない場合は難しいと言える。

もっとも、実際にはフォーラム等眺める限りはお願いで削除されたケースもいくつか報告がある:

状況が深刻ならやってみる価値はあるのではないか。人間が読んでるようなので。

手順

手順としては以下の通りになる:

除外希望を info@archive.org に送信する
先方のZendeskに起票されて、リクエストをテンプレに合致の上ドメインのルート(domain.com/waybackverify.txt)かDNSレコードに記載するように指示される
リクエストをWeb公開してメールに返信

このプロセス全体に週末を挟んで5日ほど掛かっている。Webサーバを用意するのは面倒だったので、ドメインをcloudflareに置いてcloudflare pagesに.zipを突っ込む形でWebサイトをでっちあげた。

web.archive.orgから除外するだけであれば、いわゆる robots.txt を書く必要は無い。 Internet Archiveがrobots.txtを尊重するかどうかは諸説あり 、blogでは過去にパブリックコメントを募集していたものの結局適用範囲がどうなったのかは情報が無いようだ。

もっとも、 robots.txt やHTMLの meta タグは著作権法施行規則では認められた方法なので万全を期するなら併用すべきだろう。(Web魚拓のFAQ では著作権法を引いているが実際に規定があるのは著作権法施行規則の方。)

実際に(英語で)やりとりした文面は waybackverify.txt で検索すると実例がいくつか見つかるので割愛。また、Webに公開する情報は waybackverify.txt のファイル名である必要は必ずしもない。今回は:

Subject: Please remove okotama.org

Please exclude as following:

URL/URL path to exclude: okotama.org (and all subdomains)
time period of domain ownership: 2003-04-24 to present
time period to exclude: 2003-04-24 to future

のような内容でメール & URLを提出した。2003-04-24はドメインの登録日で、実際登録直後からアーカイブが取られていた。

もっとも、既にドメインごとアーカイブから除外されているので、もうこのグラフを見る方法は無い。

かんそう

アーカイブからの除外自体は以前から計画していたことでいつやっても良かったのだけど、ここしばらくは俄かにアーカイブ関連の話題が盛り上っている気がする。

謎めいたInternet Archive

Web archive自体は誰でも知っているサイトだとは思うけど、DMCAの都合で削除申請の方法が割と明示されるようになった商用サイトと異なり、細かいポイントで謎が多いというか、どこか暴力的な印象を受けた。

例えば、公式のFAQで説明されている方法は担当者へのcopyright claim手法だけで、ドメインのオーナーが削除申請したらどのようなルートで確認が求められるのかといった情報は実際にメールして確認するまでは他所のサイトの記述に頼るしか無かった。過去には robots.txt による除外方法を説明したページも存在したのに、そのページは消されている。

特にcrawlerの仕様が説明されていないので、未だに robots.txt を書けって説明がWeb上に散見される。

Internet ArchiveとAlexaの関係

Alexa(Internet)はAmazonの子会社でインターネット視聴率というかランキングというかを主に提供していた。Alexaの名称はAmazonの音声サービス一般にも使用されているが、技術的にはAlexa Internetとは関わりは無いようだ。

↑ で引いたページ( https://blog.reputationx.com/block-wayback-machine )でも参照されているように、 AlexaはWeb Archiveのデータ提供元として2020年くらいまで活動していて、そもそもAlexa(Internet)とInternet Archiveを設立したのは同一人物の Brewster Kahle 。

Kahle founded the Internet Archive and Alexa Internet.

そのAlexaも今年の5月に一切のサービスを終了しWebサイトも閉鎖している。歴史的な ia_archiver botに関する説明はInternet Archiveに残っている( https://web.archive.org/web/20211220015423/http://support.alexa.com:80/hc/en-us/articles/200450194-Alexa-s-Web-and-Site-Audit-Crawlers )。

ドメイン名という究極のパワー

今回はドメイン名 okotama.org の所有権を持ちつづけていたので非常に簡単にInternet Archiveから除外できた。つまり、ドメインの所有権はコンテンツの著作権と同等の非常に強いパワーを持っていたと言える。

もうGitHub pagesなりなんなりで無料かつ簡単にWebサイト作れるのにドメイン名なんか保持していて何になるんだという意見もあるかもしれないが、Web上で何かする上ではやっぱり有った方が良いと思った。

まぁこの記事を書いてるのも他人のドメインである zenn.dev 配下ではあるし、究極のパワーを持っているが活用は難しいというところだろうか。。結局のところ、プラットフォームと集客が不可分の問題である以上、ドメインの持つ究極のパワーを活用する機会があまり無い現実がある。

それでも自前のドメインをわざわざひっぱり出してメンテナンスしようとしているのは:

Web originを完全に制御できる 。DNSのワイルドカード等を使用して無限のWebオリジンを生成できる。例えばGitHub Pagesの場合、払い出されるのは *.github.io のサブドメインでDNSも十分に制御できない(CNAME のみ)。
プラットフォーマーの都合に影響されづらい 。たまにsafe browsing等のリストからbanされる可能性はある(cf. https://security.sios.com/guest/reading/safebrowsing-falsepositive.html )が、一律のエロ禁止といったプラットフォームの規約は存在せず、必要に応じて提供プラットフォームを選択できる自由がある

ドメインはプラットフォーマーの選択の自由を得るために必要になる。個人的に今危いと思っているのはメールで、基本的には gmail.com 側のメールは使わずに自前のドメインのメールを使っていて、必要に応じて別のサーバに退避することを想定している。何故かメールアドレスはユーザアカウントの究極の信頼として普及してしまったので、個人についてはドメインの究極のパワーが現在最も及ぶところではないだろうか。メールアドレスを独自ドメインにしておくことで、万一Googleのアカウントがbanされても生活が破綻することがない。

Webの記事は消えるもの？

この話題、つまりプラットフォーマーが情報のロケーションとプレゼンスを握れてしまう問題はずっと昔から続いているものと言えるが:

↑ で書かれているような内容が、ずっと昔から解決されていないとも言える。他人の映画なりなんなりがモリモリとアップロードされていた過去のGoogle VideoやYouTubeは(効率的に客を集められたため)支配的なプラットフォームになることができたが、図書館という立場ではマネタイズも難しく"古き良きWeb"を超えられない(= 安定した、強いプラットフォーマーになれない)面があるのかもしれない。

... "Webの普及によって誰でも情報発信が可能な時代になった！"というのは結局のところナイーブな見方であって、従来は出版社というプラットフォームがあったものが別の大企業に置き換わっただけで、かつ、従来存在したアーカイブ考察が今の時代には行き届いていないのだろう。

これは別に今に始まったことではなく、例えばTVの電波はどこか公的なところにアーカイブされているわけでもないため、欠損したTV番組はいくらでも存在する。なのでどちらかというと紙がメディアとして強かった時代が単に例外的なのではないだろうか。人類が生み出す情報量は指数的に増加しているので、それが紙メディアに落し込まれなくなった時点で、情報は流れて消えるようになった。

法の不遡及、倫理の遡及

アーカイブから過去ログを消したのは興味本位が7割くらいなので(手元にはバックアップが有るし)あんまり深い理由はない。

除外に関してはCGMをホストする^[1]上で問題になる可能性を配慮した。今のところサイトの方針として投稿型を含めるのか完全寄生型^[2]にするのかは結論していないが、いずれにせよ削除に対して責任を持つ必要がある。つまり、 作品の作者を匿名で扱うことと、その匿名ユーザがアーカイブから作品を削除できるようにすることの両立が難しい可能性があり 、安全策として最初からInternet Archiveについては除外してしまおうと考えた。他のシステム(Google 検索やWeb魚拓等)は meta タグを尊重するのでそちらで対応できるが、Internet Archiveはそうでない可能性が高いと判断した。

一般に、法律と刑罰の関係では法の不遡及の概念があり、ある時点で無罪だったものはその後の法律の変化を受けて有罪になることはないとされる。しかし人間の性(さが)として倫理については過去に遡及して適応したくなるものなので、 公開される情報に期限切れは存在しない と考えるしかない。少くともInternet Archiveについては robots.txt のような既存の普及した習慣に縛られていない(ように見える)以上、除外できるうちに除外しておくことが妥当な可能性が高い -- そうしなければ、例えばドメインを失うような事態になると情報が制御不能になる。

アートが匿名であることを許せるかどうかは人に依る。アートと称して匿名で他人を誹謗中傷することは悪いと考える人が多いかもしれない(安全圏から石を投げる行為)。バンクシーは比較的アートとして見られ、 "バンクシー作品らしきネズミの絵"看板という素晴しいカウンター・アートとでも呼ぶべきものを生んでいる(匿名アートの権威性の効果的な破壊)。これだけ巾広い捉え方があるものについて、プラットフォームができる妥当な線引きは存在するだろうか。

よって、サイトから属人性を排除することを前提にもろもろを組み立てる必要があって、その前提の上ではアーカイブからは 事前に 除外することが最善に見える。Internet Archiveからの除外は(ドメインの所有者でなければ、)著作者であることを証明する必要がある属人的なプロセスで、これはあまりネット文化とは相性が良くないのではないだろうか。

脚注

最終的には、いわゆるFantasy Consoleのように小さなインタラクティブプログラムをブラウザ上で直接動作させることを狙っている。この手のものは画像にステガノグラフィでコードを埋めるので、ある程度の表現力を持たせた場合 健全に見える画像にコードを埋めて不健全画像を出力させる奴が絶対出てくる だろう。日本だと FLMASK のような判例が既にある。 ↩︎
GitHubのようなパブリックGitリポジトリから直接データを吸い、ブラウザ側でコンパイルすることを考えている。そうすれば投稿機能等も用意する必要がない。Allowlistの制御は要るけど。 ↩︎