💬

スクレイピングの概要とリスクについて

2024/08/23に公開

スクレイピングとは

スクレイピングとは、Webサイトを解析して必要な情報を取得する自動プログラムのことです。
取得した情報を元に、営業リストの作成やマーケティング等に活かすことができます。

手動で毎回Webサイトにアクセスして必要な情報を取得し、スプレッドシートなどに保存していると膨大な時間がかかってしまいます。その分の人件費とデータ作成の手間を大幅削減してくれるのがWEBスクレイピングです。

スクレイピングのリスク

そんな便利なスクレイピングにも、法的リスクが存在します。

1、個人情報保護法の違反

例えば、取得したデータが個人を特定できるような電話番号だった場合、個人情報保護法の違反になる可能性があります。

2、不正アクセス禁止法の違反

スクレイピングによってサイトに負担をかける、または意図的にセキュリティの弱点を突いてデータを取得する行為は、不正アクセス禁止法に抵触する可能性があります。

3、著作権法の違反

Webサイトの内容が著作物として保護されている場合、スクレイピングによってその内容をコピーすることは著作権法に違反する可能性があります。

一部のWebサイト or Webページでスクレイピングを禁止している理由

スクレイピング自体は違法ではありませんが、世の中にはスクレイピングを禁止しているサイトがあります。
禁止理由は、主に以下の3つ。

1. サーバー負荷

短期間に大量のリクエストを送信することで、過度な負荷がかかるため。
すると、サイトのパフォーマンス(処理速度など)が低下し、場合によっては閲覧障害が発生してしまう可能性があります。

2. データの不正使用

Webサイト上のデータが無断で取得され、不正に使用される可能性があるため。

3. 知的財産権の侵害

Webサイトのコンテンツが著作権で保護されている場合、そのデータをスクレイピングして利用することが知的財産権の侵害になるため。

スクレイピングが禁止されている主なサービス

YouTube、X、Google検索エンジン、Amazon、Yahoo!など

傾向としては、大規模なECサイトやSNSなど。特にSNSやECサイトでは、ユーザーの投稿や購買履歴、個人データなどが含まれているため、不適切にこれらの情報を収集されることを防ぐためにスクレイピングを禁止しています。ただし、公式で提供されているAPIを利用すれば合法的にデータにアクセスできます。

公式API例:YouTube

https://developers.google.com/youtube/v3

公式API例:X

https://developer.x.com/ja/docs/x-api

公式API例:Google検索エンジン

https://developers.google.com/custom-search/v1/overview?hl=ja

公式API例:

最後に

実は、そのサービスサイトでスクレイピングを禁止しているかどうか、事前にチェックする方法があります。また次回の記事でご紹介します。

ーーーーーーーーーーーー
普段はフリーランスのDXプログラマー&マークアップコーダーとして稼働しています!
現在、2社協業中!
https://shuto-work.notion.site/Profile-232ee534179a418cbd913d36204c00ae

GitHubで編集を提案

Discussion