知っておかないとヤバイ! スクレイピングにおける3つの注意点とは?

「業務にスクレイピングを使うのってアリなの?」
「そもそもスクレイピングって合法なの? 違法なの?」
こんな疑問や不安をお持ちの方もいらっしゃるかもしれません。

ですが、ここでちょっと考えてみてください。
たとえば、免許を持っている人が車でドライブするのは違法でしょうか? 違法なわけがありませんよね。
しかし、運転中に信号無視をしたらマズいですよね。道路交通法違反になってしまいます。

単純に言えば、スクレイピングも同じことです。
スクレイピングそのものがダメなわけではなく、スクレイピングをするときには最低限のルールを守る必要がある、という点が重要です。
だからこそ、実際にスクレイピングを業務に活用して利益をあげている企業が存在するわけですね。

そこで今回の記事では、スクレイピングをする時はどんなルールを守ればいいのか? 何に気をつければいいのか? などの注意点を見ていきましょう。

スクレイピングの定義をおさらい

ウェブスクレイピング(Web Scraping)とは、対象のウェブサイトのhtmlから情報を取得・抽出するコンピュータソフトウェア技術を指します。ウェブクローラー(web crawler)またはウェブスパイダー(web spider)と呼ばれることもあります。

スクレイピングのツールおよびプログラムは、対象のウェブサイト上にある文書や画像などのデータを、短時間で大量に取得することが可能です。
ただし、短時間で大量のデータを取得できることと、短時間で大量にリクエストを送っていいかどうかは別問題です。相手サーバへのアクセス頻度には細心の注意が必要です。(これについては、下記「注意点3」にて述べます)

 

注意点その1:スクレイピングにおいて、著作権の問題を回避するには?

スクレイピングは、他者のウェブサイトから情報を取得することになりますので、相手サイトの著作権を侵害しているのではないか? と心配になると思います。

相手のサイトに作成されているコンテンツにオリジナリティがあるならば、それは著作物とみなされ、著作権上、保護される対象となります。

著作権者の同意なく、オリジナリティある著作物をコピーや保存、再利用、配布などする行為は、著作権侵害となるおそれがあります。

「えっ、保存すらダメなの? いくらなんでも厳しくない?」って思いますよね。
しかし、著作権上の例外規定というものがあり、著作権の侵害にならない場合があります。
例外のケースをみていきましょう。

「情報解析のための複製」は著作権法上の例外規定になるのでセーフ

著作権法では、「情報解析のための複製等を著作権者の同意なく行う行為」が認められています。
著作権法第三十条の四(著作物に表現された思想又は感情の享受を目的としない利用)
にて。
(えっ? 第四十七条の七じゃないの? と思う方もいらっしゃるかもしれませんが、それについての説明は後述します)

スクレイピングで取得するデータやコンテンツは膨大ですので、それらのコンテンツ1つ1つに対して同意を得ることは現実的ではありません。

スクレイピングされる側(サイト運営側)の立場としても、膨大な量の同意を求める問い合わせが来たら、めんどくさすぎますよね。そのため、このような例外規定があるのだと思います。

「スクレイピングしたデータを記録媒体に保存する行為はOKなのか?」についてですが、
下記2つの場合については、著作権法上の例外規定により許されています。

著作権法上の例外規定により許されているケース
コンピュータによる情報解析を行うことを目的とした場合の、
記録媒体への記録または翻案。

※ここでいう情報解析とは、
「大量の情報から言語,音,映像等を抽出し,比較,分類等の統計的な解析を行うこと」を指します。例えば、スクレイピングして得たデータを統計的に解析し、マーケティングに活用したりなどのケースが想像できますね。

Tips
翻案とは:
前にだれかがした事柄の大筋をまね、細かい点を造り変えること。
元のコンテンツに新たな創作的表現を加えること。
三十条? 四十七条? どっち?
結論から言うと、2018年以前は四十七条の七で、
2019年からは三十条の四になりました
そのため、
「ネットでいろいろ調べた結果、著作権法第四十七条の七によると、スクレイピングしたデータを情報解析に使用してもOKとのこと。よーし、念のため法律の原文も確認しておこう。…あれ? 四十七条を見てみたけどそんな内容なんて無いじゃん」
と、不安になってしまうパターンが多いです。
(法改正後に情報が更新されていないサイトが多いのが原因です。ややこしいですね…)

以下、文化庁ホームページより引用

[1]著作物に表現された思想又は感情の享受を目的としない利用(第30条の4関係)

著作物は,技術の開発等のための試験の用に供する場合,情報解析の用に供する場合,人の知覚による認識を伴うことなく電子計算機による情報処理の過程における利用等に供する場合その他の当該著作物に表現された思想又は感情を自ら享受し又は他人に享受させることを目的としない場合には,その必要と認められる限度において,利用することができることを規定しています。これにより,例えば人工知能(AI)の開発のための学習用データとして著作物をデータベースに記録する行為等,広く著作物に表現された思想又は感情の享受を目的としない行為等を権利者の許諾なく行えることとなるものと考えられます。
なお,この規定の整備に伴い,現行第30条の4及び第47条の7は新しい第30条の4に整理・統合することとしました
引用ここまで

「法律の原文を自分の目で確認しないと気が済まない!」という方のために、著作権法の原文が確認できるサイトへのリンクを貼っておきます。(ただし、法律の原文はかなり読みづらいです…)
電子政府の総合窓口 e-Gov(イーガブ)内の著作権法のページ
ページ内を、知りたい内容に関連する単語(たとえば「情報解析」など)で検索すると比較的スムーズです。

注意点その2:利用規約違反をしない

著作権うんぬんは別として、民事上の責任が発生する場合があります。たとえば、利用規約に違反するような場合です。

対象のウェブサイト上の利用規約に「スクレイピング禁止」と明記されている場合には、スクレイピング行為は利用規約違反となります。

会員登録やログインなどが不要なサイトで、あらゆるユーザが閲覧可能なコンテンツなど、利用規約への同意などが関係ないケースであれば、当然ながら利用規約違反にはなりません。

不法行為責任にも注意

スクレイピング対象である、相手方のサイトにて、クローリングを制限するような措置(robots.txtへの記述など)がされている場合に、そのような措置を破ってのクローリングをおこなった場合には、民法上の不法行為とみなされる場合があります。

注意点その3:相手サイトのサーバに過負荷をかけない

スクレイピングでは、相手方サイトのサーバに定期的にアクセスすることになります。
一定の間隔でアクセスすることになりますが、その間隔が短すぎると相手方のサーバにかかる負荷が大きくなり、サイト運営の妨げ(偽計業務妨害)になる場合があります。

何秒に何回までのリクエストならOKなのか、という明確な基準はありませんが、人間が普通にアクセスしてますよ、って程度であればまず問題にはならないと考えます。
(これで問題になるようなら、相手のサーバが弱すぎて通常の運営すら困難なレベルでしょう)

まとめ

スクレイピングを行うときは、
1. 著作権法を守る
2. 利用規約違反をしない
3. 相手のサーバに過負荷をかけない
この3つの点に注意しましょう。

 

あわせて読みたい記事

1件のコメント

ブラウザに「http://目標サイトのURL/robots.txt」を入力して、robots.txt プロトコルが表示されます。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)