スクレイピング攻撃の定義は難しいですが、ネットで検索すると数記事はヒットします。
スクレイピングというと実用的なプログラム技術だと思う人がいる反面、スクレイピングで迷惑を被っている人もいます。
本記事ではスクレイピング攻撃について、掘り下げて解説します。
これからスクレイピングする人は、参考にしてほしいと思います。
目次
スクレイピング攻撃を整理
スクレイピング攻撃を整理します。
何をもって攻撃と認識するかはサイトの運営者によって異なる
スクレイピング攻撃で検索しましたが、何をもってスクレイピング攻撃と認識するのかは、サイトの運営者によって異なると思います。
同じスクレイピングでも迷惑を感じない人もいれば、迷惑だと感じる人もいます。
スクレイピング攻撃と認識する人は、迷惑だと感じる人だと思いますが、具体的な迷惑例を整理します。
- サイトの情報が無断で使われる
- 一時的にサイトに負荷がかかり、一般利用者に迷惑がかかる
私が感じたスクレイピング攻撃の迷惑例は、上記の二つです。
確かにサイトの情報が無断で使われるのは気持ちがよいものではないし、サイトに負荷がかかるのも無視するわけにはいきませんね。
身元が不明なのもスクレイピング攻撃だと認識される要素
人は得体のしれないものに警戒心を抱きます。
スクレイピングする人はプロキシサーバーを利用することが多いですが、プロキシサーバーのIPアドレスが外国のものであったり、見知らぬものであったりしたら、警戒心は増幅されるでしょう。
スクレイピングする者はプロキシサーバーを利用することでメリットを感じますが、スクレイピングされた側は得体のしれないIPアドレスを見たら、警戒心を抱くのは事実です。
スクレイピングする者は、スクレイピングされる側の心理状態を知っておいた方がいいかもしれません。
同じIPアドレスが頻繁に登場する
連日連夜スクレイピングする人はいますが、スクレイピングされる側のアクセスログには同じIPアドレスが連日連夜登場するようになります。
知っているIPアドレスであればスクレイピング攻撃だとは思わないでしょうが、急に見知らぬIPアドレスが連日連夜登場するようになったら、スクレイピングされる側はスクレイピング攻撃をイメージします。
スクレイピング初心者は要領を得ないため、同じサイトを連日連夜スクレイピングすることがありますが、スクレイピングされる側に警戒されることを忘れてはいけないでしょう。
スポンサーリンク
スクレイピングでしてはいけないこと
スクレイピング攻撃だと認識されることは仕方がないことかもしれませんが、スクレイピングでしてはいけないことがあります。
知的財産を守る
サイトを公開している限り、知的財産とされる情報に触れることはあります。
またスクレイピングでそれらの情報を取得したら、知的財産を一気に知ることができます。
ここまでは悪くはないと思いますが、知的財産を二次販売したり、自サイトの財産だと偽ることは許されないことです。
企業のホームページには規約が書かれていると思いますが、規約の中に知的財産のことが書かれていたらメモすることをおすすめします。
極度にサイトに負荷をかけない
極度にサイトに負荷をかけないことも大切です。
負荷がかかる原因には以下があります。
- マンモスサイトの情報を一気に取得する
- アクセスが多い時間にスクレイピングする
- 無駄なコードが多いスクレイピングツールを使っている
マンモスサイトには膨大な情報があるので、一気に取得しようとすれば当然ながら時間がかかるので、サイトに負荷がかかります。
マンモスサイトは人気サイトであることが多いので、アクセス者が多い時間帯にスクレイピングすると、サイトに負荷がかかります。
最後はスクレイピングツールの開発者の問題ですが、やたら無駄なコードが多いスクレイピングツールを使うと処理に時間がかかり、結果的にスクレイピング時間が長くなります。
長くなるだけではなく、コードの内容によってはサイトに重たい負荷をかける可能性があります。
利用者はコードを直接見ることはできませんが、やたら処理が遅いスクレイピングツールには注意してほしいと思います。
複数人でスクレイピングするときは注意
複数人で同じサイトをスクレイピングすることはあると思いますが、複数人が同時にアクセスしたらより負荷は強くなります。
サーバーがダウンする原因は大体アクセス過多ですが、複数人が同じサイトをスクレイピングしたら、想像以上に負荷がかかる可能性があります。
スクレイピングは通常のアクセスとは違い、サイトのデータを一気に読み込むので、負荷がかかるのは当然です。
スクレイピング攻撃がバレて苦情がきた場合はどうする?
基本的にサイトの運営者はアクセス者のIPアドレスしか解らないので、直接苦情のメールがくることはありません。
しかし腹の虫が治まらないサイト運営者は、ホームページでスクレイピングしているIPアドレスを晒すかもしれません。
その際の対処方法を考えます。
素直に謝る
スクレイピングデータを二次販売しないのであれば素直に謝ってもいいですが、サイトの運営者から厳重注意を受ける可能性があります。
厳重注意を受けた後は、暫くはスクレイピングするのが難しくなるかもしれません。
このようなことを考えたら、素直に謝るのはリスクがあります。
スクレイピング自体は違法ではない
多くの人の見解では、スクレイピング自体は違法ではありません。
そのため、本来は謝る必要がありません。
それでもサイトに著しく負荷をかけた場合は、詫びるのが礼儀かもしれません。
ただ前にも書きましたが、詫びた後は暫くスクレイピングできない可能性があるので、よくよく考えてから判断してください。
IPアドレスを変更してスクレイピングする
IPアドレスを特定されたくないときは、IPアドレスを定期的に変更して、スクレイピングするしかありません。
違ったIPアドレスが定期的に登場したらサイトの運営者は警戒するかもしれませんが、どのIPアドレスがサイトに負荷をかけているのかは解らないと思います。
サイトの運営者を騙しているようで後ろめたい気持ちになるかもしれませんが、IPアドレスを特定されたくない人は、IPアドレスを定期的に変更するのが得策です。
IPアドレスを変更するときはプロキシサーバーが便利
IPアドレスを変更するときは、プロキシサーバーが便利です。
プロキシサーバーは多くのIPアドレスを有しているため、IPアドレスが枯渇することは滅多にありません。
IPアドレスの変更はユーザーの管理画面からすることが多いかもしれませんが、管理画面が英語の場合は内容を慎重に確かめてください。
スポンサーリンク
スクレイピングサービスを選ぼう
スクレイピングをスマートにしたい人は、スクレイピングサービスを選びましょう。
ドメイン単位でスクレイピングできるツールの方が、短時間で済むので助かります。
ドメイン単位でスクレイピングしたら一気にデータを収集できるので、サイトの内容が大幅に変わらない限り、再スクレイピングする必要は少ないと思います。
以下のサービスはドメイン単位でスクレイピングできるので、大変おすすめです。
まとめ
スクレイピング攻撃をテーマに解説しましたが、今後はスクレイピング攻撃という言葉がメジャーになるかもしれません。
そうなればサイトの運営者は、益々スクレイピングに対して警戒を抱くようになると思います。
なるべく迷惑をかけずにスクレイピングしたい人は、数ステップで完結する以下のサービスが便利です。
無料体験できるので、一度便利さを実感してください。