プロキシサービス研究ブログ

図書館のスクレイピングは止めるが吉

図書館は多くの本を扱っていますが、扱っている本はオンラインシステムで検索できます。そんな図書館のデータをスクレイピングすることは、それなりに意味があることかもしれませんが、筆者は図書館のスクレイピングは止めるが吉と主張します。

理由は本文で詳しく説明しますが、まずは次の記事を読んでください。

岡崎市立中央図書館事件とは

2010年3月頃、市民から岡崎市立図書館ウェブサイトの蔵書検索システムに対し接続が出来ないと苦情があり、その後もウェブサイトの閲覧が困難になる事態が相次いだ。同年4月15日、同図書館が迷惑なアクセスを受けていると愛知県岡崎警察署被害届を提出し、5月25日にアクセスを行っていた男性が蔵書検索システムに高頻度のリクエストを故意に送りつけたとして偽計業務妨害容疑で逮捕された。

https://ja.wikipedia.org/wiki/%E5%B2%A1%E5%B4%8E%E5%B8%82%E7%AB%8B%E4%B8%AD%E5%A4%AE%E5%9B%B3%E6%9B%B8%E9%A4%A8%E4%BA%8B%E4%BB%B6

逮捕者まで出た事件ですが、逮捕のきっかけとなったのはシステム障害だったようです。図書館側は蔵書検索システムに、高頻度のリクエストを故意に送りつけたのが原因と主張しています。

逮捕された人の目的は解りませんが、図書館の蔵書システムに負荷をかけたのは確かなようです。

ただシステムの不具合もあったようなので、一方的に逮捕された男性を責めるのは、お門違いかもしれません。

何故図書館のシステムはスクレイピングしない方がいいのか?

図書館にはオンラインシステムがある

これからは図書館の蔵書システムを、スクレイピングしない方がいい理由を解説します。

利用者が多い

図書館の蔵書システムは公共のシステムで、無料で利用できます。無料で利用できるので必然的にアクセス数も多くなりますが、公共施設なので最新のサーバーは使っていないと思います。そんなサーバーに対してスクレイピングを実行すれば、遅延が発生するのは当然です。

遅延が発生したら多くの人に迷惑がかかるので、例え短時間とはいえ、スクレイピングはしない方がいいと思います。

スクレイピングする意味があまりない

外国の検索エンジンを使うと、ヒットする内容が異なるよ。

図書館の蔵書システムの検索仕様は採用しているシステムによって異なりますが、概して検索仕様は細かいです。そのため、わざわざスクレイピングしなくても、目的の情報は直ぐに取り出せます。本以外の情報を取得するときは、スクレイピングした方がいいかもしれませんが、本以外の重要な情報はないと思います。

スクレイピングの目的はデータを収集しデータを活用することですが、収集は図書館の蔵書システム以外でも可能です。

訴えられる可能性が高い

図書館に限らず市や国が運営している施設は、何らかの危害を受けた場合は、警察に通報することが多いと思います。このような事実を考えたら、例え短時間でもスクレイピングはしない方が無難です。

スクレイピングは想像以上にサーバーに負荷がかかるので、スクレイピングを禁止しているサービスもあります。図書館は表向きは禁止していないようですが、万が一見つかった場合は訴えられる可能性が高いです。

スポンサーリンク

スクレイピングを嫌がる理由

図書館に限らず、スクレイピングを嫌がる企業や施設はありますが、理由は何でしょうか?これから考察します。

機密情報が盗まれると思ってしまう

同じIPアドレスが何度も何度もアクセスしてきたら、何か悪いことをしようとしているのではないかと思うでしょう。これは人間の心理なので仕方がありません。実際自分が制作したホームページに何度も同じIPアドレスがアクセスしてきたら、不審に思うでしょう。

最近のレンタルサーバーはアクセス解析機能が付いているものが多いので、一般の人でも簡単にIPアドレスは解ります。

サーバーに負荷がかかる

多くのサーバーはlinuxを使っているよ

スクレイピングは多かれ少なかれ、サーバーに負荷をかけます。基本的にすべてのページにアクセスするので、一定の時間がかかります。スペックの低いサーバーであれば、30分間スクレイピングされるだけで遅延が発生するでしょう。

遅延が発生するだけであれば許せるかもしれませんが、最悪の場合はサーバーがダウンします。サーバーがダウンしたらサーバーを再起動させなければいけませんが、その間は利用できないのでシステムを提供している側は損害を被ります。

スクレイピングするときはマナーを守ろう

スクレイピングをするときはマナーが大切です。以下では詳しく解説します。

長時間のスクレイピングはしない

長時間アクセスしたら、サーバーに負荷がかかるのは当然です。本格的なスクレイピングツールは回数が指定できるものが多いですが、スクレイピングの回数は極力少なめにしてください。

それから毎日スクレイピングするのもよくありません。最低でも一日は空けるべきです。スクレイピングツールの中には、曜日が指定できるものがあります。

利用者が多い日中はなるべく控える

アクセス解析ソフトを使えば、アクセス者の情報がわかる

利用者の多くは日中にwebサービスを利用するので、日中のスクレイピングはなるべく控えた方がいいでしょう。スクレイピングによって遅延が発生したら、利用者に迷惑がかかります。

土曜日や祝日前は深夜でもwebサービスを利用する人がいるので、このような日もスクレイピングは控えた方がいいと思います。

深夜帯のスクレイピングは、スケジュール機能があるスクレイピングツールが便利です。スケジュール機能を活用すれば、寝ている間に勝手にスクレイピングしてくれるので楽です。

スポンサーリンク

大規模なwebサービスのスクレイピングはプロに任せよう

大規模なwebサービスのスクレイピングは、プロに任せた方が賢明です。スクレイピングに慣れていない一般の人が大規模なwebサービスをスクレイピングしたら、どうしても時間がかかってしまいます。

また大規模なwebサービスのスクレイピングはデータの整形にも時間がかかるので、素人では手に負えないことがあります。

このような背景があるので、大規模なwebサービスのスクレイピングはプロに任せた方が賢明です。スクレイピング専門業者に任せてもいいですが、手っ取り早く実施したい人はBright Dataのライブデータセットが便利です。

こちらの動画の左端にあるのがライブデータセットですが、Amazon、Instagram、Facebookといった大規模なwebサービスを用意しています。

ユーザーがすることは対象のサービスを選ぶだけです。最後には納期と価格が表示されるので、安心して注文できます。

関心のある方は動画を再生してほしいと思います。あまりにも呆気なくできるのでびっくりすると思います。ライブデータセットが扱うwebサービスは、年々増えているようです。

Bright Dataの公式サイト

日本人の担当が確実に着くのは本ブログ経由の方のみになりますので、ご注意ください。こちらのサイトからお申し込みいただければ、間違いなく日本人担当がつきます

まとめ

図書館のスクレイピング は止めるが吉と言いましたが、ずっと考えは変わらないと思います。スクレイピングは旬の技術ですが、スクレイピングして良いサービスと、しない方がいいサービスがあります。

図書館のスクレイピングは絶対に止めた方がいいですが、どうしてもやりたい人は自己責任でお願いします。

大規模なwebサービスをスクレイピングするときは、是非ともBright Dataのライブデータセットを活用してください。おそらく世界で一番簡単且つ一番スピーディな、スクレイピングサービスだと思います。

Bright Dataの公式サイト

日本人の担当が確実に着くのは本ブログ経由の方のみになりますので、ご注意ください。こちらのサイトからお申し込みいただければ、間違いなく日本人担当がつきます
モバイルバージョンを終了