目次
スクレイピングのアクセス頻度を考える意味はある
スクレイピングのアクセス頻度に、気を配る必要はないと思う人はいるでしょう。しかし実際はスクレイピングされて、迷惑を被っている人はいます。
スクレイピング初心者は気付かないかもしれませんが、スクレイピングを禁止しているサイトもあります。今後はもっと増えるかもしれません。
本記事ではスクレイピングされる側の心理を考えますが、同時に適切なスクレイピングの頻度についても考えたいと思います。
スクレイピングのアクセス頻度を考える理由
これからはスクレイピングのアクセス頻度を考えなければいけない、具体的な理由を考えます。
見知らぬ人が頻繁にアクセスしてきたら気持ちが悪い
私も経験がありますが、見知らぬIPアドレスが頻繁にアクセスしてきたら気持ちが悪いです。週に二回か三回程度であれば関心を持ってくれているんだと、好意的に受け止めることができますが、毎日のようにアクセスしてくるIPアドレスは不気味です。
データが盗まれるのではないかと心配
サイトを公開した時点で、誰かにデータを見られるのは当然のことです。しかし使い回しできるデータは、誰かに利用されるのではないかと心配になります。車とカーパーツの互換情報などは、使い回しできるデータでしょう。
人気サイトや人気ブログであれば、毎日のようにアクセスしてくる人がいても不思議ではありません。しかし車のカーパーツ情報サイトに、毎日アクセスしてくる人は稀です。そのため毎日のようにアクセスしてくる人は、データを盗もうとしているのではないかと勘ぐってしまうのでしょう。
転送量が増える
頻繁にスクレイピングをすれば、転送量が増えます。インターネットの仕組みを見ます。
利用者はブラウザを介して、データがあるwebサーバーにアクセスします。そしてブラウザは自動的にデータを、ブラウザの一時ファイルにダウンロードします。この仕組み自体は何の問題もないのですが、頻繁にダウンロードされたら、webサーバーの転送量が増えます。
転送量が増えて困ることは、レンタルサーバーの運営者から制限をかけられることと、サイトの閲覧が重たくなることです。レンタルサーバーを利用している人は知っていると思いますが、多くのレンタルサーバーでは、転送量の上限を設けています。
サイトが重たくなれば利用者に迷惑をかけます。イライラしやすい利用者であれば、二度とアクセスしないでしょう。これはサイトの運営者にとっては損失です。
スポンサーリンク
スクレイピングのアクセス頻度の目安
スクレイピングのアクセス頻度は少なければ少ない方がいいですが、実際はそういうわけにはいきません。それならば発想を変えて、最低限必要なアクセス頻度を考えたらどうでしょうか?アクセス頻度を最低限にすれば、対象のサイトに迷惑はかかりにくいです。
特定の言葉の登場回数を調べる場合
SEO対策などで特定の言葉の登場回数を調べることはありますが、この場合は週に一回程度でいいと思います。週に一回程度でいい理由は、タイムリーさが要求されないからです。
特定の言葉の登場回数の取得が少しぐらい遅れたからといって、ビジネスが不利になることはありません。更新頻度が少ないサイトであれば、二週間に一回程度のスクレイピングでも十分です。
営業情報を調べる場合
今日もココナラで見ましたが、会社情報をスクレイピングしてほしいとの案件がありました。会社名・電話番号・所在地などをリスト化してほしいとのことでした。この場合の最適なスクレイピング頻度は、元データの更新頻度によって変わってきます。
データの入手先が毎日のように更新しているのであれば、毎日スクレイピングするのが好ましいですが、さすがに毎日スクレイピングしたら警戒されるので、二日に一回ぐらいにした方がいいでしょう。
二日に一回スクレイピングするときも、閲覧者が少ない時間帯がベストです。深夜帯であれば他のアクセス者が少ないので、迷惑をかける人は少ないでしょう。
価格情報を調べる場合
価格情報も変動することが多いので、スクレイピングする頻度を増やした方がいいでしょう。私はネットショップで勤務したことがあるのでわかりますが、価格は他社の動向を見てから変更することが多いです。
ライバル会社が一円でも安くすれば、こちらも一円でも安くする・・・このような理由で価格を変更することが多いです。また新しいモデルができたので、旧モデルの価格を安くする・・このパターンも多いです。
大切なことは価格の変動をいち早く見つけることですが、RSSを活用したら便利です。RSSとはWebサイトやブログの更新情報を再利用しやすい形式に加工したデータですが、基本的に対象のサイトがRSSを配信している必要があります。
その場合はRSSリーダーとよばれるソフトを使えば、RSS情報は簡単に取得できます。RSS情報を配信していないサイトでも、Feed43というサービスを利用すれば、データをRSS方式に加工してくれます。
RSSから必要なデータだけを抜き出したい場合は、自ら編集する必要があります。詳しい方法は、以下のサイトを参考にしてください。
https://www.y-shinno.com/rss-feed43/
スポンサーリンク
アクセス頻度の管理にはスケジュール機能があるスクレイピングツール
アクセス頻度を管理したい人は、スケジュール機能があるスクレイピングツールを使えば便利です。スケジュール機能があるスクレイピングツールは、スケジュールさえ組めば自動的に作動するので、寝ている間でも活躍してくれます。
ただどうせ選ぶのであれば、細かくスケジュールできるスクレイピングツールにしましょう。無料のスクレイピングツールでも簡単なスケジュールであれば組めるものはありますが、細かく設定しようと思えば有料に限ります。
Bright Dataのデータコレクターは細かく設定できるのが特徴で、スクレイピングのアクセス頻度を管理したい人におすすめします。データコレクターは視覚的に操作ができるので、ITツールに慣れていない人でも、少し勉強すれば使えるようになります。
Bright Dataのデータコレクターのスケジュール機能は便利
Bright Dataのデータコレクターのスケジュール機能をみます。
インターフェイスがわかりやすい
データコレクターはインターフェイスがわかりやすいのが特徴で、初めての人でもさほど迷うことはないと思います。私も使いましたが、利用者を迷わせない設計になっています。データコレクターの概略をみます。
- スクレイピングするwebサイトを選択
- スケジュールを設定する
- 出力形式を指定する
- 出力先を指定する
スクレイピングをするwebサイトは直接urlを打ち込んでもいいですが、特定の分野をスクレイピングしたい人は、カテゴリーから選択した方が便利です。カテゴリーの中には有名なAmazon、Facebook、YouTubeもあります。
スケジュールは細かく設定できます。スケジュールのオプションを箇条書きします。
- 永遠に実行する
- 一定の回数のみ繰り返す
- 曜日の指定
- 指定の時間ごとに作動させる
- 開始時間と終了時間の指定
出力形式とはファイル形式のことですが、JSON、CSV、HTML、XSLSが選べます。CSVやXSLSはExcelで利用できるので、データを手っ取り早く整理したい人は便利だと思います。
出力先の指定は、webhook、メール、Amazon S3、Google Cloud、Microsoft Azure、SFTP、APIが選べますが、通常はメールでいいと思います。
統計機能もある
データコレクターには統計機能があるので、スクレイピングを管理するときは便利です。統計結果はパソコンにダウンロードできるので加工しやすいです。
こちらの図はBright Dataの公式サイトのものですが、英語で書かれています。しかし非常に簡単な英語なので、英語に精通していない人でも問題はないでしょう。
データコレクターは非常に完成度の高いスクレイピングツールですが、このようなシステムをシステム業者に依頼すれば、かなり費用がかかると思います。しかしBright Dataと契約すれば、比較的経済的な維持費で利用できます。
まとめ
法律にはスクレイピングを規制する明確な条文はないと思いますが、それでもスクレイピングをするときはマナーを守るべきです。
利用者ができるマナーはスクレイピングの頻度をコントロールすることですが、実行するときはスケジュール機能があるスクレイピングツールが便利です。
Bright Dataのデータコレクターはスケジュール機能が非常に充実しているので、管理者は楽だと思います。
Bright Dataと契約するときはクレジットカードとPayPalが使えるので、日本からでも簡単に契約できます。
コメントを残す