マンモスサイトの情報収集は絶対にスクレイピングが便利ですが、全ページの情報を取得したら、どのようなメリットがあるのでしょうか?
本記事では、全ページの情報を取得するときのポイントを解説します。基本的にスクレイピングツールを使っての解説になりますが、自らプログラミングする人の参考にもなると思います。
目次
全ページを取得するときはポイントを押さえよう
これからはスクレイピングで、全ページの情報を取得するポイントを解説します。
抜き出したい情報を整理する
スクレイピングで<body>間の情報をすべて取得することは可能ですが、すべての情報を取得するのであればダウンロードした方が早いですね。
抜き出したい情報はサイトの内容によって異なりますが、ネットモールであれば、以下の情報を抜き出したいものです。
- 商品価格
- カテゴリー
- 商品タイトル
- レビュー数とコメント
人気旅行ブログであればタイトルは絶対に必要ですが、類似ブログを制作したい人は、国名も抜き出したいものです。
スクレイピングで国名だけ抜き出すのは難しいですが、前もって国名リストを作成しておけば実現可能でしょう。
具体的には人気旅行ブログのタイトルと本文を抜き出し、それをスプレッドシートにペーストします。あとは検索機能を使い、リストに書かれた国名を検索するだけです。
スクレイピングは短時間で済ます
マンモスサイトの全ページの情報を抜き出そうとすれば、時間がかかってしまいます。時間がかかればスクレイピングする人も面倒だし、webサイトにも負荷がかかる可能性があります。
アクセス数の多い時間帯に負荷をかけてしまえば、遅延にイライラする閲覧者が出てくるはずです。このような問題を回避するには、スクレイピングする時間帯と、スクレイピングする方法を考えなくてはいけません。
一般的に深夜帯はアクセス数が少ないので、可能であれば深夜にスクレイピングしましょう。深夜に起きるのがつらい人は、スケジュール機能があるスクレイピングツールを使えばいいでしょう。
またスクレイピングの対象を絞ったら、ある程度は負荷を低減することができると思います。
カテゴリー分けされている場合は、一つのカテゴリーだけスクレイピングすれば、負荷はかなり低減できると思います。
画像を取得したい人は絶対パスを取得
スクレイピングツールに画像をダウンロードする機能があればいいのですが、機能がない場合は絶対パスを取得すれば便利です。
画像は<img src=”test.jpg”>のようなタグを使って表示させますが、相対パスを使って表示させているケースがあります。相対パスはファイルがある場所を起点に考えているので、ファイルの場所によってはアクセスできない可能性があります。
絶対パスはトップディレクトリーからのアドレスを表示しているので、どのような場所からでもアクセスできます。
絶対パスをアドレスバーに打ち込んだ後は、右クリックでダウンロードするだけです。プログラミングできる人であれば、絶対パスを順番に回してダウンロードできるプログラムを作成すればいいでしょう。
スポンサーリンク
全ページの取得に便利なスクレイピングツール
全ページの取得に便利な、スクレイピングツールの条件を解説します。
ドメイン単位でスクレイピングできるツールを選ぶ
マンモスサイトには多くのディレクトリがあるし、ページングすることも珍しくありません。このようなマンモスサイトを効率的に攻略するには、ドメイン単位でスクレイピングできるツールが便利です。
スクレイピングツールは対象のURLを指定するようになっていますが、全体の情報を取得したい人はトップディレクトリだけ指定すればいいです。
日本のAmazonであれば、以下のURLを指定すれば、全部の情報が取得できます。
「https://www.amazon.co.jp/」
スケジュール機能があるツールを使う
マンモスサイトのスクレイピングは時間がかかるので、スクレイピングは深夜帯に実行したいものです。しかし深夜は眠らなくてはいけないので、実行は難しいですね。
そんな悩みはスケジュール機能があるツールを使えば、直ぐに解決します。かなり細かく設定できるので、寝ていてもかなり正確に情報を取得できると思います。
無料体験できるのであれば、一度スケジュール機能を試してほしいと思います。実際に使うことで、スケジュール機能の便利さが解りますよ。
容量が大きいスクレイピングサービスを選ぶ
スクレイピングサービスはクラウド型が多いですが、サービスによっては容量を制限していることがあります。
マンモスサイトの全ページをスクレイピングしようと思えば、少ない容量では心許ないです。そのためスクレイピングサービスを使うときは、与えられた容量もチェックすることをおすすめします。
コンピューターに慣れていない人は容量の単位がピンときませんが、最低でも10GB以上のサービスを選びたいものです。
全ページをスクレイピングした方がよいケース
これからは全ページを、スクレイピングした方がよいケースを解説します。
全レビューを知りたいとき
新しいネットモールに参入するときは、どれぐらいの利用者がいるのか知りたいものです。登録者数は公開しているかもしれませんが、登録者の中には幽霊会員もいるので当てになりません。
しかし商品に寄せられる全レビューは、参考になると思います。
レビューは生の声なので、信用に値します。
外国のネットモールの商品画像を集めるとき
外国のネットモールに出品予定のある人は、外国のネットモールで何が売られているのか知りたいものです。
検索機能を活用しても画像はダウンロードできますが、スクレイピングで画像名を取得した方が効率がいいと思います。
商品タイトルもスクレイピングで簡単に取得できますが、画像付きの商品画像の方が解りやすいですね。
外国で流行っている日本の商品をSNSで見つけるとき
外国で流行っている日本の商品を現地のSNSで見つけるときも、全ページをスクレイピングした方がいいと思います。
流行っている商品を取り上げているページは複数のカテゴリーにあると思われるので、全ページを取得した方がいいのです。
ただ現地のSNSから日本の商品を見つけるのは、テクニックが必要です。一番簡単な方法は「日本」をいう文字を、フィルターにかけることです。
言うまでもありませんが、「日本」という言葉は現地の言葉に置き換えなくてはいけません。
中には商品以外の情報もあるかもしれませんが、この方法でスクレイピングをしたら、外国で流行っている日本の商品は見つけやすいと思います。
外国語のフレーズを覚えたい人
外国語のフレーズを覚えるときも、全ページをスクレイピングした方がいいと思います。日本にいても外国のメディアに触れることは可能なので、外国語のフレーズをスクレイピングで取得するのは、さほど難しくはないです。
ただ実用性を考えたら、少しばかりのテクニックというか後処理が必要です。
取りあえず全ページをスクレイピングで取得し、Excelなどの表計算ソフトに転記します。それからは「.」に注目し文章を分断します。
生きた外国語はメディアから学ぶのが一番です。外国語のフレーズを大量に覚えたい人は、一度実行しては如何でしょうか?
スポンサーリンク
まとめ
スクレイピングで全ページを取得するポイントを解説しましたが、全ページにまたがる情報を取得する時は、スクレイピングが一番効率的です。
スクレイピングするときは、本格的なツールを使ってほしいと思います。本格的なツールはフィルター機能が充実しているし、ドメイン単位でもスクレイピングできます。