「スクレイピングって、自動でデータを収集するってことでしょ? だけど、何を収集して、どう活用したらいいのかピンとこないんだよね」
と感じている方もいらっしゃると思います。
そこで今回の記事では、スクレイピングを業務に活用している事例を具体的に紹介いたします。
目次
スクレイピングの活用事例
各業種にて、スクレイピングを業務にどのように活用しているのか?
いくつかの業界ごとに具体例をみていきましょう。
小売業界でのスクレイピング活用事例
小売店は、商品を仕入れ、それを販売して利益を得ています。
そんな小売店の収入は、仕入れ値や売価の価格変動によって大きく影響を受けます。
そのため、
・仕入れ値はいくらなのか、そしてどのような価格変動をしているのか
・売価はいくらなのか、そしてどのような価格変動をしているのか(他店の相場も含めて)
この2つの要素が最も気になるところでしょう。
商品が1種類だけなのであれば、なんとか人力で調査することもできるかもしれません。
(それでも24時間となると厳しいですが)
さまざまな商品を取り扱っているのであれば、その商品の種類ぶんだけ価格調査が必要になり、人力での調査は現実的ではありません。
そこでスクレイピングの出番となります。
スクレイピングであれば、膨大なデータを休みなく取得し続けることが可能ですので、価格情報を時系列データとしてまとめることもできます。
価格の時系列データは小売店の強い味方となります。
仕入れ量の調整や、新規商品の開拓に活用できるからです。
小売業界でのスクレイピングデータ活用事例としては下記のようなものがあります。
音楽業界でのスクレイピング活用事例
インターネットが発達した現在は、音楽の販売はCDよりもネットを使用したダウンロード販売やストリーミングの比率が大きくなっています。
CDプレイヤーなどは所持せず、FLACやmp3などのデータで音楽を聴いている層も見受けられます。
そんな音楽のランキングについてですが、週刊ランキングだけでなく、デイリーや月間もあり、それぞれ順位が異なります。
これらのデータは時間経過とともに流れて、消えていってしまいます。
たとえば、デイリーランキングであれば、毎日異なるデータに更新されます。
毎日のデータを人力で収集して蓄積するのは大変すぎますし、漏れも発生しがちです。
そこでスクレイピングが活躍します。自動でのスクレイピングであれば、毎日変化するデータももれなく蓄積し、分析に活用することができます。
スクレイピングには、
時間経過とともに流れて消えてしまうデータでさえも、自動で蓄積し続けることができるという強みがあるわけですね。
そのような強みを生かした、音楽業界でのスクレイピングデータ活用事例としては下記のようなものがあります。
・所属アーティストのランキング変動をアラートする。
(ランクイン、ランクアップ、ランクダウンなど)
・時系列ランキングデータの推移を分析し、いま熱いジャンルの把握や、次に来るであろうジャンル選定の参考にする。
・時系列ランキングデータの蓄積と分析により、アーティストの市場価値を把握。
不動産業界でのスクレイピング活用事例
不動産業界で扱うものは土地や物件です。
土地や物件の価格は変動が大きいため、自社物件のみならず、そのエリアの他社の物件も含めて、価格情報をしっかり把握することが重要となってきます。
しかし、1つの地域に限った場合でも物件数は膨大にあります。
それら多数の物件の価格情報を取得するだけでも大変な労力ですし、さらに価格変化を時系列データとして人間が手作業でまとめるのも現実的ではありません。
そこでスクレイピングの出番となります。
不動産業界でのスクレイピングデータ活用事例としては下記のようなものがあります。
・物件の価格変動をアラートし、同じ地域の類似物件の価格設定をいち早く更新する。
(買い取り時にも販売時にも適切な価格設定をおこなうことができます)
・同条件(間取り、駅から〇分など)の物件の平均価格を割り出す。
その平均価格を複数のエリアごとに比較し、エリア間の価格差を把握。
その差を考慮した販売戦略を立てたり、価格設定をおこなう。
・スクレイピングで得た物件の所在地データと価格データを組み合わせて、地図上に可視化する。
(低価格 → 高価格 で色をグラデーションさせると、ビジュアル的に把握しやすくなります)
飲食業界でのスクレイピング活用事例
飲食業界では、さまざまな飲食店がシノギを削っています。
たとえば回転寿司チェーンでも、はま寿司、無添くら寿司、かっぱ寿司、魚べい、すし銚子丸、根室花まる etc… と、少なくとも10以上のチェーン店があり、ライバル同士となっています。
昨今の寿司チェーン店を見てみると、
「えっ? こんなものまで寿司になってるの?」
「このネタがこんなに安く提供されてるんだ、すごい!」
のように感じることも珍しくありません。
となると、いち早くライバル店の動向を知り、自社の企画や経営戦略に活用したいとなるのが当然ですよね。
飲食業界でのスクレイピングデータ活用事例としては下記のようなものがあります。
・自店舗が手掛けるジャンル(たとえばイタリアンとか)のライバル店の動向を見る。
(既存メニューの価格改定、新メニューの登場、メニューからの削除、新チェーン店の出現など)
・スクレイピングで得たデータを分析した結果をもとに、自社のマーケティング戦略を練る
(たとえば、新規チェーン店をどのエリアに展開すれば有利なのか、を知るなど)
研究者、またはリサーチ業界でのスクレイピング活用事例
研究者やリサーチ会社にとって、分析のもととなるデータはなくてはならないものです。
なぜなら、そのデータをもとに研究論文を書いたり、リサーチ結果を導き出したりするからです。
たとえば、研究者が「1時間ごとに変化するデータを時系列で過去5年分ほしい」という場合があるとします。
たとえばそのデータを構成する要素が4つあったとすると(例:初期値、最高値、最低値、終了時点の値)5年分では17万件以上のデータになります。
とても人力での収集はやってられませんが、自動でのスクレイピングならば収集することが可能です。
スクレイピングは研究者やリサーチ会社にとって心強い味方となってくれます。
多数のIPアドレスを使用してスクレイピングしたい場合は?
以上でご紹介したように、スクレイピングはさまざまな分野で業務に活用することができます。
スクレイピングをしているときに起こりがちな問題として、IPアドレスによるブロックをされてしまい、データ収集が継続できなくなってしまうことがあります。
ブロックを回避(または、ブロックされても代わりのIPアドレスでスクレイピングを継続)するには、信頼できる企業のプロキシサービスを活用するのが安心でオススメできます。
Luminatiという企業はプロキシサーバーの世界的最大手であり、3500万以上ものIPアドレスが用意されています。ブロックされづらい工夫がされており、もしブロックされても代替IPアドレスが豊富に使用できるため、安定的に相手サーバへのリクエストを継続できます。
業務でスクレイピングをしたい方や、プロキシサーバーを活用したい方は、ぜひ試してみてください。
・販売価格の相場が下がっていて、仕入れ価格が横ばいまたは上がっている商品については、新規仕入れをストップする(これにより、将来的な不良在庫を防ぐことにつながります)
・販売価格の相場が上がっている売れ筋商品の仕入れ価格を確認し、
販売価格の上がり幅 > 仕入れ価格の上がり幅 が成り立つのであれば仕入れ量を増やす(これにより、利益の増加が見込め、売り切れによる機会損失を防ぐことにもつながります)
・仕入れ価格、販売価格ともに上昇している商品(いま流行しているもの)があった場合、その関連商品の価格データを確認し、販売価格が上昇しつつ、仕入れ価格の上昇がまだ少ないのであればその関連商品を仕入れる(トレンドを確認して出遅れ銘柄を探す、みたいなイメージですね)