buymaは海外のブランド品が買えるネットーモールですが、さまざまなカテゴリがあるので利用者は多いです。
ところでbuymaを、スクレイピングすることは可能でしょうか?本記事では、buymaをスクレイピングする流れを解説します。
初めてbuymaをスクレイピングする人は、参考にしてください。
目次
buymaのスクレイピングの流れ
まずはbuymaにアクセスしましょう。
https://www.buyma.com/
スクレイピングしたい項目を選ぶ
トップページからメンズ→Tシャツを選んでください。するとページには多くのTシャツが表示されますが、好きなTシャツを選んでください。
ここからスクレイピングしたい項目を選びます。今回は商品名と価格を選びました。スクレイピングをするときは対象のタグを見つける必要がありますが、ソース画面にしたら解ります。
タイトル内容をコピーし、ソース画面から検索してください。タイトルは<title>タグに含まれていました。スクレイピングをするときは、<title>タグを指定すればいいです。
価格も同様にソース画面から検索します。価格という文字と価格は、以下のタグに含まれているのが解りました。
<meta name=”twitter:data1″ content=”¥ 17800″ />
<meta name=”twitter:label1″ content=”価格” />
これらのデータを取得するときも、スクレイピングツールで対象のタグを指定するだけです。
基本的にはページごとにスクレイピングする
Tシャツカテゴリはデータが多いため、ページングで表示されています。ページングは一ページに表示する件数を決めますが、ページごとにURLは異なります。
https://www.buyma.com/item/74916653/
https://www.buyma.com/item/48042541/
適当にページを開きましたが、ページごとにURLが異なっているのが解ります。しかし途中までは同じですね。変化しているのは末尾の数字だけです。この数字はおそらく商品IDだと思いますが、アドレスバーの商品IDを変更したら、違う商品に飛ぶはずです。
問題は如何に商品IDを取得するかですが、商品IDもソース画面から解りました。
スポンサーリンク
Tシャツカテゴリトップから商品IDは解る
Tシャツカテゴリのトップを、ソース画面にします。すると以下の数字が見えました。
82919342,86537204,61477300,86249745,84953389,48042541,75701849,86061322,86312943,80593110,87755451,84664359,83158897,88386173,80327332,84069156,86461900,86439053,56283218,74981517,86345433,85572069,73014428,87623789,74131162,88608149,84018933,88107810,83903734,84990608,85850723,86279922,88162241,85871896,88516570,86881662,86448362,81041772,77792847,86852665,74916653,74247714,84828111,85643800,88076320,79114626,84220276,86567429,86954931,79269829,86800948,87651728,65926554,55859223,83145887,82448632,86145105,87670768,83263852,79898765,88039165,87340383,84018946,79780572,80850195,75699896,78447816,88553896,88073054,84694512,82231665,86245223,88579150,87558000,79469624,88432928,80460256,87405936,88202760,57957696
カンマで区切られた数字は商品IDです。
https://www.buyma.com/item/までのURLは共通なので、後は末尾の数字だけ変更すれば各々の商品ページに飛ぶことができます。
ページングの2ページ以降も、ソース画面から商品IDを抜き出します。
取得したデータは、ローカルのファイルに転記してください。
後はスクレイピングツールに任せるだけ
必要な情報を決め、抜き出した後は、スクレイピングツールの出番です。
基本的に対象のURLと、対象のタグを指定するだけです。簡単でしょう。前準備は少し面倒くさいけど、準備さえしっかりできたら、後は流れ作業です。
スクレイピングツールによってはドメイン単位でスクレイピングができるので、手っ取り早くスクレイピングしたい人は利用してください。
スポンサーリンク
ブランドごとにスクレイピング
buymaにはブランドコーナーがあるので、ブランドごとにスクレイピングをするのは簡単です。ブランドカテゴリには、以下のブランドがあります。
ルイヴィトン エルメス ディオール グッチ Nike プラダ モンクレール フェンディ セリーヌ ドルチェ&ガッバーナ シャネル バーバリー ボッテガヴェネタ バレンシアガ ザノースフェイス ロエベ ヴァレンティノ エイソス メゾン マルジェラ サンローラン Coach |
誰でも知っているブランドネームですが、ブランドのスクレイピングも流れは同じです。
https://www.buyma.com/r/_LOUIS-VUITTON-%E3%83%AB%E3%82%A4%E3%83%B4%E3%82%A3%E3%83%88%E3%83%B3/
ルイヴィトンのページを開くと多くのルイヴィトン商品が表示されますが、一部の商品はタイムセールの対象になっています。
さっそく対象のタグを探しました。
<p class=”price_dd”><span class=”fab-typo-midium”>¥52,000</span></p>
<p class=”price_dt price_dt–timesale”>タイムセール<br /><i class=”fab-icon fab-icon-time-sale”></i>
<span class=”fab-typo-xsmall”>残り2日</span>
タイムセール情報は転売に役立ちます。
タイムセールで安く仕入れて、他のネットモールで利益を乗せて売る・・・
これが一番簡単な販売方法ですが、大切なことはスクレイピングで素早くタイムセールの情報を取得することです。
スクレイピングツールは、タグが簡単に指定できるものが便利です。
まとめ
buymaのデータをスクレイピングする方法を解説しましたが、buymaのサイト構成はシンプルなので攻略は簡単です。攻略は簡単ですが、頻繁にスクレイピングをするのは控えてください。
頻繁にスクレイピングをしたら、buymaサイトが重くなる可能性があるからです。スクレイピングは短時間で済ますのがマナーです。ドメイン単位でスクレイピングをしたら、短時間で終わります。
Bright Dataのデータコレクターはタグの指定が簡単で、素早くスクレイピングをしたい人は助かると思います。もちろんドメイン単位で、スクレイピングできます。