スクレイピングは独自のシステムを構築するか、既存のスクレイピングツールを利用するのが一般的です。しかし比較的少ないデータであれば、手作業でも問題はないと思います。手作業といっても、上から順番にデータを見ていくのは効率が悪いです。
本記事ではスクレイピングツールなしで、suumoのデータを効率的に収集する方法を研究します。基本的にはコピー&ペーストになりますが、上から順番に探すよりはずっと効率的だと思います。
手作業で特定のデータを収集する方法を解説するのは、先日たまたま一つの案件を見たからです。案件の内容はスクレイピングでしたが、ツールが使えない人は、手作業でも構わないと明記されていました。
本日紹介する方法は多くのサイトで活用できるので、手作業でスクレイピングをする人は参考にしてくださいね。
目次
suumoをツールなしでスクレイピングするステップ
suumoをツールなしでスクレイピングするステップを解説しますが、今回はsuumoの関西版を題材にします。
まずは取得したいデータを絞り込もう
先ずはsuumoにアクセスします。次は物件のカテゴリーを選びます。今回は「賃貸」を選びました。賃貸だけでも相当なデータがあるので、次は沿線を選びます。今回は大阪の阪神本線を選びました。
執筆時点のデータですが、阪神本線だけでも35,151件のデータがありました。次は収集したいデータを選びます。今回は以下のデータを選びました。
- マンション名
- 住所
- 最寄り駅
- 階数
- 家賃
転記用のソフトを選ぶ
次は転記用のソフトを選びます。仕事で収集するときは依頼者のリクエストに応じたらいいですが、今回はExcelに転記します。
選んだ項目をExcelに入力しました。Excelは自由に幅が変更できるので、好きな幅に変更してください。パソコンにExcelがない場合は、オープンソースのCalcが便利です。オンラインのツールに転記するときは、Google(グーグル)スプレッドシートが便利です。
いずれのツールもフィルター機能があるので、データを並べ替えたり、特定のデータを抽出するときは便利です。
該当するソースを見つける
次にする作業は該当するソースを見つけることです。一般的にサイトはhtmlという書式で構築されていますが、データはhtmlのタグで囲まれています。ソース画面を開くには、対象のサイトで右クリックします。
執筆中のブログ記事で試しましたが、右クリックしたら「ページのソースを表示」という項目が見えました。これをsuumoで試してみたいと思います。
データに該当するhtmlのタグがわかりました。ただすべてのデータを収集する必要があるので、ソースをコピーし検索します。検索するときは、「ctrl + F」を押せばいいです。
マンション名に該当するタグは「<div class=”cassetteitem_content-label“>」なので、入力窓に入力し検索します。
該当のソースを検索すると、30件のデータがヒットしました。後は該当のデータをコピーし、Excelに転記するだけです。原始的な方法と思われるかもしれませんが、同じ手動でもこの方法を採用すると効率的にデータが収集できますね。
スポンサーリンク
実はスクレイピングツールも基本的には同じことをしている
スクレイピングツールなしでスクレイピングする方法を紹介しましたが、ソース画面から検索したら効率的ですね。実はスクレイピングツールも、ソースを参考にデータを見つけています。ただユーザーフレンドリーなスクレイピングツールは、必要なデータを選択するだけです。
必要なデータを選択すると、自動的にソフトが該当のタグを見つけてくれます。またスクレイピングツールは、ソフトに転記するときも便利です。便利なのは、CSVファイルなどにデータを変換してくれるからです。
少ないデータの場合は手動でもさほど問題はありませんが、大量のデータをスクレイピングするときは、スクレイピングツールを使うに限ります。
suumoのスクレイピングはスケジュール機能を利用したら便利
suumoのデータは定期的に変更します。契約者が見つかれば、掲載している空き部屋は掲載中止です。逆に新しい物件があれば、新規掲載されるでしょう。
このような背景を考えたら、suumoのスクレイピングは定期的にした方が良いです。しかしその都度、設定するのは面倒くさいものです。
スクレイピングツールのスケジュール機能を使えば、半自動化できるので便利です。電源を入れスタートボタンを押すだけでスクレイピングができたら、何の苦労もありませんね。そんな夢物語のようなことが、スケジュール機能を使えば可能になるのです。
スケジュール機能があるスクレイピングツールは有料のものに多いですが、選ぶときは操作性にも注目したいものです。またsuumo以外のスクレイピングも、簡単にできたら言うことなしです。
スポンサーリンク
Bright Dataのデータコレクターのスケジュール機能は秀逸
Bright Dataのデータコレクターのスケジュール機能を見ます。
曜日ごとに指定できる
データコレクターは、曜日指定ができるので便利です。会社には定休日があるので、定休日にはスクレイピングはできません。(自動で作動させたら可能)そのため、スクレイピングする日にちを決める必要があります。
suumoのデータがいつ更新されるのかは不明ですが、二日に一回ぐらいスクレイピングしたら、最新のデータを見逃す可能性は低いでしょう。
データコレクターのスケジュール機能は、開始時間と終了時間が指定できます。またリピートの回数も指定できるので、営業時間を有効に活用できますね。
SNSをスクレイピングするときは便利
suumoから収集したデータをビジネスに活用することは可能だと思いますが、ターゲットは当然不動産に関心を持っている人です。不動産に関心を持っている人をインターネットで探すときは、SNSが便利です。
Twitterにはプロフィール欄がありますが、プロフィールを見たら不動産に関心があるかどうか、ある程度の判断はできるのではないでしょうか?
データコレクターは有名なSNSをテンプレート化しているだけではなく、細かく区分けしています。図を見たらわかると思いますが、Instagram、Twitter、Facebookのプロフィールを分類しています。
Instagram、Twitter、Facebookの利用者は多いので、きっと不動産に関心のある人は見つかるでしょう。ITビジネスはスピードが必要ですが、データコレクターはスピード化を強力にアシストします。
まとめ
suumoをツールなしでスクレイピングする方法を紹介しましたが、suumoは不動産情報の宝庫です。そんなsuumoの情報を、ビジネスに活用することは十分に可能です。全国規模の不動産屋であれば、情報を整理して顧客に提供したらいいでしょう。
suumoのスクレイピングをするときも、Bright Dataのデータコレクターは便利です。今は一部英語になっていますが、近い将来にはすべて日本語化する予定です。そのため英語がわからなくても、まったく問題はありません。
Bright Dataは外国のサービスですが、日本からでも気楽に契約できます。決済はクレジットカードとPayPalが利用できます。