suumoをツールなしでスクレイピングしよう

スケジュール
ブライトデータのデータコレクターは、スケジュール化できる

スクレイピングは独自のシステムを構築するか、既存のスクレイピングツールを利用するのが一般的です。しかし比較的少ないデータであれば、手作業でも問題はないと思います。手作業といっても、上から順番にデータを見ていくのは効率が悪いです。

本記事ではスクレイピングツールなしで、suumoのデータを効率的に収集する方法を研究します。基本的にはコピー&ペーストになりますが、上から順番に探すよりはずっと効率的だと思います。

手作業で特定のデータを収集する方法を解説するのは、先日たまたま一つの案件を見たからです。案件の内容はスクレイピングでしたが、ツールが使えない人は、手作業でも構わないと明記されていました。

本日紹介する方法は多くのサイトで活用できるので、手作業でスクレイピングをする人は参考にしてくださいね。

suumoをツールなしでスクレイピングするステップ

suumoをツールなしでスクレイピングするステップを解説しますが、今回はsuumoの関西版を題材にします。

まずは取得したいデータを絞り込もう

suumo関西版

先ずはsuumoにアクセスします。次は物件のカテゴリーを選びます。今回は「賃貸」を選びました。賃貸だけでも相当なデータがあるので、次は沿線を選びます。今回は大阪の阪神本線を選びました。

suumo
suumoのデータ数は膨大

執筆時点のデータですが、阪神本線だけでも35,151件のデータがありました。次は収集したいデータを選びます。今回は以下のデータを選びました。

  • マンション名
  • 住所
  • 最寄り駅
  • 階数
  • 家賃

転記用のソフトを選ぶ

次は転記用のソフトを選びます。仕事で収集するときは依頼者のリクエストに応じたらいいですが、今回はExcelに転記します。

Excel
Excelはデータの転記に便利

選んだ項目をExcelに入力しました。Excelは自由に幅が変更できるので、好きな幅に変更してください。パソコンにExcelがない場合は、オープンソースのCalcが便利です。オンラインのツールに転記するときは、Google(グーグル)スプレッドシートが便利です。

いずれのツールもフィルター機能があるので、データを並べ替えたり、特定のデータを抽出するときは便利です。

該当するソースを見つける

次にする作業は該当するソースを見つけることです。一般的にサイトはhtmlという書式で構築されていますが、データはhtmlのタグで囲まれています。ソース画面を開くには、対象のサイトで右クリックします。

ソース
ソース画面を開けばhtmlがわかる

執筆中のブログ記事で試しましたが、右クリックしたら「ページのソースを表示」という項目が見えました。これをsuumoで試してみたいと思います。

ソース画面
住所などに該当するソースがわかりました。
ソース画面
家賃に該当するソースがわかりました。

データに該当するhtmlのタグがわかりました。ただすべてのデータを収集する必要があるので、ソースをコピーし検索します。検索するときは、「ctrl + F」を押せばいいです。

マンション名に該当するタグは「<div class=”cassetteitem_content-label“>」なので、入力窓に入力し検索します。

検索
ソース画面を検索

該当のソースを検索すると、30件のデータがヒットしました。後は該当のデータをコピーし、Excelに転記するだけです。原始的な方法と思われるかもしれませんが、同じ手動でもこの方法を採用すると効率的にデータが収集できますね。

スポンサーリンク

実はスクレイピングツールも基本的には同じことをしている

スクレイピングツールなしでスクレイピングする方法を紹介しましたが、ソース画面から検索したら効率的ですね。実はスクレイピングツールも、ソースを参考にデータを見つけています。ただユーザーフレンドリーなスクレイピングツールは、必要なデータを選択するだけです。

必要なデータを選択すると、自動的にソフトが該当のタグを見つけてくれます。またスクレイピングツールは、ソフトに転記するときも便利です。便利なのは、CSVファイルなどにデータを変換してくれるからです。

少ないデータの場合は手動でもさほど問題はありませんが、大量のデータをスクレイピングするときは、スクレイピングツールを使うに限ります。

suumoのスクレイピングはスケジュール機能を利用したら便利

スケジュール
ブライトデータのデータコレクターは、スケジュール化できる

suumoのデータは定期的に変更します。契約者が見つかれば、掲載している空き部屋は掲載中止です。逆に新しい物件があれば、新規掲載されるでしょう。

このような背景を考えたら、suumoのスクレイピングは定期的にした方が良いです。しかしその都度、設定するのは面倒くさいものです。

スクレイピングツールのスケジュール機能を使えば、半自動化できるので便利です。電源を入れスタートボタンを押すだけでスクレイピングができたら、何の苦労もありませんね。そんな夢物語のようなことが、スケジュール機能を使えば可能になるのです。

スケジュール機能があるスクレイピングツールは有料のものに多いですが、選ぶときは操作性にも注目したいものです。またsuumo以外のスクレイピングも、簡単にできたら言うことなしです。

スポンサーリンク

Bright Dataのデータコレクターのスケジュール機能は秀逸

Bright Dataのデータコレクターのスケジュール機能を見ます。

曜日ごとに指定できる

データコレクター
データコレクターのスケジュール機能は曜日指定ができる

データコレクターは、曜日指定ができるので便利です。会社には定休日があるので、定休日にはスクレイピングはできません。(自動で作動させたら可能)そのため、スクレイピングする日にちを決める必要があります。

suumoのデータがいつ更新されるのかは不明ですが、二日に一回ぐらいスクレイピングしたら、最新のデータを見逃す可能性は低いでしょう。

データコレクターのスケジュール機能は、開始時間と終了時間が指定できます。またリピートの回数も指定できるので、営業時間を有効に活用できますね。

SNSをスクレイピングするときは便利

不動産屋
不動産屋もSNSの活用が増えている

suumoから収集したデータをビジネスに活用することは可能だと思いますが、ターゲットは当然不動産に関心を持っている人です。不動産に関心を持っている人をインターネットで探すときは、SNSが便利です。

Twitterにはプロフィール欄がありますが、プロフィールを見たら不動産に関心があるかどうか、ある程度の判断はできるのではないでしょうか?

データコレクターは有名なSNSをテンプレート化しているだけではなく、細かく区分けしています。図を見たらわかると思いますが、Instagram、Twitter、Facebookのプロフィールを分類しています。

Instagram、Twitter、Facebookの利用者は多いので、きっと不動産に関心のある人は見つかるでしょう。ITビジネスはスピードが必要ですが、データコレクターはスピード化を強力にアシストします。

Bright Dataの公式サイト

日本人の担当が確実に着くのは本ブログ経由の方のみになりますので、ご注意ください。こちらのサイトからお申し込みいただければ、間違いなく日本人担当がつきます

まとめ

suumoをツールなしでスクレイピングする方法を紹介しましたが、suumoは不動産情報の宝庫です。そんなsuumoの情報を、ビジネスに活用することは十分に可能です。全国規模の不動産屋であれば、情報を整理して顧客に提供したらいいでしょう。

suumoのスクレイピングをするときも、Bright Dataのデータコレクターは便利です。今は一部英語になっていますが、近い将来にはすべて日本語化する予定です。そのため英語がわからなくても、まったく問題はありません。

Bright Dataは外国のサービスですが、日本からでも気楽に契約できます。決済はクレジットカードとPayPalが利用できます。

Bright Dataの公式サイト

日本人の担当が確実に着くのは本ブログ経由の方のみになりますので、ご注意ください。こちらのサイトからお申し込みいただければ、間違いなく日本人担当がつきます