「郵便番号 スクレイピング」で検索すると、多くの記事がヒットします。記事の内容はプログラミングによる解説が多いですが、郵便番号のスクレイピングは、既存のスクレイピングツールで十分です。
本記事では郵便番号のスクレイピングの概略と、無駄のないスクレイピングの知恵を解説します。何度も主張していることですが、スクレイピングデータは活用して初めて意味をなします。無駄な努力はせず、必要な情報だけスクレイピングするようにしましょう。
目次
郵便番号をスクレイピングする人へのアドバイス
郵便番号をスクレイピングする人に、アドバイスがあります。
すべてのデータを取得する人はスクレイピングは不要
すべてのデータをダウンロードする人は、スクレイピングする必要はありません。何故ならば、郵便局のデータはダウンロードできるからです。
CSVファイルでダウンロードできるので、Excelに取り込むときは便利です。日本全国の郵便番号の数は膨大ですが、郵便局からダウンロードしたら一発で取得できます。
郵便番号は変更になる可能性がある
区画整理などの理由で、郵便番号は変わる可能性があります。そのためビジネスで郵便番号を活用する人は、定期的にダウンロードした方がいいです。ボタンを押すだけでダウンロードできるので、定期的に実行するのは難しくはないです。
ただ意味もなくダウンロードするのは時間の無駄なので、郵便番号が変更になった場合は通知してもらいましょう。
以下のサービスを利用すれば、メールで教えてくれます。
http://zipcloud.ibsnet.co.jp/monitor/index
スポンサーリンク
必要な郵便番号とは
これからは必要な郵便番号を解説します。
会社は関連企業の郵便番号が必要
昔はダイレクトメールによる営業が多かったですが、最近はパソコンのメールを活用することが増えてきました。しかしダイレクトメールの需要が、まったくなくなったわけではありません。
サンプルを送るときは、ダイレクトメールの方が絶対に便利でしょう。
ダイレクトメールを送るときに対象の会社を絞る作業が必要ですが、絞り込むのは簡単そうで意外に難しいです。
郵便局のホームページには検索機能があり、事業所、住所、郵便番号などの情報が調べられるようになっています。しかし曖昧検索に対応していないので、詳細な検索は難しいです。
住所補助入力システムをつくる人は全国の郵便番号が必要
郵便番号を入力したら自動的に一部の住所が入力されるシステムはありますが、そのようなシステムを開発する人は、全国の郵便番号データがあった方が便利です。ただデータの更新は、小まめにしなければいけません。
実は住所補助入力システムは、ライブラリを使った方が楽です。私もライブラリを使い、このようなシステムを制作したことがあります。
郵便番号のスクレイピングは検索の知恵も必要
全国の郵便番号をスクレイピングするのは難しくありませんが、対象を絞るときは知恵が必要です。
電気関係の店だけスクレイピングしよう
電気関係の会社の郵便番号だけ、スクレイピングするのは可能でしょうか?この答えは半分イエスです。
正確無比にスクレイピングするのは難しいですが、電気関係の会社を絞り込むことは可能です。
https://www.post.japanpost.jp/zipcode/business/index.html
こちらのページでは業種ごとに郵便番号が検索できますが、事業所名に「電気」と入力してください。日本全国なんで、都道府県名は必要ありません。
実際に検索したら、多くの会社がヒットしました。
一ページで全部表示できないので、ページングで表示していました。
対象のタグを見つけよう
次は対象のタグを見つけますが、ページ上で右クリックしてソース画面を出してください。
<tr valign=”top”>
<td class=”data”>(株) ○○電気研究所</td>
<td class=”data”>000-0000</td>
<td class=”data”>京都府</td>
<td class=”data”>京都市</td>
<td class=”data”>サンプル村5丁目</td>
</tr>
最初は郵便番号だけスクレイピングしようと思いましたが、<tr valign=”top”></tr>内に会社名と住所も含まれていることが解りました。
ここまでくるとスクレイピングは簡単です。
スクレイピングツールでタグを指定するときは、<tr valign=”top”></tr>を指定すればいいです。スクレイピングツールによってタグの指定方法は異なるかもしれませんが、基本的な流れは同じです。
ページング2ページ以降も同じことをする
件数が多いのでページングで表示されていますが、2ページ移行も同じことをすればいいです。スクレイピングツールで2ページ目のURLを指定し、タグは<tr valign=”top”></tr>を指定してください。
面倒くさい人は、ドメイン単位でスクレイピングできるツールを使いましょう。
ドメイン単位でスクレイピングするときは、「https://www.post.japanpost.jp/cgi-zip/business/business.php?pref=&name=%E9%9B%BB%E6%B0%97&kana=0&x=119&y=21&p」を指定したらいいと思います。
今各ページのURLをチェックしましたが、「https://www.post.japanpost.jp/cgi-zip/business/business.php?pref=&name=%E9%9B%BB%E6%B0%97&kana=0&x=119&y=21&p」までは共通しているみたいです。
スポンサーリンク
他のサイトをスクレイピングするときも基本は同じ
今回は郵便局のサイトをスクレイピングしましたが、他のサイトの郵便番号をスクレイピングするときも流れは同じです。
サイトによっては、Excelでもスクレイピングできるかもしれません。大切なことは対象のタグを見極めることと、URLをしっかり観察することです。(ドメイン単位でスクレイピングするときは、URLの見極めが必要)
ここまでできたら後は、スクレイピングツールに任せるだけです。スクレイピングツールは、タグが簡単に指定できるもの、ドメイン単位でスクレイピングできるものがいいです。有料のスクレイピングツールはだいたい条件を満たしていると思いますが、忙しい人はスクレイピング作業そのものの時間が取れません。
そうなればスクレイピングを代行してもらうしかないですが、スクレイピングの代行までしてくれるサービスはあまり多くはありません。
Bright Dataは、すべての条件を満たす希有なサービスです。元々はプロキシサーバー業者ですが、優れたスクレイピングツールも開発しています。
海外のIPアドレスも使えるので、海外の郵便番号をスクレイピングするときは便利だと思います。
まとめ
郵便番号のスクレイピングについて解説をしましたが、郵便番号のスクレイピングは営業にとっては非常に大切だと思います。最近はメールやzoomによる営業が流行っていますが、昔ながらのダイレクトメール営業が廃れることはないと思います。
やはり紙の資料は見やすいし、重みも感じます。ダイレクトメールをするために必要なのは郵便番号と住所ですが、郵便局のサイトをスクレイピングすれば瞬く間に取得できます。
郵便番号のスクレイピングをするときは、Bright Dataのデータコレクターを使ってください。きっとビジネスの強い味方になると思います。