気象庁をスクレイピングする人はいますが、気象庁のスクレイピングは結構厄介です。厄介な理由は、JSON形式を使っているページが多いからです。
しかし気象庁は過去のデータだけですが、CSVファイルを提供しています。CSVファイルを使えば、気象庁のデータを変幻自在にアレンジすることができます。
本記事では多くのスクレイピングツールが実装している、CSVファイルに焦点をあてたいと思います。
目次
動画でCSVファイルを知ろう
まずは動画を見てCSVファイルの概略を学んでください。
動画でも説明していますが、気象庁のホームページからデータをダウンロードしています。
https://www.data.jma.go.jp/gmd/risk/obsdl/
アクセスするURLは上記ですが、アクセスした後の手順は動画で確認してください。基本的には地域と期間を選ぶだけなので、難しくはないですね。
CSVファイルはさまざまなソフトで使える
CSVファイルはさまざまなソフトで使えます。
Excelで実験
先ほどダウンロードしたCSVファイルをExcelで読み込みましたが、何のトラブルもなく読み込めました。でも読み込むだけだったら能がないので、必要なデータを囲みグラフ化しました。
必要な項目しか選択していませんが、Excelを使えば簡単にグラフ化できました。スクレイピングはデータを収集したら終わりではなく、データを上手に活用することが大切です。
スクレイピングツールを開発する人は、データを収集する機能だけを作るのではなく、収集後のことも考えるべきだと思います。
Excelがない人はGoogleスプレッドシートで実験しよう
Excelがない人はGoogleスプレッドシートを使い、スクレイピングデータを活用しましょう。
Googleスプレッドシートでも、CSVファイルは読み込めました。Excelと同じようにグラフ化しました。
スポンサーリンク
CSVファイルをもっと深掘り
これからはCSVデータを深掘りします。
CSVデータはカンマで区切られたデータ
CSVデータはカンマ(,)で区切られたデータです。先ほどのデータをテキスト編集ソフトで開いてみましたが、データがカンマで囲まれているのが解りますね。一つのデータがカンマで区分けされているので、他のデータと混同することはないでしょう。
気象庁がCSVファイルでデータを提供しているのも、ユーザーの利便性を考えてのことだと思います。
CSVファイルはデータベースでも読み込める
https://algorithm.joho.info/programming/sql-db/load-csv-xampp-phpmyadmin/
上記のサイトはphpMyAdminを用いて、CSVファイルを読み込む方法を解説しています。データベースは多くのデータを扱うサイトでは必ずと言っていいほど活用されていますが、直接データベースにエクスポートできたら便利ですね。
ちなみにphpMyAdminはデータベースそのものではなく、データベースを簡単に扱うことができる、オンライン上のツールです。
おすすめのCSVデータ編集ソフト
CSVデータはExcelやテキストファイルでも編集できますが、専用のソフトで編集した方が便利です。私のおすすめソフトです。
https://freesoft-100.com/review/cassava.php
マクロを利用するとHTMLやXMLへのエクスポートなどが利用できるので、プログラマは助かると思います。HTMLやXMLへエクスポートするときはデータを整形した方がいいですが、こちらのソフトを使えば編集は楽ですよ。
このソフトは文字コードの変換もできます。CSVデータを読み込むソフトとCSVデータの文字コードが不一致の場合は、文字化けの原因になります。文字化けを発生させないためには、前もって文字コードを統一することが大切です。
CSVデータの作成方法
CSVデータを作成する方法はいろいろあります。
- Excelにデータを取り込み、保存するときにCSVファイルにする
- テキスト編集ソフトで作成する
- プログラムで作成する
上から二番目までは一般向けの作成方法ですが、自らスクレイピングツールを構築する人は、プログラムで作成する方法を学びましょう。
プログラムでCSVデータを作成する方法は、プログラム言語によって異なりますが、pythonでもCSVデータにすることはできます。
上記のサイトではpythonでCSVデータを作成する方法を解説していますが、pythonはスクレイピングツールを構築するときも便利です。
スポンサーリンク
これからのスクレイピングは付加価値の時代
気象庁のサイトを通してCSVデータの便利さを学びましたが、多くのスクレイピングツールがCSVファイルで出力してくれるのは、利用者の利便性を考えているからだと思います。しかし今後のスクレイピングツールは、CSVデータを出力するだけでは差別化できないでしょう。
現在スクレイピング業界のトップを走るBright Dataは、付加価値の高いスクレイピングツールを提供しています。
IPアドレスも指定できる
動画ではデータコレクターの解説もしていますが、データコレクターの解説の最後の方ではIPアドレスを選んでいます。なぜスクレイピングするときに、IPアドレスを選ぶ必要があるのでしょうか?
スクレイピングはプロバイダーのIPアドレスを使っても可能ですが、プロバイダーのIPアドレスに頼ると、いろいろと不都合なことがあります。
- プロバイダーのIPアドレスがブロックされたらスクレイピングできない
- 外国のwebサービスをスクレイピングするときは不利
スクレイピングの禁止を謳っているwebサービスはあります。そのようなwebサービスでスクレイピングをしたら、IPアドレスがブロックされる可能性があります。
しかしデータコレクターを使えば、他のIPアドレスに乗り換えるのは簡単です。
外国のwebサービスの中には、国外からのアクセスを禁止しているところがあります。そのようなwebサービスをスクレイピングするには、現地のIPアドレスに乗り換えるしかありません。
データコレクターを使えば、簡単に現地のIPアドレスに乗り換えることができます。
他にもBright Dataの付加価値はある
Bright Dataの付加価値は、IPアドレスを自由に変更できることだけではありません。データコレクターだけではなく、ライブデータセット、サーチエンジンクローラーというスクレイピングツールも提供しています。
ライブデータセットとサーチエンジンクローラーの仕様はまったく違いますが、スクレイピングする目的によって使い分けたらいいと思います。
これは付加価値と言えるかどうか解りませんが、親切なサポート体制も見逃せません。Bright Dataは利用者を第一に考えているので、利用者のリクエストには出来る限り応えようとしています。こんな親切なサポートは、Bright Dataだけでしょう。
まとめ
本記事では主にCSVデータについて解説をしましたが、スクレイピングとCSVデータは車の両輪のような関係です。せっかくスクレイピングしたデータも、使うのに苦労したらスクレイピングの意味はありません。
気象庁はCSVデータを提供していますが、今後もCSVデータを提供するwebサービスは増えると思います。
紹介したBright Dataも、結果をCSVデータで出力してくれます。CSVデータだけではなく、Excel形式でも出力してくれます。スクレイピングツールの付加価値の話もしましたが、Bright Dataの付加価値は本当に凄いです。
コメントを残す