気象庁のスクレイピング|CSVデータとは何か?

CSVデータ
CSVデータはカンマで区切られたデータ

気象庁をスクレイピングする人はいますが、気象庁のスクレイピングは結構厄介です。厄介な理由は、JSON形式を使っているページが多いからです。

しかし気象庁は過去のデータだけですが、CSVファイルを提供しています。CSVファイルを使えば、気象庁のデータを変幻自在にアレンジすることができます。

本記事では多くのスクレイピングツールが実装している、CSVファイルに焦点をあてたいと思います。

動画でCSVファイルを知ろう

まずは動画を見てCSVファイルの概略を学んでください。

動画でも説明していますが、気象庁のホームページからデータをダウンロードしています。

https://www.data.jma.go.jp/gmd/risk/obsdl/

アクセスするURLは上記ですが、アクセスした後の手順は動画で確認してください。基本的には地域と期間を選ぶだけなので、難しくはないですね。

CSVファイルはさまざまなソフトで使える

CSVファイルはさまざまなソフトで使えます。

Excelで実験

CSVデータ
CSVデータはExcelで読み込める

先ほどダウンロードしたCSVファイルをExcelで読み込みましたが、何のトラブルもなく読み込めました。でも読み込むだけだったら能がないので、必要なデータを囲みグラフ化しました。

スクレイピングデータをグラフ化
Excelを使えば簡単にグラフ化できる

必要な項目しか選択していませんが、Excelを使えば簡単にグラフ化できました。スクレイピングはデータを収集したら終わりではなく、データを上手に活用することが大切です。

スクレイピングツールを開発する人は、データを収集する機能だけを作るのではなく、収集後のことも考えるべきだと思います。

Excelがない人はGoogleスプレッドシートで実験しよう

Excelがない人はGoogleスプレッドシートを使い、スクレイピングデータを活用しましょう。

Googleスプレッドシート
GoogleスプレッドシートでもCSVファイルは読み込める

Googleスプレッドシートでも、CSVファイルは読み込めました。Excelと同じようにグラフ化しました。

Googleスプレッドシート
Googleスプレッドシートでもグラフ作成は可能

スポンサーリンク

CSVファイルをもっと深掘り

これからはCSVデータを深掘りします。

CSVデータはカンマで区切られたデータ

CSVデータ
CSVデータはカンマで区切られたデータ

CSVデータはカンマ(,)で区切られたデータです。先ほどのデータをテキスト編集ソフトで開いてみましたが、データがカンマで囲まれているのが解りますね。一つのデータがカンマで区分けされているので、他のデータと混同することはないでしょう。

気象庁がCSVファイルでデータを提供しているのも、ユーザーの利便性を考えてのことだと思います。

CSVファイルはデータベースでも読み込める

https://algorithm.joho.info/programming/sql-db/load-csv-xampp-phpmyadmin/

上記のサイトはphpMyAdminを用いて、CSVファイルを読み込む方法を解説しています。データベースは多くのデータを扱うサイトでは必ずと言っていいほど活用されていますが、直接データベースにエクスポートできたら便利ですね。

ちなみにphpMyAdminはデータベースそのものではなく、データベースを簡単に扱うことができる、オンライン上のツールです。

おすすめのCSVデータ編集ソフト

CSVデータはExcelやテキストファイルでも編集できますが、専用のソフトで編集した方が便利です。私のおすすめソフトです。

https://freesoft-100.com/review/cassava.php

HTML
HTMLはスマホでも使えるよ。

マクロを利用するとHTMLやXMLへのエクスポートなどが利用できるので、プログラマは助かると思います。HTMLやXMLへエクスポートするときはデータを整形した方がいいですが、こちらのソフトを使えば編集は楽ですよ。

このソフトは文字コードの変換もできます。CSVデータを読み込むソフトとCSVデータの文字コードが不一致の場合は、文字化けの原因になります。文字化けを発生させないためには、前もって文字コードを統一することが大切です。

CSVデータの作成方法

CSVデータを作成する方法はいろいろあります。

  • Excelにデータを取り込み、保存するときにCSVファイルにする
  • テキスト編集ソフトで作成する
  • プログラムで作成する

上から二番目までは一般向けの作成方法ですが、自らスクレイピングツールを構築する人は、プログラムで作成する方法を学びましょう。

プログラムでCSVデータを作成する方法は、プログラム言語によって異なりますが、pythonでもCSVデータにすることはできます。

PythonでCSVファイルを作成する方法を現役エンジニアが解説【初心者向け】

上記のサイトではpythonでCSVデータを作成する方法を解説していますが、pythonはスクレイピングツールを構築するときも便利です。

スポンサーリンク

これからのスクレイピングは付加価値の時代

気象庁のサイトを通してCSVデータの便利さを学びましたが、多くのスクレイピングツールがCSVファイルで出力してくれるのは、利用者の利便性を考えているからだと思います。しかし今後のスクレイピングツールは、CSVデータを出力するだけでは差別化できないでしょう。

現在スクレイピング業界のトップを走るBright Dataは、付加価値の高いスクレイピングツールを提供しています。

IPアドレスも指定できる

動画ではデータコレクターの解説もしていますが、データコレクターの解説の最後の方ではIPアドレスを選んでいます。なぜスクレイピングするときに、IPアドレスを選ぶ必要があるのでしょうか?

スクレイピングはプロバイダーのIPアドレスを使っても可能ですが、プロバイダーのIPアドレスに頼ると、いろいろと不都合なことがあります。

  • プロバイダーのIPアドレスがブロックされたらスクレイピングできない
  • 外国のwebサービスをスクレイピングするときは不利
IPアドレス
IPアドレスは通信時に必要

スクレイピングの禁止を謳っているwebサービスはあります。そのようなwebサービスでスクレイピングをしたら、IPアドレスがブロックされる可能性があります。

しかしデータコレクターを使えば、他のIPアドレスに乗り換えるのは簡単です。

外国のwebサービスの中には、国外からのアクセスを禁止しているところがあります。そのようなwebサービスをスクレイピングするには、現地のIPアドレスに乗り換えるしかありません。

データコレクターを使えば、簡単に現地のIPアドレスに乗り換えることができます。

他にもBright Dataの付加価値はある

Bright Dataの付加価値は、IPアドレスを自由に変更できることだけではありません。データコレクターだけではなく、ライブデータセット、サーチエンジンクローラーというスクレイピングツールも提供しています。

ライブデータセットとサーチエンジンクローラーの仕様はまったく違いますが、スクレイピングする目的によって使い分けたらいいと思います。

これは付加価値と言えるかどうか解りませんが、親切なサポート体制も見逃せません。Bright Dataは利用者を第一に考えているので、利用者のリクエストには出来る限り応えようとしています。こんな親切なサポートは、Bright Dataだけでしょう。

Bright Dataの公式サイト

日本人の担当が確実に着くのは本ブログ経由の方のみになりますので、ご注意ください。こちらのサイトからお申し込みいただければ、間違いなく日本人担当がつきます

まとめ

本記事では主にCSVデータについて解説をしましたが、スクレイピングとCSVデータは車の両輪のような関係です。せっかくスクレイピングしたデータも、使うのに苦労したらスクレイピングの意味はありません。

気象庁はCSVデータを提供していますが、今後もCSVデータを提供するwebサービスは増えると思います。

紹介したBright Dataも、結果をCSVデータで出力してくれます。CSVデータだけではなく、Excel形式でも出力してくれます。スクレイピングツールの付加価値の話もしましたが、Bright Dataの付加価値は本当に凄いです。

Bright Dataの公式サイト

日本人の担当が確実に着くのは本ブログ経由の方のみになりますので、ご注意ください。こちらのサイトからお申し込みいただければ、間違いなく日本人担当がつきます