スクレイピングでテーブルのデータを取得するのは簡単で、Excelでもたいていのデータは取得できます。
本記事では何故テーブルのデータは取得するのが簡単なのか、またテーブルのデータをスクレイピングするときの注意点を解説します。
スクレイピング初心者はいきなり難しいサイトに挑戦するのではなく、テーブルに格納されたデータをスクレイピングしてください。
目次
テーブルの詳細
これからはテーブルの解説をします。
テーブルとはhtmlのタグの一種
テーブルとはhtmlのタグの一種で、<table>というタグを使います。
<table>タグと<th><tr><td>はセットで使われるのが一般的です。非常に簡単なタグですが、草創期のwebサイトでは多用されていました。
テーブルタグをデザインに使用している人もいますが、テーブルタグの真価は何と言っても、データが格納しやすいことです。
データを格納するタグは<td>で、スクレイピングツールでデータを取得するときは、<td>タグを指定すればいいです。
日本チーム | アメリカチーム | メキシコチーム |
日本太郎 | アメリカトムソン | メキシコサントス |
日本花子 | アメリカカレン | メキシコマカロン |
これを見るとテーブルタグがデータの格納に、如何に便利なのかが解るでしょう。
テーブルデータのスクレイピングは簡単
テーブルタグを使う人は、テーブル内に大切なデータを格納することが多いです。本当かと思う人は、いろいろなサイトを観察してください。
テーブルに大切なデータが格納されていたら、スクレイピングは非常に簡単です。簡単であるが故に、Excelでもスクレイピングできるのです。
初心者は複雑な構造のサイトにいきなり挑戦するのではなく、まずはテーブルデータのスクレイピングから始めましょう。
スポンサーリンク
テーブルタグ検証
これからはテーブルタグを検証します。
落合博満の個人成績
ウィキペディアには元ロッテの落合博満さんのページがあります。そのページには個人成績が掲載されていますが、個人成績はテーブルタグで整理されていました。
項目は<th>タグを使っていますが、データは<td>タグを使っていました。これを見たら解ると思いますが、スクレイピングツールでは<th>タグと<td>タグを指定すればいいのです。
ただ個人成績以外にもこれらのタグが使われている可能性があるので、対象のタグをしっかり選別することが大切です。
スクレイピングツールによっては、データを選択したら自動的にタグを検出してくれるものがあるので、タグを見るのが嫌な人は、そのようなスクレイピングツールを使ってください。
株価情報
株価情報もテーブルを使っていました。
https://kabutan.jp/themes/?theme=%E3%83%87%E3%83%BC%E3%82%BF%E3%82%BB%E3%83%B3%E3%82%BF%E3%83%BC
Excelでスクレイピングしましたが、問題なく取得できました。テーブルタグは昔からありましたが、今でもテーブルタグは現役バリバリです。
最近はCSSでテーブルのデザインをすることが多いですが、基本的な使い方は昔と同じです。今も昔もテーブルタグでデータを格納するのが一番簡単なので、今後もtableタグは使われ続けるでしょう。
テーブルデータをスクレイピングするときの注意点
これからはテーブルデータを、スクレイピングする際の注意点を解説します。
画像データは通常の方法ではスクレイピングできない
テーブルタグを使用してデータを格納しているサイトは多いですが、スクレイピングされたくないデータは、画像化していることがあります。
画像データをダウンロードすることは可能ですが、再利用しようと思ったら、テキストに変換した方が便利です。
少ない画像データであればそのまま手入力で再現したらいいですが、あまりにも文章量が多い場合は、画像をテキストに変換してくれるサービスを使った方が効率的です。
私がよく使っているのはGoogleドライブですが、以下のリンクを参考にしたら解りやすいです。
https://support.google.com/drive/answer/176692?hl=ja&co=GENIE.Platform%3DDesktop
データをリンク化している場合はリンク先の情報も取得
テーブル内のデータにリンクの文字だけ表示しているケースはありますが、そのようなテーブルデータは、リンク先のアドレスも取得した方が後々便利です。
リンク先はソース画面から解ることもありますが、難解な場合は一度クリックして、アドレスをコピーした方がスムーズです。
スクレイピング禁止のサイトは自己責任で
テーブルデータのスクレイピングは簡単ですが、スクレイピングが禁止されている場合は、自己責任で実行してください。
禁止されているサイトをスクレイピングしたからといって、裁判沙汰になることは滅多にないと思いますが、ペナルティでアカウントが削除される可能性はあります。
スクレイピングが禁止されているテーブルデータを取得したいときは、コピーするのも一つの手です。コピーしてデータを再利用したらペナルティを受ける可能性はありますが、自分だけしか読まないのであれば、ペナルティを受けることはないでしょう。
スクレイピングはコピーと違ってサーバーに負荷がかかるので、サーバー管理者に気付かれやすいです。しかしコピーであれば負荷はほぼかからないので、サーバー管理者は気付かないことが多いです。
スポンサーリンク
テーブルデータをスクレイピングする人も本格的なツール
テーブルデータを重点的にスクレイピングする人も、本格的なスクレイピングツールを使った方がいいと思います。その理由を解説します。
作業効率がいい
本格的なスクレイピングツールは利用者の利便性を考えているので、スムーズに操作できます。最近のスクレイピングサービスはクラウド型が主流ですが、クラウド型のスクレイピングツールはさまざまな機能を組み合わしているので、作業効率が凄くいいです。
またスクレイピングツールによっては対象のデータを選択するだけで、自動的にタグを検出してくれるので、ITリテラシーがない人でも利用できます。
ドメイン単位でスクレイピングできる
テーブルデータが一ページしかない場合は、作業時間は短かいと思いますが、多くのファイルにテーブルデータがある場合は、凄く手間がかかります。
このような構成のサイトをスクレイピングするときも、本格的なスクレイピングツールの方が便利です。
本格的なスクレイピングツールはドメイン単位でスクレイピングできるので、ファイル数が多くても、比較的短時間でスクレイピングは完結します。
まとめ
テーブルタグとスクレイピングをテーマに解説しましたが、スクレイピング入門者はテーブルデータの攻略から始めるべきだと思います。
だいたいのテーブルデータは、Excelや無料のスクレイピングツールでも取得できるからです。最初はそのようなツールを使い、スクレイピングの楽しさを味わってください。
スクレイピングをビジネスで活用するときは、是非とも本格的なツールを使ってほしいですね。本格的なツールは機能が多いので最初は操作を覚えるのが大変ですが、必ずやビジネスでは役に立つと思います。