一般の人はスクレイピングをするときに、スクレイピングツールを使うことが多いです。
スクレイピングツールは便利なツールですが、最低限サイトの骨格であるHTMLとcssは覚えておいた方がいいでしょう。
スクレイピングツールでも該当のタグ(HTMLとcssの要素)は指定する必要がありますが、皆目解らないようでは、スクレイピングを進めることはできません。
本記事ではスクレイピングとcssをテーマにします。
目次
cssは何なの?
cssという言葉を初めて聞く人もいるでしょう。そのような人達のために、cssの基本を解説します。
cssはサイトのデザインを担当する
HTMLはサイトの骨格を担いますが、HTMLだけでも簡単なデザインは構築できます。しかし複雑なデザインとなると、cssの出番です。
<head>
<style>
h1 {
font-size:21px;
font-weight: bold;
color: #ff7800;
}
</style>
</head>
h1という要素はHTMLにもありますが、細かく指定しようと思えば、cssの力を借りなければいけません。
HTMLとcssはお互いに補完しあう関係で、最近のwebサイトでは、HTMLだけ使われるケースは非常に稀です。
cssはHTMLファイルに組み込むことができる
<link rel=”stylesheet” href=”test.css”>
こちらの記述はHTMLファイルに、cssファイルを組み込んでいます。
HTMLファイルに、cssファイルを取り込むのは効率的な方法です。
この方法は広く実践されており、実践することでコードの記述時間が大幅に短縮されます。
読み込んでも通常はソース画面にcssは現れるため、スクレイピングは可能です。ソース画面に表示されているcssを、スクレイピングツールで指定するだけです。
スポンサーリンク
スクレイピングツールでcssを指定するときのポイント
これからはスクレイピングツールで、cssを指定するときのポイントを見ます。
まずはwebサイト上で右クリック
まずはwebサイト上で右クリックしてください。ブラウザによって若干表示内容は異なりますが、「ページのソースを表示」という項目が見えるはずです。
それをクリックしたら、webサイトのソースは解ります。後は該当のcssを見極め、スクレイピングツールで指定するだけです。
上手くスクレイピングできないときは
上手くスクレイピングできないときは、cssを正しく指定しているか確かめてください。
cssにはプロパティというものがあり、プロパティには値が含まれています。
<h1 style=”color:red; font-size: 24pt;”>サンプル</h1>
この例で解説すると、「red」と「24pt」が値になります。
値だけ指定しても、スクレイピングできないことはあります。
通常は「h1 style」を指定した方がスムーズです。
「h1 style」を他の項目にも使っている場合は、値も指定した方がいいでしょう。
しかしスクレイピングツールによっては、値の内容まで判断してくれないことがあります。
cssがソースに現れないときは?
cssがソース画面に現れないときは困りますが、そのようなwebサイトはフレームまたはSSIで隠している可能性があります。
このようなwebサイトは記述しているファイルを見つけるしかありませんが、ソース画面にファイル名が表示されている場合は、ファイル名からURLを推測してアクセスしたらいいでしょう。
サイト作りに慣れている人であれば、ファイル名からURLを推測するのは難しくありません。
cssの勉強方法
これからはcssの勉強方法を解説します。
専門書を購入する必要はない
web業界に就職するのであれば別ですが、スクレイピングが目的の人は、専門書を購入する必要はありません。
インターネット上にはcssを解説しているサイトが多く、それらのサイトだけでも十分に勉強できます。
すべてのcssの要素を覚える必要はありません。
基本的なcssの要素を覚えるだけで、スクレイピングはできます。万が一要素がどうか解らない場合は、インターネットで調べましょう。
css関係の情報は、ほぼほぼインターネットで検索したら見つかります。
実際に書いてみる
覚えたcssは実際に書きましょう。書くことで頭に残りやすくなるからです。
編集ソフトはフリーソフトで構いません。
書いたあとは、サイトにアクセスして結果を見ましょう。
結果がはっきり解れば、cssの働きが手に取るように解ります。
プログラム、HTML、cssは、頭で覚えるものではありません。
実際に書くことで身に付くものです。
プログラムは別として、cssの基本は一ヶ月もあれば覚えることができると思います。
スポンサーリンク
初心者は簡単なwebサイトから始める
スクレイピング初心者、そしてcss初心者は構造が簡単なサイトから始めてください。
ソースが解りやすい
ソースが解りやすいことは絶対条件です。該当のタグが解れば、スクレイピングは9割終わったようなものです。
初心者のうちはソースを見なければ構造が簡単なサイトかどうか解らないと思いますが、慣れるにつれ、ソースを見なくてもある程度は推測できるようになると思います。
構造が簡単なwebサイトを見つけたら、繰り返しスクレイピングに挑戦してください。スクレイピングも経験が大切で、経験値が高くなれば、どのようなwebサイトでも挑戦できるようになるでしょう。
規模が小さいwebサイトを選ぶ
巨大なwebサイトは、一つのドメインに多くのディレクトリーを設置していることが多いです。スクレイピングツールによってはドメイン単位でもスクレイピングできますが、無料のスクレイピングツールは対応していないことが多いです。
無料のスクレイピングツールでも手間暇をかけたらスクレイピングは可能だと思いますが、webサイトの構造に精通していなければ、挫折する可能性が高いです。
規模が小さいwebサイトも規模が大きいwebサイトも、基本的なスクレイピング手法は変わりません。
スクレイピング初心者は、最初は規模が小さいwebサイトから挑戦してください。
あらゆるwebサイトに挑戦する人は本格的なスクレイピングツール
あらゆるwebサイトに挑戦する人は、本格的なスクレイピングツールを使った方が効率的です。理由を解説します。
タグの指定が簡単
本格的なスクレイピングツールは利用者の利便性を追求しているので、タグの指定が簡単です。無料のツールにありがちな、面倒臭い書式はなく、素直にタグを指定するだけです。
スクレイピングツールによっては、対象の文章を選択すれば、自動的にタグを検出してくれます。
ドメイン単位でスクレイピングできる
本格的なスクレイピングツールは、ドメイン単位でスクレイピングできることが多いです。ドメイン単位でスクレイピングができたら、規模が大きいサイトでも短時間でデーターの収集ができます。
規模が大きいサイトから短時間でデータを収集するのは面白く、一度経験した人はクセになると思います。
本格的なスクレイピングツールは有料ですが、お金を出すだけの価値はあります。
まとめ
スクレイピングとcssについて解説をしましたが、スクレイピングをビジネスで活用する人は、是非ともcssを覚えてください。
cssは一見難解に見えますが、単なる書式なので習得は簡単です。本文でも書きましたが、一ヶ月程度で習得できると思います。
cssを習得した後は、スクレイピングツールで、さまざまなwebサイトに挑戦してください。
コメントを残す