通常サイトのtitleはHTMLに記述されていますが、スクレイピング経由でもtitle内容の取得は可能です。しかしスクレイピングでtitle内容を取得するのは、何の意味があるのでしょうか?
本記事では、スクレイピングでtitle内容を取得する意味を考察します。これからスクレイピングする人は、参考にしてください。
目次
titleがHTMLに記述されている証拠

小さくて見えにくいかもしれませんが、執筆中の編集画面のソースを見ました。ソースの中にはtitleというタグがありますが、「スクレイピングでtitleを取得」という文字がタグで囲まれていました。(後に編集したので、現在のタイトル名とは異なります。)
CMSのWordpressなので余計な文字も含まれていますが、通常のホームページはtitleタグでタイトル内容を囲んでいるだけです。

ホームページのタイトルというのは、このような簡単に解るのです。もちろんスクレイピングでも簡単に取得できます。取得する方法はプログラム言語によって異なりますが、pythonの場合は以下の記事を参考にしてください。
https://coderecipe.org/scraping/gettitle.html
非常に短いコードですが、コードが短いのはtitle内容の取得が簡単だからです。
titleの取得にはどんな意味があるのか?
スクレイピングでtitleを取得するのは簡単ですが、titleを取得したら何のメリットがあるのでしょうか?これからはtitleを取得する意味を考察します。
titleを取得したらサイトの内容が推測できる

ある人がスクレイピングで、多くのサイトの情報を集めるとします。しかしサイトを整理するときは、タイトルがあった方が整理しやすいです。タイトル文を見るだけで、どのようなサイトなのかが解るからです。
サイトに書かれている情報だけ取得したら、整理するときに大変困ると思います。情報だけでも区分けは可能ですが、タイトルがなければどのような情報なのか一目では判断できませんね。
titleを取得したらランキングサイトが作成できる
title内容を取得したら、ランキングサイトが制作できます。ランキングサイトではすべての情報を掲載せず、タイトルだけ表示していることが多いです。
タイトルだけだったら、一ページに多くの情報が掲載できるので便利です。サイトの内容を読んでもらいたいときは、リンクを貼ればいいでしょう。
スポンサーリンク
スクレイピングツールで情報を取得し独自のランキングサイトを制作しよう
これからはスクレイピングツールで情報を取得し、独自のランキングサイトを制作する方法を解説します。
まずは取得するタグを厳選
ランキングサイトを制作するためには、最初に必要なタグを厳選しましょう。title内容は当然必要ですが、title内容以外では見出しの文言も必要です。どうやって見出しのタグを見つけるかですが、まずはブラウザ上で右クリックしてソースを見てください。
ソースを見たら、見出しに使われているタグが解ります。一般的に見出しは<h2><h3><h4>が使われていることが多いです。

他にはサイトのURLの取得も必要です。最初は閲覧者にタイトルや見出しを見せますが、関心のある見出しであれば、閲覧者は本文を読みたいと思うでしょう。そのような閲覧者の便宜を考え、見出しやタイトルをクリックしたら、指定のURLに飛ぶようにしましょう。
指定のURLに飛ばすには「a href」タグを使えばOKです。
情報をデータベースに格納しよう
大量のタイトル情報や見出し情報を、テキストファイルで管理するのはおすすめできません。データが増えてくると、管理が大変になるからです。大量の情報を格納するときは、データベースを使うに限ります。
今は多くのレンタルサーバーがデータベースを提供しているので、レンタルサーバー選びに迷うことはないでしょう。
レンタルサーバーのデーターベースはMySQLとPostgreSQLが多いですが、どちらを使っても問題はありません。私はさまざまなクエリを試したいのでPostgreSQLを使っていますが、ランキングサイト作成であればMySQLでも全く問題はありません。
表示させよう
データベースに情報を格納した後は表示させるだけですが、表示はSELECT文を使います。SELECT文の概略を知りたい方は、以下の解説サイトを参考にしてください。
こちらのサイトではMySQLでSELECTする方法を解説しています。ただSQL文だけで操作するのは不便なので、接続言語も一緒に覚えましょう。データベースに接続するときはPHPが簡単だと思いますが、最近流行のpythonでも構いません。
サーバーサイドプログラムでデータベースに接続するときはデータベース用の関数を使いますが、PHPであれば豊富なマニュアルがあります。
スポンサーリンク
スクレイピングツールを選ぶときは簡単にタグが指定できるもの
スクレイピングで取得したデータで、ランキングサイトを作成する流れを解説しましたが、スクレイピングツールを選ぶときは、簡単にタグが指定できるものがいいと思います。
データコレクターが便利
titleや<h2><h3><h4>の情報を取得するときは、Bright Dataのデータコレクターが便利です。動画では0.40秒ぐらいからデータコレクターの解説をしていますが、動画では<h3>を指定していますね。
動画を見てもらえば解るように、データコレクターはタグが簡単に指定できます。ユーザーがすることは、取得するタグを調べることだけです。そしてデータコレクターでタグを指定するだけです。
データコレクターは外国生まれのスクレイピングツールですが、ほぼ100%日本語化が進んでいます。そのため英語がまったく解らない人でも心配はいりません。
データコレクターは外国のサイトをスクレイピングするときも便利

外国のサイトを厚め、ランキングサイトを制作したら面白いと思います。特に専門サイトのランキング情報は、マニアの注目を集めると思います。外国のサイトのスクレイピングは、ブロックされる可能性があるので、現地のIPアドレスを使った方が無難です。
動画でも解説していますが、データコレクターは世界中のIPアドレスを選ぶことができます。優れたスクレイピングツールはデータコレクターだけではありませんが、IPアドレスが指定できるのはデータコレクターだけではないでしょうか。
現地のIPアドレスに乗り換えたら、ブロックされる可能性がかなり低くなるので、縦横無尽に現地のサイトがスクレイピングできますよ。
ライブデータセットはInstagramのプロフィール情報を取得するときに便利
Bright Dataにはライブデーターセットという、ユニークなサービスがあります。クリック操作だけでデータが取得できるスグレモノですが、対象は有名なwebサービスです。
Instagramは宣伝には欠かせないツールですが、Instagramの情報を整理して提供すれば喜ばれると思います。ライブデータセットはIT技術不要なので、IT技術に弱い人は是非とも活用してください。
まとめ
スクレイピングでtitleを取得する意味を解説しましたが、スクレイピングはHTMLファイルであれば何でも取得できます。これからのインターネットビジネスは有意義なデータを活用するビジネスが増えそうな気がしますが、有意義なデータを取得するときもスクレイピングは便利です。
スクレイピングツールは自分で開発するよりも、既存のスクレイピングツールを使った方が絶対に効率的です。Bright Dataが提供するスクレイピングツールはいずれも秀逸なので、関心のある方は是非とも試してください。
コメントを残す