プロキシサービス研究ブログ

スクレイピングデータを活用しオリジナルニュースサイト

スクレイピングでニュース情報を取得することは可能ですが、どのような内容をスクレイピングしたらいいのでしょうか?

本記事ではニュース情報を取得し、独自のニュースサイトを制作するための方法を考察します。ニュースサイトは多くの人の注目を集めるため、アフィリエイト収入が見込めると思います。

独自のニュースサイトを制作したい人は参考にしてください。

ニュースサイトで取得したい項目

これからはニュースサイトで、取得した方がいい項目を解説します。

タイトル

全てのニュースにはタイトルがあります。タイトルに惹かれて読む人は多いため、タイトルの取得は大切です。

タイトルは<h>タグで囲まれていることが多いので、スクレイピングは簡単です。

ニュースサイトのスクレイピングは有意義

内容は良いのにタイトルが悪い・・・

このようなケースはあると思いますが、この場合はサブタイトルを付けたらいいと思います。

オリジナルのタイトルが「小○さんが試験に合格」だったら、サブタイトルは次のようにしたら面白いと思います。

「小○さんの合格の報告を聞き目が笑う○子様」

面白いサブタイトルの付け方には工夫が必要ですが、初心者はさまざまなタイトルを見て研究してください。

カテゴリ

Yahoo!ニュースでは各々のニュースがカテゴリでまとめられていますが、カテゴリもスクレイピングしましょう。カテゴリを取得すれば、サイトの整理に役立ちます。

インターネットユーザーは関心のある分野のニュースしか見ませんが、自分に合った記事かどうかはカテゴリで判断することが多いです。カテゴリの次はタイトルで判断しますが、まずはカテゴリ分けをしっかりすることが大切です。

本文

本文をスクレイピングで取得することも大切ですが、本文をそのまま取得し自分のサイトで公開したら、著作権法に抵触する可能性があるので、本文が掲載されているURLだけスクレイピングしましょう。

本文が長い場合はページングされていると思いますが、ページングされた記事は章ごとにURLがあるはずです。注意深くアドレスバーを見て、URLの違いを確かめてください。

スポンサーリンク

スクレイピングしたデータはデータベースに保存しよう

スクレイピングしたデータは、何らかの方法で保存しなければいけません。一番簡単な方法はデータベースに保存することです。データベースに保存する流れを解説します。

データベース付きのレンタルサーバーを借りる

専用サーバーよりもレンタルサーバーの方が安い

予算に余裕がある人は専用のサーバーを購入してもいいですが、専用のサーバーは維持費が高いです。最初の頃はアフィリエイト収入が見込めないので、お手頃価格で契約できるレンタルサーバーをおすすめします。

レンタルサーバーであれば何でもいいわけではなく、データベースが使えるレンタルサーバーが必要です。スクレイピングしたデータはデータベースに保存するので、データベースがなければ先に進むことはできません。

後はPHPなどのサーバサイドスクリプト言語も必要ですが、データベースを提供しているレンタルサーバーは、ほぼ100%サーバーサイドスクリプト言語も提供しています。

カラムを作成

次はデータベースのカラムを作成します。カラムとは項目ですが、タイトルはタイトルのカラム、カテゴリはカテゴリのカラム、本文のURLには本文のURLのカラムが必要です。今のレンタルサーバーはたいていphpMyAdminが使えるので、カラムの作成はphpMyAdminを利用しましょう。

スクレイピングデータがCSVファイルであれば、phpMyAdminにエクスポートしましょう。phpMyAdminの解説サイトは一杯あるので、初めて使う人は解説サイトを参考にしてください。

なおカラムは上記の三つだけではなく、ユーザーが自由にコメントを書き込めるコメント用のカラムも必要です。

プログラミング

カラムにデータを格納した後は、プログラミングです。プログラミングの方法は、関連サイトで勉強してください。ここでは流れだけ解説します。

プログラムはライブラリを使えば便利

とてもシンプルなサイトですが、ユーザーが自由に意見を交換できるのがウリです。アイディア次第では、もっともっと面白いサイトが制作できるので頑張ってください。

YouTubeのニュース番組をスクレイピングし英語教材を作成

YouTubeをスクレイピングし、英語の教材を作成しましょう。

対象の番組のURLをスクレイピングする

まずは対象の番組のURLをスクレイピングします。スクレイピングするのはこれだけなので、あまり手間はかからないと思います。問題は如何に英語のニュース番組を見つけるかですが、検索窓に「英語ニュース」と打ち込み検索するのが一番手っ取り早いです。

実際試しましたが、多くの英語によるニュース番組がヒットしました。これらの記事のURLを取得してデータベースに格納します。

独自の問題を作成する

次はニュース番組に関連する独自の問題を作成します。英語のライティング力がなければ無理ですが、英語に自信のある人は挑戦しましょう。問題もデータベースに格納します。

それからはページに動画と問題を表示しますが、三択クイズにしたら面白いと思います。あらかじめクイズの正解は、データベースのカラムに格納しておきます。

ユーザーが正解と思う文を選択したら、自動的に判定するようにプログラミングします。判定は条件分岐を使えば簡単です。

スポンサーリンク

ニュースサイトのスクレイピングはデータコレクターが便利

Bright Dataのデータコレクターは、ニュースサイトのスクレイピングにも便利です。以下ではデータコレクターの魅力を紹介します。

外国のIPアドレスが使える

データコレクター以外にも使い勝手の良いスクレイピングツールはありますが、外国のIPアドレスまで使えるスクレイピングツールは、データコレクターだけではないでしょうか?

アフィリエイト目的で外国のニュースサイトをスクレイピングすることはあると思いますが、外国のニュースサイトをスクレイピングするときは、現地のIPアドレスに乗り換えた方が無難です。

IPアドレスは通信時に必要

データコレクターは乗り換える方法が非常に簡単で、セレクトボックスから好きな外国のIPアドレスを選ぶだけです。

Bright Dataは外国の企業ですが、データコレクターはほぼ100%日本語化しています。そのため英語が苦手な人でも利用できます。(ただ外国のニュースサイトをスクレイピングするときは、英語力が必要)

スケジュール機能がある

ニュースサイトは定期的にスクレイピングした方がいいですが、その都度設定するのは面倒くさいものです。データコレクターは設定の保存もできるし、スクレイピングを実行する日時も指定することができます。

日時の指定はとても簡単で、慣れたら数分もかからないと思います。スケジュール機能を有しているスクレイピングツールは他にもありますが、データコレクターのスケジュール機能が一番使いやすいです。

Bright Dataの公式サイト

日本人の担当が確実に着くのは本ブログ経由の方のみになりますので、ご注意ください。こちらのサイトからお申し込みいただければ、間違いなく日本人担当がつきます

まとめ

スクレイピングとニュースサイトをテーマに解説をしましたが、グローバル化が進めば外国のニュースサイトをスクレイピングする人が増えてくると思います。

インターネットはグローバルビジネスにも便利な情報源ですが、スクレイピングしたら必要な情報だけ短時間で取得できます。

私は仕事柄いろいろな仕事受注サイトに登録していますが、スクレイピングの案件はかなり増えていると思います。

スクレイピングするときは·,是非ともBright Dataのデータコレクターを使ってください。きっと満足すると思います。

Bright Dataの公式サイト

日本人の担当が確実に着くのは本ブログ経由の方のみになりますので、ご注意ください。こちらのサイトからお申し込みいただければ、間違いなく日本人担当がつきます

 

 

モバイルバージョンを終了