スクレイピングでリンクタグを取得するのは簡単です。リンクタグを取得するスクリプト(プログラム)は、昔からあったと思います。昔からあったのは、技術的に難しくないからでしょう。
ところでスクレイピングでリンク内容を取得したら、どのようなメリットがあるのでしょうか?本記事ではリンク内容を取得する方法だけではなく、リンク内容をビジネスに活用する方法についても解説します。
目次
リンクタグの整理
これからはリンクタグの整理をします。リンクタグの種類が解れば、スクレイピングは簡単です。
リンクタグの種類
<a href=”sample.html”>サンプル</a>
これはもっともオーソドックスなリンクタグですね。外部のURLをリンクしているのではなく、内部のファイルをリンクしています。
内部サイトの中にsample.htmlというファイルがあり、それをリンクしているだけです。
<a href=”https://www.yahoo.co.jp/”>Yahoo!</a>
このように書けば、Yahoo!をリンクすることができます。リンク集サイトは、外部のURLをリンクしています。
Javaスクリプトを使ってもリンクできます。
<p ondblclick=”location.href=’https://www.yahoo.co.jp/'”>Yahoo!</p>
Javaスクリプトにはさまざまなリンク方法があるので、関心のある方は関連サイトを読んで研究してください。
リンクタグを見つける方法
基本的なリンクタグは解説しましたが、ここではどのようにリンクタグを見つけたらいいのかを解説します。
http://www.linksyu.com/
こちらのサイトを、題材にさせていただきます。
ソース画面にしたら解りました。
<a href>を使っていました。
今回は目星をつけて最初から<a href>というタグを探しましたが、目星がつかない場合は、ソース画面からリンクの文字を検索したら見つかると思います。
スポンサーリンク
リンク内容をスクレイピングしビジネスを展開しよう
リンク内容をスクレイピングしたら、どのようなビジネスが展開できるのでしょうか?いろいろなアイディアを紹介します。
マニア向けのリンク集でアフィリエイト収入
リンク集サイトに人を集めたら、アフィリエイト収入が見込めます。しかしリンク集の内容は、吟味しなければいけません。探せば直ぐに解るようなサイトをリンクしても、ユーザーはあまり有り難みを感じることはないでしょう。
マニア向けのサイトであれば、ユーザーは有り難みを感じると思います。マニアは欲しい商品のためには何度でもアクセスしてくれるので、アフィリエイト収入が見込めます。
アフィリエイト商材はGoogleアドセンスが向いていると思いますが、Googleアドセンスには審査があります。最近は審査が厳しいらしいです。
会社情報を集めたリンク集でアフィリエイト収入
会社情報を集めたリンク集サイトも、アフィリエイト収入が期待できます。転職関係のアフィリエイト商材は、コミッションが大きいです。一つでも成約が決まれば、そこそこまとまった収入が入ってきます。
問題は如何に魅力的なサイトにするかですが、まずはユーザー目線で考えましょう。ユーザーが知りたいのは会社名ではなく、会社の魅力です。会社の魅力を伝えるためには、独自のコンテンツが必要です。
運営者は会社の魅力を伝えるため、広く情報収集しましょう。Twitterに当たれば本音の情報が見つかるかもしれません。会社情報を集めたリンク集は、今後も期待できます。
海外の観光情報を集めたリンク集でアフィリエイト収入
海外の観光情報を提供しているサイトを集め、アフィリエイトしましょう。ただライバルが多い分野なので、徹底的にユーザー目線のサイトにすることが大切です。
ユーザーは現地のお得情報も知りたいので、観光情報内にお得情報を追加したらいいと思います。お得情報は自分の足で探すのが基本ですが、難しい場合はインターネットで見つけましょう。
現地に友達がいたら、現地の友達からお得情報を仕入れてもいいでしょう。お得情報を頻繁に更新すれば、リピーターが増え結果的にアフィリエイト収入も増えるでしょう。
外国の仕入れサイトを集め課金ビジネス
外国の仕入れサイトを集めるのも面白いです。問題は如何に外国の仕入れサイトを見つけるかですが、地道に探すしかありません。
外国の仕入れサイトがある程度集まったら、課金制のビジネスにしたらいいと思います。プログラミングができる人は、マッチングサービスを考えてもいいかもしれません。
外国の仕入れサイトを見つける方法ですが、現地の貿易センターに当たったら効率的に見つけることができるでしょう。
スポンサーリンク
大規模なサイトはドメインごとスクレイピングする
大規模なサイトは、ドメイン単位でスクレイピングした方がいいです。
まずはドメイン単位でスクレイピングできるツールを探す
ドメイン単位でスクレイピングできるツールがなければ、何も始まりません。そのため最初に、ドメイン単位でスクレイピングできるツールを探してください。
ドメイン単位でスクレイピングできるかどうかは、スクレイピングツールのマニュアルを読むしかないですが、マニュアルに書かれていない場合は無料体験のときに確かめてください。
一般的にURLを指定する有料のスクレイピングツールは、ドメイン単位でスクレイピングできるものが多いですが、中にはスクレイピングできないものもあるので注意が必要です。
スクレイピングする範囲を見極める
ドメイン単位でスクレイピングできるツールを見つけた後は、スクレイピングする範囲を決めましょう。
https://www.yahoo.co.jp/
Yahoo!ジャパンのトップの内容をスクレイピングしようと思えば、上記のURLを指定すればいいですが、Yahoo!ニュースの場合は以下のURLを指定します。
https://news.yahoo.co.jp/
URLを注意深く観察し、スクレイピングする範囲を決めることは大切です。スクレイピングする範囲を絞り込まなければ、無駄なデータまで取得してしまいます。
無駄なデータまで取得すれば、後で整理するのが大変です。
スクレイピングした後はCSVファイルで出力する
スクレイピングした後は、CSVファイルで出力すれば後々便利です。CSVファイルはExcelでも読み込むことができるし、プログラムで活用するときも便利です。
多くの有料のスクレイピングツールはCSVファイルで出力できるようになっていると思いますが、念の為に契約する前に確かめてください。
CSVファイルをExcelで読み込んだときに文字化けが発生したら、文字コードの不一致の可能性があります。その場合は無料の編集ソフトなどを使い、文字コードを変換してください。
まとめ
スクレイピングでリンク内容を取得する意義と方法を解説しましたが、リンク内容をスクレイピングすることは簡単です。しかし取得したリンク情報を活用する知恵がなければ、せっかくのスクレイピングが無駄になります。
インターネット上にはスクレイピングを解説した記事は多いですが、スクレイピングデータを活用する方法を解説した記事は少ないと思います。本記事ではスクレイピングデータをビジネスに活用する方法も解説しましたが、関心のある方は参考にしてください。