wikipediaをスクレイピングしユニークなサイトを制作

引用文
引用を明記しても全文掲載は駄目。

wikipediaはさまざまな情報や人物を取り上げているサイトですが、誇張なく真面目な内容です。

wikipediaの情報をスクレイピングしたら、自分だけのユニークなサイトが制作できるでしょう。

本記事ではwikipediaの情報をスクレイピングし、ユニークなサイトを制作するためのポイントを解説します。

wikipediaの情報をスクレイピングするポイント

ユニークなサイトを制作する前に、wikipediaの情報をスクレイピングするときのポイントを解説します。

著作権に気を付ける

著作権
スクレイピングするときは著作権に注意

wikipediaの情報を一度スクレイピングするぐらいであれば問題はないと思いますが、あくまでもwikipediaの情報であることを忘れてはいけません。

スクレイピングしたデータをデーターベースに保存することはあると思いますが、データベースに保存した途端、著作権のことを忘れることがあります。

著作権の区別を付けるため、データベースに保存するときは、他のデータを混ぜないことが大切です。

カテゴリー分けする

wikipediaの情報をデータベースに保存するときは、カテゴリー分けしたら便利です。

カテゴリー分けするのは簡単で、カテゴリー用のカラムを一つ増やすだけです。

データベースの使い方はここでは解説しませんが、今のデータベースはGUIで操作できるので簡単です。

データベース
GUIベースのデータベースにはAccessがある

カテゴリー分けしたら、見やすいサイトになるのは言うまでもありません。

インターネットユーザーは面倒臭い操作を嫌う傾向にあるので、カテゴリー分けすることは大切です。

魅力的なタイトルを作成する

データベースにはタイトルのカラムも作成しましょう。

wikipediaにもタイトルはありますが、あまりにもベタなので訴求力にかけます。

wikipediaにはジャニーズ事務所というタイトルがありますが、このままだったらユーザーの関心を引くことはできません。

タイトルは大切
タイトルが良ければ読んでもらえる

「ジャニーズは復活するのか?」

これはタイトルの一例ですが、ユーザーが関心を抱きそうなタイトルを考えて、データベースに保存してください。

ユーザーの関心を引くタイトルを付けるのは難しいですが、人気ブログサイトで研究したり、コピーライティングの解説書を読めば、少しずつ上手になると思います。

引用であることを明記する

「著作権には気を付ける」の見出しとかぶりますが、サイトでwikipediaの情報を紹介するときは、必ず引用元であるwikipediaのURLを記載してください。

WordPressだったら引用のためのパーツがあるので、そこにwikipediaのURLを記載したらいいでしょう。

ただ全文を掲載するのはよくないと思います。

引用文
引用を明記しても全文掲載は駄目。

少しぐらいであれば目を瞑ってくれると思いますが、全文を掲載するとwikipediaを利用したサイトになってしまうので、wikipedia側もいい気持ちはしないはずです。

wikipediaにはさまざまな情報がありますが、本当に必要な情報を取捨選択してください。

スポンサーリンク

wikipediaをスクレイピングする方法 

wikipediaをスクレイピングする方法を解説します。

既存のスクレイピングツールで十分

wikipediaのソースを見る限り、オリジナルのスクレイピングツールは不要です。

パスワード認証がなくソースが比較的単純なので、既存のスクレイピングツールで十分です。

データによっては無料のスクレイピングツールでも間に合いますが、効率性を考えたら有料の本格タイプのスクレイピングツールをおすすめします。

たいていのスクレイピングツールには無料期間があるので、その間に使い心地と機能を確かめてください。

末尾の文字だけを入れ替える

https://ja.wikipedia.org/wiki/%E4%BA%95%E4%B8%8A%E9%99%BD%E6%B0%B4

最後の意味不明の文字は日本語をエンコードしたもので、日本語の文字は「井上陽水」です。

私は最後の日本語の文字を「吉田拓郎」に入れ替えましたが、すると吉田拓郎のwikipediaページに移行しました。

ブログ
ブログランキングはページングで表示されている

webプログラムをかじったことがある人は、簡単な仕組みだと思うでしょう。

この原理を利用して、最後のタイトルだけ入れ替えましょう。

かなりスピードアップすると思います。

リンク先のアドレスもスクレイピング

wikipediaというとリンクの多さで有名ですが、リンク情報も取得したい人は、リンク先のアドレスもスクレイピングしましょう。

wikipediaのソースを見るとリンクタグが使われているのが解りますが、リンクタグをスクレイピングしたら、リンク先のタイトルも取得できるでしょう。

自分のサイトで再現するときはデータベースの知識と、プログラミングの知識が必要ですが、少し勉強すれば誰でも習得できるような内容です。

レコード情報はExcelで挑戦

wikipediaは有名人の記録や作品情報も掲載していますが、テーブルタグを使って掲載しているケースが圧倒的です。

このようなデータだけをスクレイピングしたい人は、Excelで挑戦してもいいと思います。

私は以前Excelで挑戦したことがありましたが、簡単にスクレイピングできました。

Excelでスクレイピング
Excelでスクレイピングするときは、対象のデータを選択

Excelでのスクレイピング方法は解説サイトがあるので、参考にしてくださいね。

最初は少し戸惑うかもしれませんが、慣れたらメチャクチャ簡単ですよ。

スポンサーリンク

wikipedia情報を盛り込みユニークなサイトを制作する流れ

wikipedia情報を盛り込み、ユニークなサイトを制作しましょう。

スクレイピングツールの使い方をマスター

なにわともあれ、wikipedia情報をスクレイピングするのが先決です。

wikipedia情報をスクレイピングするときは、本格タイプのスクレイピングツールをおすすめします。

本格タイプの操作はややこしいと思うかもしれませんが、実は本格タイプの方が操作は簡単です。

無料のスクレイピングツールにありがちな、面倒臭い書式はありません。

Bright Dataの公式サイト

日本人の担当が確実に着くのは本ブログ経由の方のみになりますので、ご注意ください。こちらのサイトからお申し込みいただければ、間違いなく日本人担当がつきます

データベースの勉強

wikipedia情報はデータベースに格納した方が何かと便利です。

データベースの勉強は単独でするのではなく、接続言語と一緒に勉強することをおすすめします。

データベースを操作するSQL言語はシンプルな構文なので、使いながら覚えたらいいと思います。

プログラム
プログラムは解説書が大切

wikipedia情報を、上手に出力する方法も工夫しましょう。

PHPにはデータベース関係の関数が多いので、出力するときは便利です。

スタイルシートの知識がある人は、デザインにも気を配りましょう。

おしゃれなデザインは、閲覧者の姿を和ませますよ。

まとめ

wikipedia情報をスクレイピングし、ユニークなサイトを制作するためのポイントを解説しました。

wikipedia情報を自分のサイトに掲載するのは簡単ですが、効率的に掲載するためには、データベースの知識も必要だと解説しました。

本格タイプのスクレイピングツールを使い、必要に応じてデータベースと接続言語の勉強をしましょう。

スクレイピングツールの中には、開発者用のスクレイピングツールもあります。

そのようなツールを活用すれば、効率的に開発できますよ。

Bright Dataの公式サイト

日本人の担当が確実に着くのは本ブログ経由の方のみになりますので、ご注意ください。こちらのサイトからお申し込みいただければ、間違いなく日本人担当がつきます

 

 

 

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)