スクレイピング技術は英語圏で生まれました。ところで英語圏には、どのようなスクレイピング関連の記事があるのでしょうか?
本記事のタイトルは「英語で見るスクレイピングの世界」ですが、アメリカ版のYahoo!などを通してスクレイピングの世界と見たいと思います。焦点はどのような記事が、上位に表示されているかです。
英語圏のスクレイピング関係の記事を見ると、スクレイピングビジネスの参考になるかもしれませんよ。なお私はある程度の英語は読めますが、不明な英語は英英辞典または英和辞典で調べました。
目次
英語圏のスクレイピングの世界
これからは英語圏のスクレイピングを見ていきます。
英語版の検索サイトを使う
英語圏に住まずスクレイピングの世界を知るには、英語の検索サイトが便利です。今回はアメリカ版のYahoo!を使います。
https://www.yahoo.com/
日本のYahoo!と同じように、上部に検索窓があります。スクレイピング関連の記事を読むときは、検索窓にキーワードを打ち込んでください。どのようなキーワードがいいのかは、次の章で解説します。
scrapingで検索しても駄目
スクレイピングの英語であるscrapingで検索しました。ところが語句の説明や、関係のないツールが紹介されていました。
検索キーワードが失敗したようです。今度はscrapingの前に「web」を付けて検索しました。
今度は成功しました。
一番上位に表示されたのは、スクレイピング代行業者のページでした。二番目の記事は、スクレイピングのAPIを提供している会社の記事でした。三番目と四番目のサイトは、スクレイピングサービスでした。
五番目のサイトはAmazonの本をスクレイピングし、それを整理して提供しているスクレイピング業者のサイトでした。
こうしてみるとアメリカのYahoo!は、スクレイピング業者の記事を上位表示させているみたいですね。ただお金を出して、上位に表示させてもらっている可能性も否定できません。
7番目のサイトはWikipediaで、スクレイピングについて解説していました。
スクレイピング関係の英書を読む
https://www.oreilly.com/library/view/web-scraping-with/9781491985564/
スクレイピング関係の英書を探したら、上記の本が見つかりました。
この本の表紙に見覚えがあると思ったら、日本語に翻訳されていましたね。
スクレイピングは英語圏で生まれたせいか、スクレイピングを扱う英書は多そうですね。
シンガポールのYahoo!もチェックした
シンガポールも英語を使っているので、シンガポールのYahoo!でも調べました。アメリカのYahoo!のようにスクレイピング業者は上位表示されていませんでしたが、スクレイピング関係の記事は多く表示されていました。
参考のため画像を掲載します。
画像を見るとアメリカほどではないにせよ、シンガポールでもスクレイピングは関心をもたれているようですね。シンガポールはビジネスの効率性を大切にする国なので、スクレイピングとは相性がいいようです。
スポンサーリンク
英語でスクレイピングを学ぶ意義と方法
英語でスクレイピングを学ぶ意義はあるのかを考察します。
基本的には意義はない
基本的には英語でスクレイピングを学ぶ意義はありません。スクレイピングの目的は世界共通で、わざわざ英語で学ぶ必要がないからです。しかし英語のサイトを閲覧する意義はあると思います。
英語のサイトを閲覧することで、ニュービジネスが見つかる可能性もあるし、最新の技術に触れることができる可能性もあります。特に技術面では大切です。コンピューターの新しい技術は英語圏から来ることが多く、スクレイピングも例外ではありません。
先ほど紹介した「pythonによるWebスクレイピング」も、英語圏の著者が書いた解説書です。ただ英書を読むときはかなりの読解力が必要なので、誰にでもおすすめできる方法ではありません。
技術目的の人はキーワードだけ理解できたらいい
本当は英語を英語のまま理解できる読解力があれば一番ですが、中学生程度の英語力しかない人は、キーワードだけ翻訳すればいいと思います。インターネット上にはオンライン辞書があるので、不明な単語はオンライン辞書で確かめましょう。
ただ英和辞典の翻訳と、実際にスクレイピングの世界で使われている単語の意味が異なることはあります。その際は推測で真の意味を探るしかないですが、英書を何冊も読むと自然に推察力が鍛えられます。
読む英書はペーパバックでも構いません。できたらコンピューター関係の、ペーパーバックがいいでしょう。Amazonで探せば必ずあると思います。
スポンサーリンク
英語が苦手な人は日本語化したスクレイピングツールを使う
英語ができる人は英語圏のスクレイピングツールを使ってもいいですが、英語が苦手な人は日本語対応したスクレイピングツールを使いましょう。日本の会社が開発したスクレイピングツールは当然マニュアルも日本語で書かれていますが、英語圏で開発されたスクレイピングツールの中には、マニュアルの日本語化が進んでいないものがあります。
英語圏で開発されたスクレイピングツールはいろいろありますが、Bright Dataはかなり日本語化が進んでいます。
こちらの動画はBright Dataのスクレイピングツールの使い方を解説していますが、98%以上は日本語です。
Bright Dataはスクレイピングの知識がなくてもデータが収集できる、ライブデーターセットというサービスも提供しています。
データコレクターは一般的なスクレイピングツールで一部は英語が使われていますが、こちらの動画を参考にすれば英語が苦手な人でも大丈夫です。
Bright Dataは英語圏のサイトをスクレイピングするときに便利
Bright Dataは日本語化が進んでいるのもメリットですが、英語圏のサイトをスクレイピングするときも便利です。便利な理由は、海外のIPアドレスを多く保有しているからです。
スクレイピングの経験者は実感していると思いますが、何らかの理由でアクセスが禁止されることはあります。特に海外からアクセスしている人は、要注意です。海外からアクセスしているだけで、警戒心を抱くのは人間の自然な感情なのかもしれません。しかしビジネスでスクレイピングをする人は、困りますね。
Bright DataはアメリカやイギリスのIPアドレスも保有しているので、英語圏のサイトをスクレイピングするときは助かると思います。先ほどの動画でもIPアドレスを指定している箇所がありますが、簡単にIPアドレスが変更できるのは大きな魅力ですね。
法人だけですが、Bright Dataは無料体験できます。操作感を確かめたい人は、是非とも無料体験を申し込んでください。
まとめ
英語圏のスクレイピングの世界を見ましたが、想像以上に英語圏ではスクレイピングが注目されていましたね。スクレイピングはホットな技術ですが、最近はスクレイピングプログラムができる人が重宝されるようになってきました。
しかし単にデータを効率的に集めるだけであれば、既存のスクレイピングツールで十分です。一番のおすすすはBright Dataのスクレイピングツールですが、Bright Dataのスクレイピングツールは本当にユーザーフレンドリーです。
関心のある方は一度試してほしいと思います。Bright Dataにはいろいろなプランがあるので、操作後はプランを検討してください。プラン選びに迷っている人は、営業員に気楽に相談してくださいね。押しつけはないので、安心して相談してください。