翻訳文をスクレイピングする際のポイント

多言語サイト
多言語サイトで外国人を集客

サイトに掲載されている文章であれば、スクレイピングできます。(テキストの場合)

最近はブラウザに翻訳機能が搭載されるのが当たり前になっていますが、翻訳文もスクレイピングできます。

ただ翻訳文をスクレイピングするときは知恵が必要です。プログラミングできる人であればプログラミングで実現してもいいですが、本記事ではプログラミングなしで翻訳文をスクレイピングする方法を模索します。

翻訳文のスクレイピングは一筋縄ではない

翻訳文のスクレイピングは一見簡単そうですが、実は一筋縄ではありません。

アメリカ版のYahoo!で挑戦

アメリカ版のYahoo!というか、本家本元のYahoo!で試しました。

https://www.yahoo.com/

まずはサイトから任意の記事を選びます。

それからは右クリックで翻訳します。

アメリカのYahoo!
アメリカのYahoo!も翻訳できる

「日本語に翻訳」という文字をクリックすると、日本語に翻訳されたページが表示されます。

ブラウザには翻訳機能がある
ブラウザの翻訳機能は便利

少し不自然な日本語ですが、いとも簡単に英文が日本文に翻訳されました。翻訳できたのはブラウザに翻訳機能があるからですが、翻訳機能の種類はブラウザによって異なるみたいです。

今回はchromeを使って翻訳しました。

翻訳した後は、ソースを見ました。

翻訳文のソース
翻訳文のソースはjsonで書かれていた。

ソースに日本語の文章が書かれているのではないかと期待しましたが、ソースはJSON形式になっていました。

JSONは「JavaScript Object Notation」の略称ですが、データの受け渡しを簡単にするフォーマットです。

JSONを解読すれば日本文が出てくるかもしれませんが、今回は一般の人でも出来る方法はないかと考えました。

Excelで挑戦

もしかしてExcelだったら日本語を表示してくれるのではないかと思い挑戦しましたが、英語版しか表示できませんでした。

Excelで表示でき保存できたら再利用するときに便利だったのですが、あえなく撃沈です。このときに悟りました。

翻訳文のスクレイピングは一筋縄ではいかない・・・と

Excelでスクレイピング
Excelはweb上のデータも読み込む

翻訳されたページと元ページ(英語)のURLが別々であれば簡単だったかもしれませんが、チェックしたらURLは同じでした。

chromeの拡張機能が自動的に翻訳しているので、サイトそのものに変化がないのは当たり前のことでしたね。

最後に試したのがGoogle翻訳

最後に試したのがGoogle翻訳でした。Google翻訳はページごとの翻訳も可能なので、オプションでURLを指定しました。すると英語で書かれていたページは、日本文に翻訳されました。

ここまではメデタシなのですが、ソースを見るとJSON形式のままでした。

自動的に日本語に翻訳してくれて、自動的にスクレイピングしてくれるスクレイピングサービスがあればいいのですが、見つかりませんでした。

こうなればブラウザの翻訳機能を使ったあとは、日本文をそのままコピーした方が早いみたいですね。コピーしてから、必要なデータだけ抜き出せば済むことですね。

スポンサーリンク

翻訳文をスクレイピングするときの注意点

これからは翻訳文をスクレイピングする際の注意点を解説します。

翻訳の精度は完璧ではない

ブラウザや翻訳ツールを使えば外国語を日本語にすることは簡単ですが、翻訳の精度は完璧だとは言えません。

DeepLは比較的正確だと思いますが、それでもそのままビジネスで使うのは怖いです。現時点では完璧な翻訳は期待できないので、ビジネスで使うときは翻訳内容を精査した方がいいと思います。

精査した翻訳文を少しずつ積み上げていったら、ビジネスでは活躍すると思います。面倒臭い作業ですが、翻訳文を使い回す人は実行する価値があります。

許可されているかどうか確認

外国のサイトも、スクレイピングを禁止しているものがあるでしょう。翻訳ぐらいだったら問題はないと思いますが、スクレイピングとなると、反対する人が増えそうです。

外国のサイトにアクセスし内容をすべてスクレイピングしたら、多少なりともサイトに負荷がかかります。長時間のスクレイピングになると、遅延が発生し他の利用者に迷惑がかかる恐れがあります。

英語サイト
英語サイトでネイティブの英語を学ぼう

このようなことが考えられるので、外国のサイトをスクレイピングするときは、必ず許可しているかどうか確かめてください。

明確な記載がない場合は、問い合わせフォームで聞くのがマナーです。

それから外国と日本には時差があるので、日本時間を参考にスクレイピングするのではなく、現地の時間を参考にスクレイピングしましょう。

固有名詞だけスクレイピングするときはフィルター機能を使う

特定の固有名詞が含まれた文章だけスクレイピングするときは、フィルター機能があるスクレイピングツールが便利です。

キーワードを打ち込むだけなので操作は簡単ですが、巨大サイトの場合は、ドメイン単位でスクレイピングできるツールを使った方が効率的です。

フィルター機能を有するスクレイピングツールは有料のものが大半ですが、フィルター機能があれば凄く便利なので、ビジネスでスクレイピングする人は、是非とも有料のツールを選んでください。

翻訳文をスクレイピングしたらどんなメリットがあるのか?

翻訳文をスクレイピングするメリットを解説します。

多言語対応したサイトが構築できる

翻訳文をスクレイピングしたら、多言語化したサイトが構築できます。私は最近大阪周遊パスというチケットを購入しましたが、そのサイトも多言語対応していました。

多言語対応していたら外国人も読めるので、本当に助かると思います。ただ先ほども触れましたが、ブラウザ翻訳の質は完璧ではないので、後でチェックする必要があります。

多言語サイト
多言語サイトで外国人を集客

二度手間を省きたい人は最初から翻訳会社に依頼してもいいですが、一から依頼すればかなり高いと思います。

英語ができる人であれば自分で訂正し、それからプロの翻訳家にチェックしてもらうのも良い方法です。私は仕事柄、自分でも英文を書きますが、最終的にはプロの翻訳家にチェックしてもらっています。

この方法で完成を目指せば、さほど費用はかからないのでおすすめです。

外国語の専門用語の確認に役立つ

業種によっては外国語の専門用語に触れる機会が多いと思いますが、あらかじめ翻訳文をスクレイピングしておけば、専門用語の対比表が作成しやすいです。

一人ネイティブの人がいた方がいいですが、専門用語の機械翻訳は、とんでもない誤訳になる可能性が低いので、インターネットの翻訳ツールを使ってもいいと思います。

ただ契約書の場合はこの限りであらず、最初から翻訳会社に依頼した方がいいと思います。欧米の会社は契約社会なので、契約書に書かれたことを遵守します。そんな契約書は、一字一句正確に翻訳すべきです。

スポンサーリンク

原文をスクレイピングするときはドメイン単位で実行できるツール

原文をスクレイピングするときは、ドメイン単位でスクレイピングできるツールが便利です。理由は、大量の原文を一気に取得できるからです。

スケジュール
ブライトデータのデータコレクターは、スケジュール化できる

ドメイン単位で取得できなければ、数日かかるかもしれません。逆にサイトにもよりますが、ドメイン単位で原文を取得すれば、おそらく一時間もかからないでしょう。

取得した後は原文を整理し、翻訳ツールで翻訳してもいいし、直接翻訳してもいいでしょう。

Bright Dataの公式サイト

日本人の担当が確実に着くのは本ブログ経由の方のみになりますので、ご注意ください。こちらのサイトからお申し込みいただければ、間違いなく日本人担当がつきます

まとめ

翻訳文をスクレイピングする知恵について解説しましたが、まだまだ問題点がありました。今後は翻訳機能を兼ね備えた、スクレイピングツールが登場するかもしれません。その際は一定の正確性をキープしてほしいと思いますが、私は実現可能ではないかと思っています。

スクレイピングをするときは、是非とも本格的なツールを使ってほしいと思います。本格的なツールを使えば、かなり作業は捗りますよ。

Bright Dataの公式サイト

日本人の担当が確実に着くのは本ブログ経由の方のみになりますので、ご注意ください。こちらのサイトからお申し込みいただければ、間違いなく日本人担当がつきます