スクレイピングは何でも隠蔽してデータを抜き取るイメージがありますが、実際は足跡は残ります。
足跡の中にはポート番号もありますが、本記事ではスクレイピングとポート番号を深掘りしたいと思います。
ポート番号と聞くと専門的な領域を想像するかもしれませんが、本記事を最後まで読めば、ポート番号は身近な存在だと気付くでしょう。
目次
ポート番号の基本知識
これからはポート番号の基本知識に触れます。
ポート番号はIPアドレスに組み込まれている
IPアドレスは身近な存在だと思いますが、ポート番号はIPアドレスに組み込まれています。
IPアドレスとポート番号を組み合わせたネットワークアドレスをソケットと呼びますが、各種デバイスには、それぞれのソケットがあります。
実はIPアドレスだけでも相手を識別することはできますが、システムやソフトを使うときは、IPアドレスだけで通信をしたら不都合があります。
そのため、IPアドレス+ポート番号の組み合わせができたのでしょう。
身近なポート番号
身近なポート番号を整理しました。
- FTP – データ転送ポート 20番
- FTP – コントロールポート 21番
- Telnet 23番
- SMTP 25番
- DNS 53番
- HTTP 80番
- POP3 110番
- HTTPS 443番
比較的身近なポート番号を紹介しましたが、メーラーを設定するときに、ポート番号を指定することはあると思います。
私は秀丸メールを使っていますが、設定画面にはポート番号を指定する欄があります。
プロキシサーバー経由でスクレイピングをするときはポート番号を指定
プロキシサーバー経由でスクレイピングをする人は多いですが、その際はポート番号が必要です。
プロキシサーバーは外部のサーバーなので、インターネットを介して通信をしなくてはいけません。
通信時はプロキシサーバーの通信の出入り口を利用しますが、最近は8080番を使うプロキシサーバーが多いみたいです。
設定時はポート番号だけではなく、プロキシサーバーのURLも指定する必要があります。
スポンサーリンク
ポートスキャン攻撃には注意
自前のスクレイピングシステムを構築する人は、ポートスキャン攻撃に注意した方がいいと思います。
ポートスキャンの種類
ポートスキャンの種類に関しては、以下のサイトが詳しいです。
リンク先でもポートスキャンの方法について解説しているので、関心のある方は一読してください。
ポートスキャンされたらデータが盗まれたり、ウイルス攻撃される恐れがあるので、ポートスキャンには十分に注意してください。
リンク先にも書かれていますが、ポートスキャンを防ぐには不正侵入検知システム(IDS)の導入、ファイアウォールやセキュリティソフトが有効です。
webサーバーのポート番号を調べる方法
何らかの理由で、webサーバーのポート番号を知りたいことはあるでしょう。その際の方法を解説します。
専用のwebサービスを利用
一番簡単な方法は、ポート番号を調べてくれるwebサービスを利用することです。
https://mgt.jp/t/port#
こちらのサービスを利用すれば、簡単にポート番号は解ります。
webサーバー以外のポート番号も解るみたいですが、相手側のセキュリティ対策によっては、番号が返ってこない可能性があります。
コマンドで調べる
netstatコマンドを活用して、アクセス者のポート番号を知ることができます。
コマンドというと難しいイメージを持つかもしれませんが、コマンドプロンプトに「netstat」と貼り付けるだけなので簡単です。
ウインドウズには今でもコマンドプロンプトが残っていますが、昔のパソコンはコマンドで操作していました。
専用ソフトで調べる
ポート番号が解る専用ソフトがあるので、簡単且つ本格的に調べたい人は、それらのソフトを活用しましょう。
専門的ですが無料ソフトも多いので、気楽にインストールしてください。
最初は数字の意味が解らないと思いますが、好奇心を持って勉強すれば面白いですよ。
安全にスクレイピングしたい人はプロキシ付きのスクレイピングサービス
安全にスクレイピングしたい人は、プロキシ付きのスクレイピングサービスを利用しましょう。
スクレイピングはブロックされる可能性がある
ポート番号だけを知られてもブロックされることはないと思いますが、IPアドレスを知られたらブロックされる可能性があります。
「スクレイピングするのは自由でしょう」と思う人もいるかもしれませんが、一部のwebサービスは明示的にスクレイピングを禁止しています。
そのようなwebサービスを頻繁にスクレイピングしたら、ブロックされる可能性があります。
IPアドレスが一つしかなければ、今後はそのwebサービスにアクセスすることはできません。
しかしプロキシ付きのスクレイピングサービスを利用すれば、多くのIPアドレスを使い回すことができます。
ポートスキャン攻撃されても安心
プロキシ付きのスクレイピングサービスは、クライアントとwebサービスの間にプロキシサーバーが挟まる形になるので、ポートスキャンされてもプロキシサーバー業者が対応してくれます。
大手のプロキシサーバー業者はセキュリティ対策に慣れているので、ポートスキャン攻撃をブロックしてくれるでしょう。
ポートスキャン攻撃だけではなく、ウイルスやスパイウェアもブロックしてくれると思います。
大手のプロキシサーバーのインフラとソフトウェアは最新のため、安心して任せることができます。
常に最新の技術が活用できる
プロキシ付きのスクレイピングサービスを利用すれば、常に最新の技術に触れることができます。大手のサービスは凄く本格的で、最初は機能を覚えるのが大変なほどです。
新しい技術を活用するのは面白く、ついつい夢中になるでしょう。
大手のサービスはほぼ100%有料ですが、プランによっては無料もあります。ただ無料版には制限があり、すべての機能を活用したい人は、是非とも有料版と契約してください。
ポートの勉強は面白い
ポートは単なる通信の出入り口ですが、ポートを深く勉強すれば面白いですよ。
本屋で専門書を購入する必要はなく、インターネット上のサイトだけでも十分に勉強できますよ。
ポートについて勉強をすれば、必然的にネットワークにも強くなります。
スクレイピングもネットワーク技術を活用しているので、いつの日か学んだことを活かせる日がくるでしょう。
勉強といっても肩肘張る必要はなく、好奇心を持ちながら読み流せばいいです。
好奇心があれば、読み流しても結構頭に残るものです。
スポンサーリンク
まとめ
スクレイピングとポートについて解説をしましたが、ポートの概略はご理解いただけたでしょうか?
コンピューターの勉強というとプログラムをイメージする人が多いですが、実はネットワークの勉強人口も多いです。
ポートもネットワークの一部分です。
ネットワークの勉強はプログラムのようにロジックを組み立てることは少ないと思いますが、学べば学ぶほど面白くなりますよ。
本格的にスクレイピングをする人は、是非とも本格的なスクレイピングツールを使ってください。有料ですが、コストパフォーマンスは凄くいいです。