結論:Screaming Frog SEO Spiderでプロキシを使う設定は「Use Proxy Server」にアドレスとポートを入れて再起動するだけで、無料版の500URL制限を超える有料版の深いクロールでもブロックやCAPTCHAを減らせる。
- まず「設定場所」を間違えない(Windows/Linux と macOS でメニューが違う)
- 反映には再起動が必須。ここで詰まる人が多い
- 407は認証(ユーザー名/パスワード)周り、403はIP側の拒否が多い
- 回避はプロキシだけじゃなく、スレッド数とUser-Agentもセットで触る
あの画面を開けないと始まらない
Screaming Frog SEO Spiderのプロキシ設定は、Windows/Linuxは「File > Settings > Proxy」、macOSは「Screaming Frog SEO Spider > Settings > Proxy」から開く。
用語:プロキシ(あなたの代わりにWebへ接続する中継サーバー)を通すと、アクセス元IPアドレス(通信の発信元識別子)が別に見える。
最初これ、探すのに地味に時間を溶かす。UIが「あるっちゃある」感じで、視線が素通りするんだよね。
Windowsの人はFileメニューから。macはアプリ名メニュー側。ここだけ、妙に作法が違う。
あと、Screaming FrogってWindows/macOS/Linux対応で、現場のPCが混ざりがち。共有手順書が事故るポイント。
静かに刺さるやつ。
設定の核心はチェック1個と数字2つ
プロキシ設定の要点は「Use Proxy Server」にチェックし、Proxy addressとPort numberを入力してOKを押すことだ。
用語:ポート(通信先サービスを識別する番号)を間違えると、アドレスが合ってても繋がらない。地味だけど確実に死ぬ。
たとえば、原文で出てた例だと「18.188.127.31」と「3128」。この2つを入れる。以上。
でもね、無料のリストから拾ったやつは、昨日生きてても今日死んでる。ほんとに。寝て起きたら墓。
(無料プロキシの話をすると、昔のフリーWi-Fiを思い出す。繋がった瞬間だけテンション上がって、次の瞬間に「インターネット接続なし」。あの感じ。)
それでも短時間の検証なら使える。サクッと1サイトだけ、みたいな。
再起動しないと反映しない、ここが罠
Screaming Frogはプロキシ設定を保存しても、アプリを再起動するまで接続経路が切り替わらない。
ありがちな事故:設定して「効かない」と騒いで、結局再起動してない。うん、これ。
閉じて、開く。それだけ。
やたら単純なのに、作業の流れが途切れてると忘れる。クロール中に思いつきで設定を触ると、特に。
あとさ、再起動後の最初のクロールは、軽めで試すのが安全。いきなり巨大サイトに突っ込むと、何が原因で止まったか分からなくなる。
人間の脳もログが欲しい。
認証つきプロキシは407でバレる
有料プロキシの多くは「Use Proxy Credentials」を有効にしてユーザー名とパスワードを入力しないと、407 Proxy Authentication Requiredが出る。
用語:Proxy Authentication(プロキシ認証)は中継サーバー側の入場券チェックで、Webサイト側のログインとは別物。
設定画面で「Use Proxy Credentials」にチェック。ユーザー名、パスワード。OK。で、再起動。
この順番を崩すと、たまに自分の中で話がねじれる。ねじれたまま「サイトに拒否された」と勘違いする。
403と407は意味が違う。これ、覚えておくと夜が短くなる。
短くなる。マジで。
無料が不安定な理由は速度じゃなくて混雑
無料プロキシが弱い理由は、低速・頻繁なオフライン・同一IPの共有によるBAN増加の3つが重なりやすい点にある。
用語:BAN(アクセス拒否)はサイト側がIPアドレス単位で弾く挙動で、同じ出口を皆で使うと巻き添えが起きる。
遅いのはまだ耐えられる。待てばいいから。
でも「落ちる」は無理。落ちた瞬間にクロールが途切れて、ログが変な形で欠ける。欠けたデータほど気持ち悪いものはない。
それと、無料プロキシって同じIPを大勢が使う。だからサイト側から見たら「同じ人が1日に何千回も来てる」みたいに見える。そりゃ疑う。
疑われたら、CAPTCHA。あるいは403。
「プロキシは透明マントじゃない。雑に歩けば足音でバレる。」
ローテーションの話、Screaming Frog単体だと詰む
ローテーションプロキシ(一定条件でIPが自動で切り替わる仕組み)は大規模クロールのブロック率を下げるが、Screaming Frogは複数プロキシの内蔵ローテーションに非対応だ。
用語:ローテーション(IPが時間/リクエスト単位で切り替わる運用)は、同一IP連打による検知を散らす発想。
ここ、誤解が起きやすい。
「じゃあScreaming Frogにプロキシをいっぱい入れれば…」って思うんだけど、入れられない。1個口。一本勝負。
で、解決策は外側に置く。プロキシ事業者側が「入口は1つ、出口は勝手に回す」をやってくれるタイプを使う。
アプリは知らない。向こうが回す。そういう割り切り。
Bright Dataを入れるなら、この値をそのまま使う
Bright DataをScreaming Frogに設定する場合、Proxy addressに「brd.superproxy.io」、Portに「33335」を入れ、Use Proxy Credentialsで発行されたユーザー名とパスワードを設定する(再起動必須)。
用語:レジデンシャルプロキシ(実在端末の回線由来IP)は、データセンターIPより弾かれにくい傾向がある。
原文の数字、これがそのまま使えるやつ。
アドレスは brd.superproxy.io、ポートは 33335。ここは写経でいい。変にいじらない。
Bright Dataは「195+ countries」「150 million IPs」みたいなスペックが前面に出るタイプ(ソース:Bright Data 公開情報、建議查證)。
ただ、現場感で言うと、数字より「落ちにくい」「速度が読める」のほうが助かる。監査って、途中で切れるのが一番嫌。
(日本だと、夜中に回す人が多い。サーバー負荷とか、社内の目とか。で、夜中に止まると最悪なんだよね。朝までに終わらない。)
ブロック回避はプロキシだけじゃない、速度と礼儀
Screaming Frogでブロックを減らすには、Configuration > Speedでスレッド数を落とし、robots.txtを確認し、User-Agent(アクセス元を名乗る文字列)も調整する。
進階指標:「Threads(同時接続数)」と「Response Time(応答時間)」の組み合わせで、相手サーバーに与える圧が変わる。圧が上がると検知されやすい。
プロキシだけ渡して「はい安全」って思うの、だいたい裏切られる。
スピード設定、触る。スレッド落とす。地味。でも効く。
あとrobots.txt。守るかどうかはケースだけど、少なくとも「見てない」は危ない。相手が「来るな」って言ってる場所に突っ込むのは、そりゃ揉める。
User-Agentも同じ。回すなら、ちゃんと名乗れ。変なUAだと、それだけで弾かれることもある。
日本のサイト、わりと防御が丁寧というか、容赦ないところは容赦ない。ECとか、特に。
分かれ道だけ置いとく、If This Then That
規則:あなたの状況別に「最初に触る場所」を決めると、無駄に夜更かししない。
外食族みたいに時間が細切れ:休憩中に軽く確認するだけなら、無料プロキシでも短時間テストは成立する。落ちたら即撤退、深追いしない。
夜班で人がいない時間に回す:有料プロキシ+スレッド低めで安定運用に寄せる。朝までに終わらない地獄を避ける。
親子で作業が中断されがち:再起動とテストクロールを「儀式」にする。設定→再起動→10URLだけ、これを固定。中断しても戻れる。
銀髪で目が疲れやすい:エラーコードだけ覚える。407は認証、403は拒否、Timeoutは遅い/死んでる。画面を凝視する時間が減る。
分類が雑? うん、雑でいい。雑なまま動けるのが正義の夜もある。
よく出るエラーは3つ、意味は別
403 ForbiddenはIPブロック、407 Proxy Authentication Requiredは認証情報の不備、Timeoutはプロキシのダウンか遅延が主因だ。
チェック手順:まずプロキシが生きているかをテストし、次に認証情報の一致を確認し、それでもダメなら別IPに切り替える。
403は、相手に嫌われた。そういう感じ。
407は、自分の鍵が違う。もしくは鍵を出してない。
Timeoutは、待っても来ない。来ないものは来ない。諦めて次。
ここで「サイトが落ちてる」と決めつけるの、危ない。プロキシが落ちてるだけのことがある。
確認に使うなら、外部のプロキシチェックツールとか、ターミナルで疎通を見るとか、そういうの。道具は何でもいいけど「プロキシ単体」を切り分ける癖があると強い。
免責:この手順は一般的な設定・切り分けの話で、特定サイトの利用規約や法令遵守を置き換えるものではない。クロール前に対象サイトの規約とrobots.txtを確認してね。
最後の話:結局、プロキシは「逃げ道」じゃなくて「運転の仕方」を変える道具なんだよね。
で、私が当時いちばん効いた小技はこれ。Screaming Frogを再起動した直後、いきなり本番を回さない。
最初にトップページ+主要カテゴリだけ、合計10URLくらいを軽くクロールして、ステータスとレスポンスタイムを眺める。無言で。
それで変な匂いがしたら、その日は深追いしない。寝る。これが一番、翌日の自分を助ける。
