Cloudflareが/crawlエンドポイントをリリースして、みんなが大騒ぎしてる。


落ち着け。実際にそれが何なのか、何じゃないのか、そしてなぜたぶんそれが必要ないのかを教えよう。

/crawlエンドポイントはラッパーだ。URLを渡すと、Cloudflareのインフラ上でヘッドレスブラウザを起動して、リンクをたどって、JavaScriptをレンダリングして、マークダウンかJSONを返す。すべて1つのAPI呼び出しで。

かっこいいけど、革新的じゃない。

Firecrawlがこれやってる。Crawl4AIがこれやってる。Spiderがこれやってる。数ヶ月前からやってた。Cloudflareは既存のBrowser Renderingプロダクトに追加しただけで、みんなクローリングを発明したみたいに騒いでる。

面白いのはこれだ:Cloudflareだってのは、つまり安い($0.09/時間)だ。

ただし、実際のところ、たぶんクローラーすら必要ない。

AIエージェントがウェブページを読む方法は8つある。ほとんどの人は複雑なのに飛び込んでしまうが、50msのHTTPリクエストで済む話だ。だから最もシンプルなやつから最もやり過ぎなやつまで、全部分解してみよう。

1. 生のHTTPフェッチ
エージェントがリクエスト送って、HTMLが返ってくる。それだけ。
本を印刷されたページじゃなくソースコードで読むようなもの。シンプルなサイト、ブログ、wiki、ドキュメントに最適。JavaScriptでコンテンツを読み込む何かに対しては壊れる。
速度:約50ms。コスト:無料。

2. Readabilityパーサー
同じことだけど、クリーニングステップがある。ナビバー、広告、フッター、クッキーバナーを削除。きれいなマークダウンで記事テキストだけをくれる。

JavaScriptでレンダリングされたコンテンツは処理しない。だけど記事とドキュメントには完璧で、これが毎日使ってるやつだ。
速度:約100ms。コスト:無料。

3. ヘッドレスブラウザ(ローカル)
人間のようにページを読み込む見えないChromeを起動する。JavaScriptが走って、コンテンツがレンダリングされて、すべてが読み込まれる。クリック、スクロール、フォーム入力、ログインができる。

問題:遅い(2~10秒)、インスタンスあたり約200MBのRAMを消費、そしてインフラを管理する必要がある。

ツール:Playwright、Puppeteer、Selenium。

4. クラウドブラウザAPI
#3と同じだけど、他の誰かがブラウザを実行する。URLを送ると、レンダリングされたページが返ってくる。ここにCloudflareの/crawlが住んでて、BrowserbaseとSteelと一緒にいる。

インフラの悩みなし、簡単にスケール、安い。トレードオフ:インタラクションの制御が少なくなる。

5. 管理型スクレイピングAPI
これはボット対策戦争階層。ScrapingBee、Bright Data、ローテーティングプロキシ、CAPTCHA解決、住宅用IP。サイトが積極的にあなたと戦ってる時。

動く。月額$49~499+かかる。

6. AI原住民クローラー
Firecrawl、Crawl4AI、Spider。クロール+レンダリング+自動でクリーンなマークダウン/JSONに変換。RAGパイプライン用に構築。自然言語で抽出スキーマを定義。

「新しい波」がCloudflareが今競争してる相手。

7. LLM抽出
コードをスキップ。ページコンテンツをLLMにダンプして、「価格は何?」と平易な英語で聞く。CSSセレクタなし、正規表現なし、サイトがリデザインされた時のメンテなし。

欠点:スケールで高い(トークンが溜まる)。メソッド1~6でクリーニング後の最終ステップとして最適。

8. 公式API
みんなが忘れるやつ。X、Reddit、ほとんどのSaaS、APIがある。構造化データ、パースなし、ボット対策ゲームなし。APIが存在する時、それが常に正解。

良い設定は2~3を組み合わせる:

→ フェッチ → readability → 安い記事抽出用LLM

→ クラウドブラウザ → JavaScript多量サイト用LLM

→ DevToolsで実際のAPIを嗅ぎ出す → それを直接呼び出す、聖杯、無料、最速、最も信頼できる

→ AIクローラー → 全知識ベース用ベクトルDB

月10,000ページあたりの実際のコスト

• HTTPフェッチ:無料
• Jina Reader:無料
• Cloudflareブラウザ:約$0.90
• Spider:約$4.80
• Firecrawl:$47/月
• ScrapingBee:$49~147/月
• Bright Data:$499+/月

従う2つのルール:

シンプルから始める。API > フェッチ > readability > ブラウザ。シンプルなメソッドが失敗した時だけ複雑さを追加する。curlが機能するサイトのためにPlaywrightを起動してる人をよく見る。

ほとんどのサイトはJSレンダリングが必要ない。ウェブの60%以上は静的またはサーバーレンダリング。シンプルなフェッチでテストしてから。
原文表示
post-image
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン