なぜ不動産データの取得がこれほど難しいのか
不動産アナリティクスチームにとって、リスティングデータは生命線です。投資物件の発掘、市場トレンドの可視化、iBuyerの価格モデリング——いずれもリアルタイムのデータなしでは成り立ちません。しかし、Zillowは1分間に数十リクエスト送るだけでCAPTCHAを表示し、RightmoveはデータセンターIPを即座にブロックします。
この記事では、主要リージョンのターゲットサイト、取得可能なデータ項目、レジデンシャルプロキシが不可欠な理由、そしてスケール可能なクローリングアーキテクチャの設計まで、実務に即して解説します。
リージョン別ターゲットサイト一覧
不動産データの収集先は、対象市場によって大きく異なります。以下は主要リージョンの代表的プラットフォームです。
| リージョン | サイト | 月間PV(概算) | ブロック強度 | 主要データ |
|---|---|---|---|---|
| 🇺🇸 米国 | Zillow | 2.5億+ | 非常に高い | 価格・履歴・Zestimate・学校評価 |
| 🇺🇸 米国 | Realtor.com | 1億+ | 高い | MLS連携データ・価格履歴 |
| 🇺🇸 米国 | Redfin | 5,000万+ | 中〜高 | 価格履歴・Walk Score・売却日数 |
| 🇬🇧 英国 | Rightmove | 1.3億+ | 非常に高い | 価格・賃料・物件タイプ・エージェント |
| 🇬🇧 英国 | Zoopla | 5,000万+ | 高い | 価格履歴・賃料推移・近隣情報 |
| 🇩🇪 ドイツ | ImmoScout24 | 3,000万+ | 高い | 価格・Wohnfläche・構造・エネルギー評価 |
| 🇫🇷 フランス | LeBonCoin Immobilier | 4,000万+ | 中 | 価格・面積・DPE・写真 |
米国:Zillow・Realtor.com・Redfin
米国市場では3大プラットフォームがシェアを争っています。ZillowはZestimate(独自推定価格)と豊富な価格履歴が魅力ですが、最もアンチスクレイピング対策が厳格です。Realtor.comはMLS(Multiple Listing Service)の直接連携データを持ち、正確性に優れます。Redfinは独自の売却日数(Days on Market)や価格ドロップ履歴を公開しており、市場の需給分析に不可欠です。
英国:Rightmove・Zoopla
Rightmoveは英国の圧倒的マーケットリーダーです。データ量は豊富ですが、データセンターIPからのアクセスを即座に遮断するため、レジデンシャルプロキシなしでは実質的にスクレイピング不可能です。Zooplaは価格履歴や賃料の推移データに強みがあり、補完的なデータソースとして有用です。
ドイツ・フランス:ImmoScout24・LeBonCoin
ドイツのImmoScout24はEnergieausweis(エネルギー効率証明書)データを含むため、ESG分析に活用できます。フランスのLeBonCoin Immobilierは分類広告サイトからの派生であり、DPE(Diagnose de Performance Énergétique)や個人売主物件のデータが取得可能です。
取得可能なデータ項目
各サイトから取得できる主なデータ項目を分類します。
リスティングメタデータ
- 物件基本情報:住所、郵便番号、物件タイプ(戸建/マンション/他)、築年、床面積、部屋数
- 価格データ:現在の掲載価格、当初価格、価格変更履歴、Zestimate/推定価格
- 市場指標:Days on Market、価格ドロップ回数、類似物件との比較
周辺・属性データ
- 学校評価:GreatSchools評価スコア(Zillow)、学区情報
- 交通・利便性:Walk Score / Transit Score(Redfin)、最寄り駅までの距離
- エネルギー評価:Energieausweis(ImmoScout24)、DPEラベル(LeBonCoin)
メディア・エージェントデータ
- 写真URL:リスティング画像の高解像度URL群、バーチャルツアーリンク
- エージェント情報:不動産仲介業者名、担当者名、連絡先、過去の取引実績
- 価格履歴:過去の販売記録、税務評価額、所有者変更履歴
実務上のポイント:価格履歴とDays on Marketは、単一リスティングページのHTML内にJSON-LD構造化データとして埋め込まれていることが多く、ページレンダリングなしで抽出可能です。ただし、Zillowの価格履歴APIエンドポイントは頻繁に変更されるため、定期的な監視が必要です。
なぜレジデンシャルプロキシが不可欠なのか
「scrape Zillow」を試みた開発者の多くが、最初の数百リクエストでブロックに遭遇します。その理由を技術的に理解しましょう。
データセンターIPの検出メカニズム
ZillowとRightmoveは、以下の複合シグナルでデータセンターIPを検出します。
- ASNルックアップ:AWS・GCP・AzureなどのクラウドプロバイダーASNをブラックリスト化
- IPレピュテーションDB:過去にスパム・スクレイピングで報告されたIPを累積的にブロック
- 行動パターン分析:1IPからのリクエスト頻度、ページ遷移パターンの異常検知
- ブラウザフィンガープリント:TLSフィンガープリント、HTTP/2設定の不一致を検知
レジデンシャルプロキシの利点
real estate scraping proxiesとしてレジデンシャルプロキシを使用すると、リクエストが実際のISP接続から発信されているように見えます。これは単なるIPの変更ではなく、トラフィックパターンの正規化を意味します。
- ブロック回避率の劇的向上:データセンターIPで1〜2%の成功率が、レジデンシャルIPで95%以上に
- ジオターゲティング:対象国のIPからアクセスすることで、ローカルユーザーと同じコンテンツを取得
- ステッキーセッション:同一IPで複数ページを閲覧する自然な行動パターンを再現
ProxyHatのレジデンシャルプロキシを使った基本的なリクエスト例:
# Zillowスクレイピング(米国IPでアクセス)
curl -x http://user-country-US:PASSWORD@gate.proxyhat.com:8080 \
"https://www.zillow.com/homedetails/1234-example-st/12345_zpid/" \
-H "User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36" \
-H "Accept: text/html,application/xhtml+xml"
RightmoveのRightmove data extractionでは、英国IPが必須です:
# Rightmoveスクレイピング(英国IPでアクセス)
curl -x http://user-country-GB:PASSWORD@gate.proxyhat.com:8080 \
"https://www.rightmove.co.uk/properties/123456789/" \
-H "User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36"
クローリングアーキテクチャの設計
プロダクションレベルの不動産データパイプラインは、単なるスクレイピングスクリプトではなく、geo分散クローリング、重複排除、価格履歴追跡、写真アセット管理を統合したシステムです。
1. Geo分散クローリング層
各リージョンのサイトには、その国のIPからアクセスする必要があります。アーキテクチャの最上層でリクエストをジオルーティングします。
- 米国サイト→
user-country-USでルーティング - 英国サイト→
user-country-GBでルーティング - ドイツサイト→
user-country-DEでルーティング(都市レベル:user-country-DE-city-berlin) - フランスサイト→
user-country-FRでルーティング
リクエストの同時実行数は、対象サイトのレート制限に基づいて調整します。Zillowでは1IPあたり毎分10〜15リクエスト、Rightmoveでは毎分5〜8リクエストが安全な上限です。
2. リスティング重複排除
同一物件が複数サイトに掲載されているケースは日常的です。ZillowとRealtor.comで同じMLS番号の物件が重複している場合、以下の手法で統合します。
- 正規化された住所マッチング:住所文字列をジオコーディングして緯度経度ペアに変換し、50m以内の物件を同一候補としてグループ化
- MLS番号の照合:MLS番号が取得可能な場合、確実な一意キーとして使用
- 複合スコアリング:住所 + 床面積 + 部屋数の組み合わせでファジーマッチ
3. 価格履歴追跡
価格の変遷は、投資判断において最も価値のあるデータです。各リスティングのスナップショットを日次で取得し、価格変更を検出します。
- 初回価格:リスティング発見時の価格をベースラインとして記録
- 価格変更イベント:日次クロールで前回との差分を検出し、変更日時・変更前価格・変更後価格を記録
- 売約済み価格:ステータスが「Sold」に変わった時点で最終価格を確定
4. 写真アセットストレージ
物件写真はAIモデルのトレーニングデータや、物件状態の比較分析に使用されます。
- 画像URLの収集:各リスティングから全画像URLを抽出
- オブジェクトストレージへの保存:S3/GCSに元画像を保存し、メタデータと紐付け
- 重複排除:画像のPerceptual Hash(pHash)で同一写真の重複を排除
アーキテクチャのポイント:クローリング層・パース層・ストレージ層を疎結合に保つことで、ZillowがHTML構造を変更してもパース層の修正だけで対応可能になります。メッセージキュー(Kafka/Pub/Sub)で層間を繋ぐ設計が推奨されます。
法的フレームワーク:スクレイピングと利用規約
不動産データスクレイピングの法的側面は、技術的課題と同じくらい重要です。以下の3層で理解する必要があります。
公開データのスクレイピングの法的地位
米国では、hiQ Labs v. LinkedIn判決(第9連邦巡回控訴裁判所、2019年)により、公開アクセス可能なデータのスクレイピングはコンピュータ不正使用法(CFAA)に違反しないと判断されました。しかし、これは「スクレイピングが合法である」という無条件の免許ではありません。
各サイトの利用規約(ToS)との関係
- Zillow:利用規約でスクレイピングを明示的に禁止。 violatorsには法的措置を通告する方針
- Rightmove:ToSで自動化されたデータ収集を禁止。技術的にも積極的にブロック
- Realtor.com:スクレイピング禁止条項あり。ただしMLSデータの一部はRPR経由でAPI提供
- Redfin:スクレイピング禁止。Data APIの提供を検討中と公表
- ImmoScout24:AGB(利用規約)でスクレイピング禁止。EUデータベース権の主張あり
- LeBonCoin:CGUで自動収集を禁止。ただし一部データはAPI経由で提供
MLSシンジケートフィードとの比較
MLSデータへのアクセスには、スクレイピング以外のルートも存在します。
| アクセス方法 | メリット | デメリット |
|---|---|---|
| MLSシンジケートフィード | 法的に安全、正確なデータ | 高額なライセンス料、地域ごとの契約が必要、データ遅延あり |
| 公式API(存在する場合) | 構造化データ、安定供給 | レート制限、データ範囲の制限 |
| 公開ページのスクレイピング | リアルタイム、全データ項目、低コスト | ToS違反リスク、ブロック対策が必要 |
実務上の推奨:MLSフィードをベースラインとして契約し、スクレイピングで補完データ(価格変更のリアルタイム追跡、写真、エージェント情報)を取得するハイブリッド戦略が、多くのPropTech企業で採用されています。
GDPR・CCPAへの配慮
エージェントの連絡先や所有者名などの個人データを収集・保存する場合、GDPR(EU)とCCPA(カリフォルニア州)の適用を受ける可能性があります。公的に利用可能な不動産リスティングデータであっても、それをプロファイリング目的で利用する場合は、データ最小化原則に従う必要があります。
ユースケース別の活用方法
投資家のディール発掘
不動産投資家は、市場平均より安い物件を素早く見つける必要があります。スクレイピングデータを使ったスクリーニングの例:
- 価格ドロップ監視:7日以内に10%以上の価格下落があった物件をアラート通知
- Days on Market異常検知:同じエリアの平均DOMより50%以上長い物件を抽出(モチベーションの高い売り手の指標)
- 価格/平米の比較:同じ郵便番号内で価格/平米が下位10%の物件を自動抽出
市場アナリティクス
マクロレベルの市場分析では、時系列データが不可欠です。
- 供給需要バランス:新規リスティング数 vs 成約数の推移から市場の方向性を推定
- 価格トレンド分析:郵便番号レベルで平均価格・中央値・四分位数を週次追跡
- セグメント別分析:物件タイプ・価格帯・部屋数ごとの市場動向
iBuyer価格モデリング
OpendoorやZillow OffersのようなiBuyerモデルでは、正確な価格予測が事業の成否を左右します。
- 特徴量エンジニアリング:リスティングデータから物件特徴量を抽出し、機械学習モデルの入力に
- 比較可能物件(Comps)の自動選択:半径0.5マイル以内の類似取引物件を自動抽出
- 価格予測精度の検証:モデル予測価格と実際の成約価格の差分を継続的にモニタリング
具体例:あるPropTechスタートアップが、Zillow + Redfinのデータを日次でスクレイピングし、全米50都市の価格予測モデルを構築。初期投資は月額約$2,000のプロキシ費用 + エンジニア1名の工数。6ヶ月後にiBuyerパートナーからのデータライセンス収入が月額$15,000に到達し、ROI約7.5倍を達成しました。
Build vs Buy:インフラの意思決定
不動産データパイプラインの構築において、最も重要な戦略的決定は「自社構築か購入か」です。
| 判断基準 | 自社構築(Build) | 外部調達(Buy) |
|---|---|---|
| プロキシインフラ | 自社でIPプール管理、ローテーションロジック実装 | ProxyHat等のプロキシサービスを利用(推奨) |
| パーサー開発 | 各サイトのHTML構造に対応するパーサーを自社開発・保守 | スクレイピングAPIサービスを利用、またはOSSパーサーをベースに改造 |
| データストレージ | 自社でデータウェアハウス設計・運用 | マネージドDWH(BigQuery/Snowflake)を利用(推奨) |
| データ品質監視 | カスタムダッシュボード開発 | 既存モニタリングツール(Datadog/Grafana)と連携 |
推奨戦略:プロキシインフラとデータストレージは「Buy」、パーサー開発は「Build」がコスト効率に優れます。各サイトのHTML構造は頻繁に変更されるため、パーサーの保守はコア競争力になり得ます。
プロキシインフラは、ProxyHatの料金プランを活用することで、初期投資なしで1,000万+のレジデンシャルIPプールにアクセス可能です。ジオターゲティング機能により、米国・英国・ドイツ・フランスの各サイトに最適なIPからアクセスできます。
ROI計算フレームワーク
不動産データスクレイピングプロジェクトのROIを定量化するには、以下の式を使います。
ROI = (データが生み出す収益 - 総コスト) / 総コスト × 100
コスト構成
- プロキシ費用:月額$500〜$3,000(トラフィック量に依存)
- エンジニアリング人件費:月額$8,000〜$15,000(0.5〜1名分)
- インフラ費用:月額$200〜$1,000(クラウド・DWH)
- MLSフィード費用:月額$0〜$5,000(オプション)
収益構成
- データライセンス収入:サードパーティへのデータ提供
- 内部意思決定の改善:投資判断の精度向上による損失回避
- プロダクト機能:自社アプリのデータ機能によるユーザー獲得・リテンション
現実的なシナリオ:月間10万件のリスティングを3サイトからスクレイピングする場合、総コストは月額約$12,000。このデータが月額$30,000のデータライセンス収入または同等の内部価値を生み出すなら、ROIは150%となります。
Key Takeaways
- ジオターゲティングは必須:Zillowには米国IP、Rightmoveには英国IPからのアクセスが前提。データセンターIPでは実質不可能
- 重複排除に投資せよ:複数サイトにまたがる物件統合は、データ品質の鍵。正規化住所 + MLS番号のハイブリッド手法が有効
- 法的リスクを理解せよ:各サイトのToSを確認し、MLSフィードとのハイブリッド戦略でリスクを軽減
- 価格履歴が最大の価値:スナップショットではなく時系列データとして蓄積することが競争力の源泉
- プロキシはBuy、パーサーはBuild:インフラは外部サービスに委ね、パーサー保守にリソースを集中する戦略が最も効率的
不動産データのスクレイピングを本格的に開始する準備ができたら、ProxyHatのWebスクレイピングユースケースを参照し、料金プランから最適なプランを選んでください。195カ国以上のレジデンシャルIPで、Zillow・Rightmove・ImmoScout24へのアクセスを確実に確保できます。






