なぜ製薬・ペイアー分析チームは公開医療データのスクレイピングに苦戦するのか
市場アクセスチーム、ペイアーアナリティクスチーム、ヘルステックチームに共通する課題があります。薬価データ、臨床試験情報、プロバイダーディレクトリといった公開情報が散在し、手動収集では追いつかないことです。複数ソースにまたがるデータを継続的に取得・統合しなければ、価格ベンチマークも競合の臨床試験動向も見えなくなります。
しかし医療データのスクレイピングには厳格なコンプライアンス境界が存在します。本ガイドはHIPAAが保護する患者識別データを絶対に扱わず、公開データのみを対象とした安全かつ効率的な収集アーキテクチャを解説します。
基本原則:本ガイドで扱うのはすべて公開アクセス可能なデータです。PHI(保護対象健康情報)のスクレイピングは対象外とし、HIPAAの適用範囲外であることを前提に進めます。
主要な公開医療データソース一覧
製薬インテリジェンスで利用価値の高い公開データソースを整理します。
1. GoodRx — 薬価比較データ
GoodRxは米国の処方薬価格を小売薬局ごとに公開するプラットフォームです。市中価格、クーポン適用価格、割引後価格をZIPコード単位で確認でき、市場アクセスチームの価格ベンチマークとして極めて有用です。ただし強力なアンチボット保護があり、データセンターIPではほぼ確実にブロックされます。
2. FDA薬剤データベース
FDAはDrugs@FDA、National Drug Code(NDC)ディレクトリ、承認済み医薬品ラベルなどを公開しています。APIとCSVダウンロードの両方が利用可能で、スクレイピングの負荷は低めです。
3. NIH ClinicalTrials.gov
臨床試験の登録・結果データを公開するClinicalTrials.govは、競合パイプラインの追跡や適応症別の試験動向分析に不可欠です。API(v2)が提供されており、構造的取得が容易です。
4. CMS Open Data
Medicare / Medicaidの支払いデータ、DMEPOS(耐久医療機器)価格スケジュール、Part D処方データなどがCMS Dataから公開されています。大規模CSVのダウンロードが中心で、APIもある程度利用可能です。
5. NPPES NPIディレクトリ
NPPESは医療プロバイダーのNPI(National Provider Identifier)を検索できる公開ディレクトリです。プロバイダー名、専門科、住所(事業所レベル)が含まれます。これらは公開事業所情報であり、PHIには該当しません。
| データソース | データ種別 | アクセス方法 | アンチボット強度 | ジオターゲティング要件 |
|---|---|---|---|---|
| GoodRx | 薬価(小売・クーポン) | Webスクレイピング | 高 | ZIP/州単位で価格変動 |
| FDA Drugs@FDA | 承認・NDC・ラベル | API / CSV | 低 | なし |
| ClinicalTrials.gov | 臨床試験登録・結果 | API v2 | 低 | なし(試験拠点は地域別) |
| CMS Open Data | Medicare支払い・Part D | CSV / API | 低〜中 | 一部データが州別 |
| NPPES NPI | プロバイダーディレクトリ | API / CSV | 低 | なし |
なぜヘルスケアデータプロキシ(住宅IP)が必要なのか
GoodRxや一部の州レベル薬価透明性サイト(例:NevadaのPFDA、ColoradoのCDPHE薬価レポート)は、ボットトラフィックを積極的に排除しています。データセンターIPからのリクエストは、レート制限、CAPTCHA、または403レスポンスで遮断されるのが通常です。
healthcare data proxiesとして住宅プロキシを利用する理由は以下の通りです。
- IPレピュテーション:住宅IPは実際のISPから割り当てられたアドレスであり、ボット検知エンジンに「一般人のブラウジング」として判定されやすい
- ローテーション:リクエストごとにIPを切り替えることで、レート制限を回避し、1IPあたりのアクセス頻度を低減
- ジオロケーション:州・都市単位のジオターゲティングで、地域別薬価を正確に取得
一方、FDAやClinicalTrials.govのような公式APIを持つソースでは、データセンタープロキシで十分な場合が多いです。APIキーのレート制限内で運用すれば、IPブロックのリスクは低いためです。
プロキシタイプの比較
| プロキシタイプ | GoodRx等のアンチボット対策サイト | APIベースの公開DB | コスト効率 | 推奨用途 |
|---|---|---|---|---|
| 住宅プロキシ | 最適(ブロック回避率が高い) | 過剰(コスト非効率) | 中 | 薬価スクレイピング |
| データセンタープロキシ | 不適(高確率でブロック) | 適切 | 高 | FDA / CMS API呼び出し |
| モバイルプロキシ | 有効(モバイルUAとの組み合わせ) | 過剰 | 低 | モバイル特化薬価比較 |
ジオターゲティング — 州・ZIPコード別薬価の取得
米国の処方薬価格は州・ZIPコード単位で大きく変動します。GoodRxの価格表示はユーザーの位置に基づいて変わるため、複数地域の価格を比較するにはジオターゲティング付きプロキシが必須です。
ProxyHatのジオターゲティング機能を使えば、ユーザー名にフラグを追加するだけで出口IPの地域を指定できます。
# カリフォルニア州の住宅IPでGoodRx薬価を取得する例
import requests
from requests.auth import HTTPProxyAuth
proxy_url = "http://user-country-US-state-CA:PASSWORD@gate.proxyhat.com:8080"
session = requests.Session()
session.proxies = {"http": proxy_url, "https": proxy_url}
# GoodRxの特定薬剤ページ(例:Atorvastatin)
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36",
"Accept-Language": "en-US,en;q=0.9",
}
resp = session.get(
"https://www.goodrx.com/atorvastatin",
headers=headers,
timeout=30
)
print(f"Status: {resp.status_code}, Length: {len(resp.text)}")都市レベルのジオターゲティングも可能です。例えばニューヨーク市のIPが必要な場合:
# ニューヨーク市のIPで薬価データを取得
proxy_url = "http://user-country-US-state-NY-city-newyork:PASSWORD@gate.proxyhat.com:8080"
session.proxies = {"http": proxy_url, "https": proxy_url}この機能は、scrape drug pricesする際に地域別価格差を正確に把握するために不可欠です。一部の州(例:Florida、Colorado)では薬価透明性法に基づく公開データも州ポータルに存在し、これらも州内IPからのアクセスでないと表示が制限される場合があります。
アーキテクチャ設計 — スクレイピングからデータウェアハウスETLまで
製薬インテリジェンスのデータパイプラインは、単なるスクレイピングではなく取得→正規化→ETL→分析の全体フローとして設計する必要があります。
フェーズ1:データ収集(Ingestion)
- GoodRx:住宅プロキシ+ジオターゲティングで州別薬価を定期取得。リクエスト間隔は5〜10秒、リトライは3回まで
- FDA / ClinicalTrials.gov / CMS:APIまたはCSVダウンロード。データセンタープロキシで高速取得。APIレート制限を遵守
- NPPES NPI:月次フルダンプCSVをダウンロード。差分更新もAPIで可能
フェーズ2:正規化(Normalization)
各ソースのスキーマが異なるため、共通データモデルへのマッピングが必要です。
- NDCコード統一:FDAのNDCとGoodRxのNDC表記揺れを正規化(ハイフン有無、10桁→11桁パディング)
- 薬剤名マッチング:一般名・ブランド名の対応表を維持(RxNorm APIが有用)
- 価格通貨・単位:GoodRxのクーポン価格とCMSの平均販売価格(ASP)を区別して保持
- 日付フォーマット:ClinicalTrials.govの日付表記揺れをISO 8601に統一
フェーズ3:ETLとデータウェアハウスへのロード
正規化済みデータをデータウェアハウス(BigQuery、Snowflake、Redshiftなど)にロードします。推奨アーキテクチャ:
- スクレイピングワーカー→ S3/GCSのRawレイヤーに生HTML/JSONを保存
- 正規化ジョブ(Apache Beam / dbt / Spark)→ Cleansedレイヤーに配置
- スケジューラ(Airflow / Prefect)→ 日次・週次でパイプラインを実行
- 分析レイヤー→ Looker / Tableau / Metabaseで可視化
ポイント:Rawデータの保存は再スクレイピングを防ぎ、コンプライアンス監査時の証跡にもなります。取得日時・ソースURL・プロキシIP(マスク済み)をメタデータとして付与しましょう。
コンプライアンス — HIPAA境界と公開データのスコープ
医療データのスクレイピングにおいて最も重要なのはHIPAA境界の理解です。以下の原則を厳守してください。
HIPAAが保護するもの(本ガイドの対象外)
- 患者の氏名、生年月日、SSN、医療記録番号などの識別子
- 診断、治療、検査結果などの個人の健康情報
- 保険請求に紐づく個人レベルの支払い情報
HIPAAが保護しないもの(本ガイドの対象)
- GoodRxの公開薬価(個人に紐づかない市場価格)
- FDAの承認済み医薬品情報(ラベル、NDC、承認日)
- ClinicalTrials.govの試験概要と結果(集団レベルの統計)
- CMSの集計済み支払いデータ(個人が特定できない粒度)
- NPPESのプロバイダー事業所情報(公開ディレクトリ)
州レベルの健康データ規制にも注意
HIPAAは連邦法ですが、州法にはさらに厳格な規定がある場合があります。
- California(CCPA/CPRA):消費者データの「販売」に該当する場合、オプトアウト義務。ただし公開情報は一般に除外
- New York(SHIELD Act):個人情報の不正取得に対する規制。公開データのスクレイピング自体は直接対象外だが、データ取り扱いのセキュリティ要件に注意
- Nevada:薬価透明性法で公開が義務付けられたデータをスクレイピングすること自体は合法だが、サイトのToSを確認
コンプライアンスの基本姿勢:公開データであっても、各サイトの利用規約(ToS)とrobots.txtを確認し、取得データの再配布・再販売の可否を検討してください。社内分析用途と外部提供では許容範囲が異なります。
ユースケース別実装ガイド
ユースケース1:市場アクセス価格ベンチマーキング
GoodRx・CMS ASP・州レベル薬価透明性データを組み合わせて、自社製品と競合の価格ポジションを把握します。
- データ要件:州別・ZIP別の小売価格、クーポン価格、Medicare平均価格
- 更新頻度:週次(GoodRx)〜月次(CMS ASP)
- プロキシ:住宅プロキシ+州別ジオターゲティング
- 分析:価格分散係数、地域別価格ヒートマップ、競合クーポン戦略の追跡
ユースケース2:臨床試験ランドスケープモニタリング
ClinicalTrials.gov APIを定期呼び出しして、特定適応症・ターゲットの試験動向を追跡します。
- データ要件:試験ステータス、フェーズ、組入基準、主要評価項目、スポンサー
- 更新頻度:日次
- プロキシ:データセンタープロキシで十分(APIベース)
- 分析:適応症別試験数トレンド、競合スポンサーのパイプライン重複、フェーズ移行率
ユースケース3:プロバイダーディレクトリバリデーション
NPPES NPIデータと保険ネットワークのプロバイダーリストを照合し、ネットワーク適正性を検証します。
- データ要件:NPI、専門科、事業所住所、アクティブステータス
- 更新頻度:月次
- プロキシ:データセンタープロキシ(NPPES API / CSVダウンロード)
- 分析:ネットワークカバレッジ率、専門科別ギャップ、地域別プロバイダー密度
実装例 — 複数ソースの並行収集パイプライン
以下に、GoodRx(住宅プロキシ)とClinicalTrials.gov API(データセンタープロキシ)を並行して収集するPythonスクリプトの構造例を示します。
import requests
import json
import time
from concurrent.futures import ThreadPoolExecutor, as_completed
# ProxyHat設定
RESIDENTIAL_PROXY = "http://user-country-US-state-CA:PASSWORD@gate.proxyhat.com:8080"
DC_PROXY = "http://user-dc-us:PASSWORD@gate.proxyhat.com:8080"
def fetch_goodrx_price(drug_slug: str, state: str) -> dict:
"""住宅プロキシでGoodRx薬価を取得"""
proxy = f"http://user-country-US-state-{state}:PASSWORD@gate.proxyhat.com:8080"
session = requests.Session()
session.proxies = {"http": proxy, "https": proxy}
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64)",
"Accept-Language": "en-US,en;q=0.9",
}
try:
resp = session.get(
f"https://www.goodrx.com/{drug_slug}",
headers=headers,
timeout=30
)
return {"source": "goodrx", "drug": drug_slug, "state": state, "status": resp.status_code}
except Exception as e:
return {"source": "goodrx", "drug": drug_slug, "state": state, "error": str(e)}
def fetch_clinical_trials(condition: str) -> dict:
"""データセンタープロキシでClinicalTrials.gov APIを呼び出し"""
session = requests.Session()
session.proxies = {"http": DC_PROXY, "https": DC_PROXY}
params = {
"query.cond": condition,
"pageSize": 50,
"format": "json"
}
try:
resp = session.get(
"https://clinicaltrials.gov/api/v2/studies",
params=params,
timeout=30
)
return {"source": "clinicaltrials", "condition": condition, "count": len(resp.json().get("studies", []))}
except Exception as e:
return {"source": "clinicaltrials", "condition": condition, "error": str(e)}
# 並行収集の実行
drugs = ["atorvastatin", "omeprazole", "metformin"]
states = ["CA", "TX", "NY", "FL"]
conditions = ["diabetes", "oncology", "cardiovascular"]
results = []
with ThreadPoolExecutor(max_workers=5) as executor:
futures = []
# GoodRx — 州別に取得(間隔を空ける)
for drug in drugs:
for state in states:
futures.append(executor.submit(fetch_goodrx_price, drug, state))
time.sleep(2) # レート制限対策
# ClinicalTrials.gov — 並行取得
for cond in conditions:
futures.append(executor.submit(fetch_clinical_trials, cond))
for f in as_completed(futures):
results.append(f.result())
print(json.dumps(results, indent=2, ensure_ascii=False))ベストプラクティスとリスク軽減
- レート制限の遵守:GoodRxは1IPあたり数リクエスト/分が安全圏。リクエスト間隔を5秒以上に設定
- スティッキーセッション:1つの検索セッション内でIPを固定するには、
user-session-abc123形式のユーザー名を使用 - robots.txtの尊重:各サイトのrobots.txtを最初に確認し、禁止パスをスキップ
- データの暗号化:取得データは保存時に暗号化(AES-256)。転送時もTLS必須
- 監査ログ:誰がいつどのデータを取得したかのログを保持。コンプライアンス監査に備える
- ToS確認:特にGoodRxは利用規約でスクレイピングを明示的に禁止している場合があります。法務チームと確認し、代替手段(パートナーシップ、手動確認)も検討
Key Takeaways — 公開医療データスクレイピングの要点
- 公開データのみを対象:HIPAAが保護するPHI(患者識別情報)は絶対にスクレイピングしない。薬価、承認情報、試験概要、プロバイダーディレクトリは公開情報
- 住宅プロキシはGoodRx等のアンチボット対策サイトに必須:データセンターIPではブロックされる。ジオターゲティングで州・ZIP別薬価を正確に取得
- APIベースのソースはデータセンタープロキシで十分:FDA、ClinicalTrials.gov、CMS、NPPESは公式APIがあるため、住宅プロキシはコスト過剰
- 正規化とETLが価値の鍵:生データの取得だけでなく、NDC統一・薬剤名マッピング・日付フォーマットの正規化を通じて分析可能な状態にする
- 州レベル規制も確認:HIPAAに加えCCPA、SHIELD Actなど州法の要件を法務チームと確認
- ToSとrobots.txtを最優先:技術的に可能でも、利用規約違反は法的リスクとなる
製薬インテリジェンスのデータ収集基盤を構築するなら、ProxyHatの料金プランで住宅・データセンタープロキシの最適な組み合わせを検討してください。200カ国以上のジオターゲティング対応で、州別・都市別の薬価データ取得をサポートします。詳細なロケーション一覧は対応ロケーションページをご確認ください。
また、Webスクレイピング全般のベストプラクティスについてはWebスクレイピングのベストプラクティスも併せてご参照ください。






