¿Es legal scrapear datos públicos de YouTube?

Scrapear datos públicamente accesibles sin autenticación generalmente no viola leyes penales como la CFAA (en EE. UU.), pero puede contravenir los Términos de Servicio de YouTube. Debes respetar robots.txt, no acceder a datos privados, no redistribuir contenido protegido por derechos de autor (como transcripciones completas), y cumplir con GDPR si procesas datos personales de usuarios europeos. Consulta siempre con un abogado para tu caso específico.

¿Por qué necesito proxies residenciales para scrapear YouTube?

Google detecta y bloquea rápidamente el tráfico procedente de rangos IP de datacenter (AWS, GCP, Azure, etc.). Los proxies residenciales usan IPs de proveedores de internet domésticos, haciendo que tu tráfico parezca de usuarios reales. Esto reduce drásticamente los CAPTCHAs y bloqueos, permitiéndote escalar el scraping sin interrupciones.

¿Qué es la API InnerTube de YouTube?

InnerTube es la API interna no documentada que el frontend de YouTube usa para cargar datos dinámicamente. Endpoints como /youtubei/v1/next, /youtubei/v1/search y /youtubei/v1/player devuelven JSON con metadatos de videos, comentarios, transcripciones y sugerencias. No requiere autenticación, pero su estructura puede cambiar sin aviso.

¿Cuándo debo usar la YouTube Data API v3 en lugar de scraping?

Usa la API v3 cuando necesites metadatos básicos de videos a escala moderada, búsquedas puntuales, o estés construyendo un producto que requiere estabilidad contractual. El scraping es más adecuado cuando necesitas transcripciones, comentarios a gran escala, datos en tiempo real, o monitorización de tendencias que la API no cubre.

¿Cómo manejo los continuation tokens de InnerTube?

InnerTube usa tokens de continuación cifrados para paginar resultados. Cada respuesta incluye un token que debes enviar en el campo 'continuation' de la siguiente solicitud POST al mismo endpoint. No puedes saltar páginas — debes recorrerlas secuencialmente. Usa sesiones sticky en tu proxy para mantener la misma IP durante toda la paginación.

Scrapear YouTube con Proxies: Guía Completa | ProxyHat

Si trabajas en analítica de medios o investigas la economía de creadores, probablemente ya te has topado con los límites de la YouTube Data API v3. Las cuotas se agotan rápido, ciertos datos simplemente no están disponibles y escalar cuesta caro. Aquí es donde entra la extracción de datos de YouTube mediante scraping complementado con proxies residenciales.

Aviso legal y ético: Esta guía cubre únicamente el acceso a datos públicos. Debes respetar los Términos de Servicio de YouTube, la CFAA (EE. UU.), el GDPR (UE) y los derechos de autor de los creadores. No redistribuyas transcripciones ni contenido protegido por derechos de autor. Cuando exista una API oficial adecuada para tu caso de uso, úsala.

Cuándo la YouTube Data API v3 es suficiente — y cuándo no

La YouTube Data API v3 es la vía oficial y recomendada para muchos proyectos. Pero tiene limitaciones concretas que hacen que el scraping sea necesario en ciertos escenarios.

Cuotas y costes de la API v3

Google asigna 10 000 unidades de cuota por día por proyecto. Cada operación consume unidades distintas:

search.list: 100 unidades por llamada — solo 100 búsquedas/día.
videos.list: 1 unidad por llamada — hasta 10 000 videos/día.
commentThreads.list: 1 unidad por llamada — teóricamente suficiente, pero los hilos de comentarios grandes requieren paginación masiva.

Para un proyecto de monitorización de tendencias que necesita miles de búsquedas diarias, la cuota se agota en minutos. Solicitar más cuota es posible, pero el proceso puede tardar días y no siempre se aprueba.

Casos donde el scraping llena el vacío

Hilos de comentarios a escala: La API devuelve comentarios paginados, pero cada página cuesta cuota. Para millones de comentarios, el costo es prohibitivo.
Detección temprana de tendencias: Los datos de la API tienen latencia. El scraping de páginas de canal y videos puede capturar cambios de métricas minutos después de que ocurren.
Monitorización de anuncios: La API v3 no ofrece endpoints para datos de publicidad. Solo el scraping permite capturar qué anuncios se muestran en qué videos.
Metadatos en tiempo real: Contadores de vistas en vivo, likes actualizados al segundo — la API tiene caché y latencia.

Datos accesibles sin autenticación

No necesitas sesión iniciada para acceder a una cantidad significativa de datos públicos de YouTube. Esto es lo que puedes obtener:

Metadatos de video: Título, descripción, tags, duración, fecha de publicación, ID de canal, thumbnails.
Contadores públicos: Vistas, likes, dislikes (cuando están habilitados), número de comentarios.
Páginas de canal: Nombre, descripción, número de suscriptores, lista de videos, links sociales.
Hilos de comentarios: Comentarios de primer nivel y respuestas, con nombre de autor, texto, likes, fecha.
Transcripciones: Subtítulos generados automáticamente y manuales (vía InnerTube).

Lo que no es accesible sin login:

Videos privados o no listados (sin el enlace directo).
Datos de anuncios (requiere simulación de reproducción).
Estadísticas de YouTube Studio (impresiones, retención, ingresos).
Historial de reproducción de usuarios.

Por qué necesitas proxies residenciales para scrapear YouTube

Google opera una de las infraestructuras anti-bot más sofisticadas del mundo. Si haces scraping desde IPs de datacenter, lo notarán rápidamente.

El problema con las IPs de datacenter

Google mantiene listas de rangos IP asociados a proveedores de hosting (AWS, GCP, Azure, DigitalOcean, etc.). Cuando detecta tráfico automatizado desde estos rangos, aplica medidas escalonadas:

CAPTCHAs intermitentes — bloqueo temporal que requiere resolución manual.
Rate limiting agresivo — límites drásticamente inferiores a los de IPs residenciales.
Bloqueos permanentes de IP — la IP queda en lista negra.

Los proxies residenciales usan IPs asignadas a proveedores de internet domésticos (ISP). Para Google, tu tráfico parece provenir de un usuario legítimo en su casa — porque técnicamente es así, solo que estás enrutando tu solicitud a través de esa conexión.

Ventajas de los proxies residenciales para YouTube

Evitan el flagging por rango DC: Las IPs residenciales no están en las listas de datacenter de Google.
Rotación automática: Cada solicitud puede usar una IP distinta, distribuyendo la carga.
Geo-targeting: Puedes simular acceso desde países específicos — útil porque YouTube muestra contenido diferente según la ubicación.
Sesiones sticky: Mantienen la misma IP durante una sesión, esencial para flujos que requieren continuidad (como paginación de comentarios).

La API InnerTube de YouTube: la puerta trasera pública

YouTube no publica documentación oficial de InnerTube, pero es la API interna que usa el frontend de YouTube para cargar datos dinámicamente. Cada vez que abres una página de YouTube en el navegador, el JavaScript hace llamadas a endpoints InnerTube.

Endpoints clave

/youtubei/v1/next: Carga la página de un video — metadatos, comentarios iniciales, videos sugeridos.
/youtubei/v1/search: Búsqueda con los mismos filtros que la interfaz web.
/youtubei/v1/browse: Navega por páginas de canal, playlists, feeds.
/youtubei/v1/player: Player response con detalles de streaming y metadatos completos.

Continuation tokens y paginación

InnerTube usa continuation tokens para paginar. Cuando solicitas comentarios o resultados de búsqueda, la respuesta incluye un token cifrado. Para obtener la siguiente página, envías ese token en el cuerpo de la siguiente solicitud. Esto significa que no puedes saltar a una página arbitraria — debes recorrer secuencialmente.

Ejemplo de estructura de solicitud a /youtubei/v1/next:

{
  "videoId": "dQw4w9WgXcQ",
  "context": {
    "client": {
      "clientName": "WEB",
      "clientVersion": "2.20240101.00.00",
      "hl": "es",
      "gl": "ES"
    }
  }
}

La respuesta es un JSON enorme con toda la información que ves en la página del video — sin necesidad de parsear HTML.

Ejemplo en Python: scraping de YouTube con proxies residenciales

A continuación, un ejemplo completo que combina la librería youtube-transcript-api con solicitudes directas a InnerTube, todo enrutado a través de proxies residenciales de ProxyHat.

Instalación de dependencias

pip install youtube-transcript-api requests

Código completo

import requests
from youtube_transcript_api import YouTubeTranscriptApi

# --- Configuración del proxy residencial ProxyHat ---
PROXY_USER = "user-country-US"
PROXY_PASS = "tu_password_aqui"
PROXY_HOST = "gate.proxyhat.com"
PROXY_PORT = "8080"

PROXY_URL = f"http://{PROXY_USER}:{PROXY_PASS}@{PROXY_HOST}:{PROXY_PORT}"
PROXIES = {"http": PROXY_URL, "https": PROXY_URL}

# --- Headers para simular navegador real ---
HEADERS = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 "
                  "(KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36",
    "Accept-Language": "en-US,en;q=0.9",
    "Accept": "application/json",
}

INNER_TUBE_URL = "https://www.youtube.com/youtubei/v1/next"
INNER_TUBE_KEY = "AIzaSyAO_FJ2SlqU8Q4STEHLGCilw_Y9_11qcW8"  # Clave pública del cliente WEB


def fetch_video_metadata(video_id: str) -> dict:
    """Obtiene metadatos y comentarios iniciales de un video vía InnerTube."""
    payload = {
        "videoId": video_id,
        "context": {
            "client": {
                "clientName": "WEB",
                "clientVersion": "2.20240601.00.00",
                "hl": "en",
                "gl": "US",
            }
        }
    }
    params = {"key": INNER_TUBE_KEY}
    resp = requests.post(
        INNER_TUBE_URL,
        params=params,
        json=payload,
        headers=HEADERS,
        proxies=PROXIES,
        timeout=30,
    )
    resp.raise_for_status()
    return resp.json()


def fetch_transcript(video_id: str, languages: list = None) -> list:
    """Obtiene la transcripción de un video usando youtube-transcript-api."""
    if languages is None:
        languages = ["en", "es"]
    try:
        transcript = YouTubeTranscriptApi.get_transcript(
            video_id, languages=languages
        )
        return transcript  # Lista de dicts: [{"text": ..., "start": ..., "duration": ...}]
    except Exception as e:
        print(f"Error obteniendo transcripción para {video_id}: {e}")
        return []


def extract_comments_continuation(data: dict) -> tuple:
    """Extrae comentarios iniciales y el token de continuación."""
    comments = []
    continuation_token = None
    try:
        # Navegar la estructura JSON para encontrar los comentarios
        for renderer in data.get("contents", {}).get(
            "twoColumnWatchNextResults", {}
        ).get("results", {}).get("results", {}).get("contents", []):
            if "itemSectionRenderer" not in renderer:
                continue
            for item in renderer["itemSectionRenderer"]["contents"]:
                if "commentThreadRenderer" in item:
                    comment = item["commentThreadRenderer"]["comment"]["commentRenderer"]
                    comments.append({
                        "author": comment.get("authorText", {}).get("simpleText", ""),
                        "text": comment.get("contentText", {}).get("runs", [{}])[0].get("text", ""),
                        "likes": comment.get("voteCount", {}).get("simpleText", "0"),
                    })
                if "continuationItemRenderer" in item:
                    continuation_token = item["continuationItemRenderer"][
                        "continuationEndpoint"
    ]["continuationCommand"]["token"]
    except (KeyError, TypeError) as e:
        print(f"Error parseando comentarios: {e}")
    return comments, continuation_token


def fetch_next_comments(continuation_token: str) -> dict:
    """Obtiene la siguiente página de comentarios usando un continuation token."""
    payload = {
        "context": {
            "client": {
                "clientName": "WEB",
                "clientVersion": "2.20240601.00.00",
                "hl": "en",
                "gl": "US",
            }
        },
        "continuation": continuation_token,
    }
    params = {"key": INNER_TUBE_KEY}
    resp = requests.post(
        "https://www.youtube.com/youtubei/v1/next",
        params=params,
        json=payload,
        headers=HEADERS,
        proxies=PROXIES,
        timeout=30,
    )
    resp.raise_for_status()
    return resp.json()


# --- Ejemplo de uso ---
if __name__ == "__main__":
    VIDEO_ID = "dQw4w9WgXcQ"

    # 1. Metadatos del video
    data = fetch_video_metadata(VIDEO_ID)
    comments, cont_token = extract_comments_continuation(data)
    print(f"Comentarios iniciales: {len(comments)}")
    print(f"Token de continuación: {cont_token[:50]}..." if cont_token else "Sin token")

    # 2. Transcripción
    transcript = fetch_transcript(VIDEO_ID)
    print(f"Segmentos de transcripción: {len(transcript)}")

    # 3. Más comentarios
    if cont_token:
        more_data = fetch_next_comments(cont_token)
        print("Siguiente página de comentarios obtenida")

Rotación de IP con sesiones sticky

Para flujos de paginación (como recorrer comentarios), necesitas mantener la misma IP durante toda la sesión. ProxyHat soporta sesiones sticky mediante el parámetro session en el nombre de usuario:

# Sesión sticky: mantiene la misma IP durante la sesión
SESSION_ID = "scrape-session-001"
PROXY_USER_STICKY = f"user-country-US-session-{SESSION_ID}"
PROXY_URL_STICKY = f"http://{PROXY_USER_STICKY}:{PROXY_PASS}@{PROXY_HOST}:{PROXY_PORT}"
PROXIES_STICKY = {"http": PROXY_URL_STICKY, "https": PROXY_URL_STICKY}

Cuando termines la sesión y quieras una IP nueva, simplemente cambia el SESSION_ID.

Ejemplo en Node.js: scraping con axios y proxies residenciales

const axios = require('axios');
const { HttpsProxyAgent } = require('https-proxy-agent');

const PROXY_USER = 'user-country-US';
const PROXY_PASS = 'tu_password_aqui';
const PROXY_HOST = 'gate.proxyhat.com';
const PROXY_PORT = '8080';
const PROXY_URL = `http://${PROXY_USER}:${PROXY_PASS}@${PROXY_HOST}:${PROXY_PORT}`;
const agent = new HttpsProxyAgent(PROXY_URL);

const INNER_TUBE_KEY = 'AIzaSyAO_FJ2SlqU8Q4STEHLGCilw_Y9_11qcW8';

async function fetchVideoMetadata(videoId) {
  const payload = {
    videoId,
    context: {
      client: {
        clientName: 'WEB',
        clientVersion: '2.20240601.00.00',
        hl: 'en',
        gl: 'US',
      },
    },
  };

  const response = await axios.post(
    `https://www.youtube.com/youtubei/v1/next?key=${INNER_TUBE_KEY}`,
    payload,
    {
      httpsAgent: agent,
      headers: {
        'User-Agent':
          'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36',
        'Accept-Language': 'en-US,en;q=0.9',
        'Accept': 'application/json',
      },
      timeout: 30000,
    }
  );

  return response.data;
}

// Uso
fetchVideoMetadata('dQw4w9WgXcQ')
  .then((data) => console.log('Título:', data.contents?.twoColumnWatchNextResults?.results?.results?.contents?.[0]?.videoPrimaryInfoRenderer?.title?.runs?.[0]?.text))
  .catch((err) => console.error('Error:', err.message));

Estrategias para manejar rate limits y huellas digitales

Incluso con proxies residenciales, Google puede detectar comportamiento automatizado. Estas estrategias minimizan el riesgo:

Rate limiting inteligente

No excedas 1-2 solicitudes por segundo por IP. Distribuye las solicitudes entre múltiples IPs residenciales.
Añade delays aleatorios entre solicitudes (1-3 segundos con jitter).
Respeta los headers Retry-After si Google envía respuestas 429.
Implementa backoff exponencial: Si recibes un CAPTCHA o 429, espera antes de reintentar con una IP diferente.

Gestión de huellas digitales (fingerprinting)

Varía los User-Agents — usa una lista rotativa de User-Agents realistas de navegador.
Rota los Client Version de InnerTube — actualiza periódicamente la versión del cliente WEB.
Cambia el parámetro gl según el país de la IP residencial que estés usando.
No uses headers de orden predecible. Los navegadores reales envían headers en orden variado.

Patrones de detección comunes

Acceso simultáneo desde múltiples países al mismo recurso.
Patrones de navegación sin interacción humana (sin mouse, scroll, etc.).
Volumen de solicitudes inconsistente con uso humano real.
Falta de cookies y estado de sesión persistente.

Comparativa: YouTube Data API v3 vs. Scraping con InnerTube

Criterio	YouTube Data API v3	Scraping con InnerTube + Proxies
Coste	Gratis (10K unidades/día); de pago para más	Coste del proxy residencial (~$1-5/GB)
Cuota diaria	Limitada a 10K unidades	Limitada por tu pool de IPs
Comentarios a escala	Posible pero costoso en cuota	Acceso completo vía continuation tokens
Transcripciones	No disponibles	Disponibles vía InnerTube y youtube-transcript-api
Datos en tiempo real	Caché con latencia de minutos	Datos frescos de la página
Estabilidad	Alta (API documentada)	Media (estructura JSON puede cambiar)
Riesgo legal	Ninguno (uso oficial)	Potencial violación de ToS
Monitorización de anuncios	No disponible	Posible con scraping

La recomendación: usa la API oficial cuando cubra tus necesidades y complementa con scraping solo donde la API no llega. Para proyectos de analítica de medios a escala, la combinación de ambas es la estrategia más robusta.

Scraping ético: cuándo usar la API oficial en lugar de scraping

El scraping no es intrínsecamente malo, pero hay líneas que no deberías cruzar:

Usa la API oficial cuando:

Necesitas metadatos básicos de videos (título, descripción, duración) a escala moderada.
Tu proyecto puede tolerar latencia de minutos en los datos.
Estás construyendo un producto comercial que depende de datos de YouTube — la API ofrece estabilidad contractual.
Solo necesitas búsquedas puntuales — no justificas la infraestructura de proxies.

El scraping es razonable cuando:

Necesitas transcripciones que la API no proporciona.
Realizas análisis de sentimiento de comentarios a escala (miles de videos).
Monitorizas datos en tiempo real para detección temprana de tendencias.
Investigas ecosistemas de creadores y la API no ofrece suficiente granularidad.

Principios éticos fundamentales

No redistribuyas contenido protegido. Las transcripciones de videos tienen derechos de autor. Úsalas para análisis interno, no para republicar.
Respeta robots.txt. YouTube permite cierto acceso pero bloquea rutas específicas. Verifica antes de scrapar.
Minimiza la carga. No hagas solicitudes innecesarias. Cachea respuestas y evita redundancia.
Protege la privacidad. Los comentarios contienen datos personales bajo GDPR. Anonimiza cuando sea posible.
Sé transparente. Si tu investigación se publica, describe tu metodología de recolección de datos.

Para más estrategias de scraping ético, consulta nuestra guía de casos de uso de web scraping.

Puntos clave

La YouTube Data API v3 es suficiente para metadatos básicos, pero tiene límites de cuota severos y no ofrece transcripciones ni datos en tiempo real.

La API InnerTube de YouTube proporciona acceso a comentarios, transcripciones y datos frescos — sin autenticación, pero requiere scraping.

Los proxies residenciales son esenciales para scrapar YouTube a escala — las IPs de datacenter son detectadas y bloqueadas rápidamente.

Usa sesiones sticky para flujos paginados y rotación por solicitud para recolección distribuida.

Combina API oficial y scraping para maximizar cobertura y minimizar riesgo.

Respeta siempre los derechos de autor, la privacidad y los Términos de Servicio de YouTube.

Si necesitas proxies residenciales de alta calidad para tu proyecto de extracción de datos de YouTube, ProxyHat ofrece rotación automática, geo-targeting por país y ciudad, y sesiones sticky — todo lo que necesitas para scrapar de forma fiable y a escala.

Guía Completa para Scrapear Datos Públicos de YouTube con Proxies

Cuándo la YouTube Data API v3 es suficiente — y cuándo no

Cuotas y costes de la API v3

Casos donde el scraping llena el vacío

Datos accesibles sin autenticación

Por qué necesitas proxies residenciales para scrapear YouTube

El problema con las IPs de datacenter

Ventajas de los proxies residenciales para YouTube

La API InnerTube de YouTube: la puerta trasera pública

Endpoints clave

Continuation tokens y paginación

Ejemplo en Python: scraping de YouTube con proxies residenciales

Instalación de dependencias

Código completo

Rotación de IP con sesiones sticky

Ejemplo en Node.js: scraping con axios y proxies residenciales

Estrategias para manejar rate limits y huellas digitales

Rate limiting inteligente

Gestión de huellas digitales (fingerprinting)

Patrones de detección comunes

Comparativa: YouTube Data API v3 vs. Scraping con InnerTube

Scraping ético: cuándo usar la API oficial en lugar de scraping

Usa la API oficial cuando:

El scraping es razonable cuando:

Principios éticos fundamentales

Puntos clave

¿Listo para empezar?

Cuándo la YouTube Data API v3 es suficiente — y cuándo no

Cuotas y costes de la API v3

Casos donde el scraping llena el vacío

Datos accesibles sin autenticación

Por qué necesitas proxies residenciales para scrapear YouTube

El problema con las IPs de datacenter

Ventajas de los proxies residenciales para YouTube

La API InnerTube de YouTube: la puerta trasera pública

Endpoints clave

Continuation tokens y paginación

Ejemplo en Python: scraping de YouTube con proxies residenciales

Instalación de dependencias

Código completo

Rotación de IP con sesiones sticky

Ejemplo en Node.js: scraping con axios y proxies residenciales

Estrategias para manejar rate limits y huellas digitales

Rate limiting inteligente

Gestión de huellas digitales (fingerprinting)

Patrones de detección comunes

Comparativa: YouTube Data API v3 vs. Scraping con InnerTube

Scraping ético: cuándo usar la API oficial en lugar de scraping

Usa la API oficial cuando:

El scraping es razonable cuando:

Principios éticos fundamentales

Puntos clave

¿Listo para empezar?

También te puede interesar

Guía para Scrapear Datos Públicos de LinkedIn con Proxies: Límites Legales y Éticos

Guía para scrapear datos públicos de TikTok con proxies residenciales

Cómo scrapear Twitter/X con proxies en 2025: Guía técnica completa

Guía completa para scrapear datos públicos de Instagram con proxies residenciales