
Acerca de la serie LevelUp : En The Markup, nos comprometemos a hacer todo lo posible para proteger a nuestros lectores del daño digital, escribir sobre los procesos que desarrollamos y compartir nuestro trabajo. Trabajamos constantemente para mejorar la seguridad digital, respetar la privacidad de los lectores, crear experiencias de usuario éticas y responsables, y asegurarnos de que nuestro sitio y nuestras herramientas sean accesibles.
En The Markup, combinamos frecuentemente técnicas periodísticas tradicionales con el análisis de datos, lo que nos ayuda a extraer conclusiones basadas en evidencia estadísticamente significativa. Sin embargo, encontrar y recopilar suficientes datos para extraer dichas conclusiones puede ser un desafío. Ahí es donde entra en juego el web scraping.
El web scraping es un proceso que consiste en extraer automáticamente contenido en línea destinado a ser visto por usuarios humanos, extraer información específica y almacenarla en un formato fácilmente utilizable por un programa informático. Por ejemplo, esto podría consistir en descargar la página web de un tribunal de condado con sentencias recientes y convertirla en una secuencia de tablas de datos , cada una con el nombre de un caso judicial, una lista de demandantes, una lista de demandados, la fecha de la sentencia y la URL del texto de la misma.
Debido a que el raspado lo realiza una computadora, se puede utilizar para recolectar grandes cantidades de información, lo que lo hace popular no solo entre periodistas , sino también entre académicos, investigadores y grupos de defensa.
El scraping ha existido durante mucho tiempo en una zona gris desde el punto de vista legal, por lo que los periodistas y otros investigadores tienden a abordarlo con cautela.
En The Markup, algunos de nuestros periodistas de datos se preguntaron recientemente sobre los riesgos legales que conlleva el scraping de sitios web alojados en la Unión Europea. Realizamos nuestra propia investigación para responder a esta pregunta y, a continuación, ofrecemos un resumen de lo aprendido. Nuestro objetivo es ayudar a otros periodistas, investigadores y defensores de datos a desarrollar una estrategia de bajo riesgo para el scraping en la UE.
Una breve acotación sobre el scraping en EE. UU. antes de empezar: La situación legal del scraping en EE. UU. es bastante clara en comparación con la de la UE. Durante muchos años, su legalidad fue incierta, sobre todo cuando infringía los términos de servicio (TdS) de los sitios web. Incumplir estos términos parecía constituir una posible violación de la Ley de Fraude y Abuso Informático (CFAA), una ley contra la piratería informática que tipificaba como delito no solo el acceso no autorizado a un ordenador, sino también el acceso no autorizado.
En abril de 2022, el Tribunal de Apelaciones del Noveno Circuito aclaró la situación , afirmando que quienes simplemente extraen información de sitios web sin causar otros daños no pueden ser procesados bajo la Ley. Ese caso del Noveno Circuito aplicó una decisión de la Corte Suprema de 2021, Van Buren v. Estados Unidos , que no involucraba el raspado, pero que sostuvo que las violaciones de los términos de servicio no constituyen un delito según la CFAA.
El primer paso para diseñar una estrategia de scraping de sitios web con sede en la UE debería ser considerar cuidadosamente los datos que necesita para su proyecto. La legalidad del scraping en la UE depende en gran medida de la naturaleza de los datos que se recopilan. En términos generales, los datos en internet se dividen en dos categorías: personales y no personales, con diferentes normas aplicables a cada uno.
Según el Reglamento General de Protección de Datos (RGPD) de Europa, los datos personales son información relativa a una persona física identificable (es decir, una persona humana, no una empresa). Nombres, fotos y números de identificación, como los permisos de conducir, son datos personales, pero también lo son otros tipos de datos menos obvios, como la información de ubicación. Los datos no personales, en cambio, no se refieren a una persona física identificada. Además, es más sencillo, así que empezaremos explicando qué son los datos no personales.
1. Derechos creativos y de “inversión sustancial”
En nuestra reciente investigación sobre las disparidades en internet, recopilamos gran cantidad de información sobre precios de internet de banda ancha en barrios estadounidenses. Si hubiéramos recopilado datos sobre barrios de la UE, estos se considerarían impersonales, ya que no se refieren a ninguna persona identificada. Por lo tanto, la ley más directamente relevante es la Directiva sobre Bases de Datos , aprobada por la UE en 1996. Esta Directiva otorga protección de derechos de autor a las bases de datos que constituyen la creación intelectual del autor. La creatividad puede incluir cómo se organiza la base de datos, qué tipo de columnas mantiene o cómo se indexa. La Directiva también crea un derecho sui generis (o único) en las bases de datos que implican una inversión sustancial en la obtención, verificación o presentación del contenido, incluso si no existe originalidad en dicha base de datos. Los derechos de inversión creativa y sustancial a veces se denominan colectivamente derechos de base de datos. Resulta que, en la práctica, estos derechos son bastante limitados. Es difícil ser verdaderamente creativo con un esquema de base de datos, y los tribunales establecen un umbral bastante alto para la inversión sustancial. Por ejemplo, una decisión reciente del Tribunal de Justicia de la Unión Europea (básicamente, su Tribunal Supremo) sostuvo que el scraping solo cumple con el requisito de inversión sustancial si competiría con, o de otra manera pondría en peligro, la capacidad del sitio web de recaudar ingresos y recuperar su inversión.
2. Las instituciones de investigación tienen permisos especiales.
La Directiva del Mercado Único Digital (que es diferente de la Ley de Servicios Digitales y la Ley de Mercados Digitales) entró en vigor en 2021 y modificó la Directiva de Bases de Datos. Creó puertos seguros para la minería de textos y datos por parte de instituciones de investigación u "organizaciones de patrimonio cultural". Una institución de investigación puede incluir una entidad que realiza investigación científica "de conformidad con una misión de interés público reconocida por un estado miembro". Las instituciones de investigación y las organizaciones de patrimonio cultural aún deben tener "acceso legal" a los datos, por ejemplo, la organización paga una suscripción o los datos están disponibles públicamente en internet. No está claro si los periodistas califican aquí, incluso si trabajan para una organización sin fines de lucro como The Markup. Una posible forma de abordar esto podría ser asociarse con una institución de investigación, como algunas universidades, ya que las asociaciones público-privadas están permitidas por ley para realizar investigaciones que se alineen con uno de los Programas Marco de Investigación y Desarrollo Tecnológico de la UE.
3. Las empresas pueden limitar el scraping en sus términos de servicio
El alcance limitado de la Directiva sobre Bases de Datos implica que muchos datos de la UE no están protegidos por ley y, en teoría, son susceptibles de ser extraídos. Sin embargo, hay una trampa. En el caso Ryanair Ltd contra PR Aviation BV , PR Aviation, un servicio de agregación de vuelos como Kayak.com, extraía datos de Ryanair para mostrar sus vuelos en sus propios resultados de búsqueda. Ryanair presentó una demanda para detener esta práctica. El tribunal dictaminó que los datos de Ryanair no cumplían los requisitos para la protección de los derechos de autor ni de un derecho sui generis , pero que la empresa podía limitar el extraído de datos mediante sus condiciones de servicio. Por supuesto, como descubrimos durante la creación de nuestro conjunto de datos de precios de proveedores de servicios de internet (ISP), los operadores de sitios web también pueden emplear medidas técnicas, como la limitación de velocidad, para evitar el extraído de datos, incluso cuando no ejercen los derechos legales mencionados anteriormente sobre las bases de datos.
Las situaciones en las que el scraping está limitado por las condiciones de servicio de una plataforma son las más confusas desde el punto de vista legal. La buena noticia es que en la UE no es delito violar las condiciones de servicio de un sitio web, como ocurría en EE. UU. hasta la decisión del Tribunal Supremo en el caso Van Buren de 2021. Si existen unas condiciones de servicio que prohíben el scraping, el análisis no termina con "no puedes ir a la cárcel, así que no hay problema". El sitio web podría presentar una demanda civil por agravio o incumplimiento de contrato, aunque probablemente tendrá dificultades para demostrar los daños en este tipo de casos.
También podrían solicitar a un tribunal que prohíba el scraping. Esto es lo que ocurrió en el caso de Ryanair mencionado anteriormente. Si desea scraping de un sitio web, y sus términos de servicio lo prohíben y no aplican excepciones, probablemente sea mejor consultar con un abogado sobre su situación específica y evaluar su tolerancia al riesgo.
4. No cometas delitos cibernéticos
Por supuesto, si su actividad de raspado daña el sitio web de alguna otra manera, como visitarlo tan seguido que su raspador sobrecargue el sitio web , usted puede muy bien ser responsable según la ley de delitos cibernéticos de la UE , así que no lo haga.
En resumen, al extraer datos no personales de una fuente de la UE, se pueden activar las protecciones de la Directiva sobre Bases de Datos, pero estas suelen ser bastante limitadas. Si la Directiva no es aplicable, se pueden encontrar restricciones derivadas de las condiciones de servicio y de las técnicas anti-scraping que se empleen para hacerlas cumplir. Si se colabora con una institución de investigación, como una universidad, se podrían eludir los derechos sobre las bases de datos, aunque las técnicas anti-scraping podrían seguir representando un obstáculo práctico. Si no se aplica ninguna excepción, existe el riesgo de una demanda civil, por lo que se recomienda consultar con un abogado.
Por supuesto, el peso pesado de 800 kilos en la habitación es el RGPD. La histórica ley de protección de datos de la UE solo se aplica al web scraping si se extraen datos personales . Como referencia, el RGPD define los datos personales como:
Cualquier información relativa a una persona física identificada o identificable (el interesado); se considerará persona física identificable toda persona cuya identidad pueda determinarse, directa o indirectamente, en particular mediante un identificador, como por ejemplo un nombre, un número de identificación, datos de localización, un identificador en línea o uno o varios elementos propios de la identidad física, fisiológica, genética, psíquica, económica, cultural o social de dicha persona.
Existen salvaguardas adicionales para las categorías especiales de datos personales, como la raza, la religión y la orientación sexual, que el RGPD considera especialmente sensibles. Los datos seudonimizados, es decir, información sin ciertos identificadores, se siguen considerando identificables y, por lo tanto, personales, pero los datos anonimizados no lo son, ya que no identifican a una persona. Sin embargo, es importante asegurarse de que los datos estén realmente anonimizados, ya que los datos mal anonimizados podrían no cumplir los requisitos para esta excepción.
Supongamos que necesita extraer datos que contienen datos personales. Por ejemplo, si investiga anuncios de alquiler que a veces incluyen los nombres y la información de contacto de los propietarios o administradores, actuará como responsable del tratamiento de datos y las disposiciones del RGPD que rigen la recopilación y el tratamiento se aplicarán a los datos personales. En primer lugar, deberá justificar la recopilación de datos como una de las seis bases legales definidas por el RGPD. Como periodista o investigador, podría creer que argumentar "en interés público" funcionaría, pero esta disposición se reserva principalmente para organismos gubernamentales u organizaciones privadas que aplican la legislación de un Estado miembro.
La opción más segura es recopilar y analizar datos con base en su "interés legítimo", pero incluso esta autoridad no es un documento en blanco para recopilar todos los datos personales. La investigación periodística o de defensa de intereses sin fines de lucro probablemente se consideraría un interés legítimo, pero esto debe sopesarse con los derechos fundamentales del titular de los datos a la privacidad y la protección de datos. La extracción de datos personales solo será legal cuando los intereses del responsable del tratamiento (usted, en este caso) prevalezcan sobre los del titular de los datos. El análisis debe realizarse con cuidado y documentarse formalmente, por lo que es recomendable buscar una opinión profesional antes de proceder por esta vía.
Una vez que comience a recopilar datos personales, debe cumplir con los principios de procesamiento de datos del RGPD, incluyendo la minimización de datos, la retención razonable de datos y la seguridad . Como responsable del tratamiento de datos, tendrá ciertas obligaciones de cumplimiento para el almacenamiento y manejo de los datos, e incluso más obligaciones si los transfiere a terceros. También deberá informar a los interesados que está procesando sus datos con un aviso de privacidad y otorgarles ciertos derechos, como el derecho de supresión o el derecho de oposición al procesamiento. Finalmente, es posible que deba realizar una Evaluación de Impacto de la Protección de Datos (EIPD) si el procesamiento implica un "alto riesgo" para el interesado. El uso de técnicas como la seudonimización puede ayudar a cumplir con sus requisitos de cumplimiento.
El RGPD también exige que cada estado miembro implemente leyes que concilien el derecho a la privacidad con la libertad de expresión y el tratamiento de datos con fines periodísticos. Estas leyes nacionales pueden variar considerablemente y, a menudo, hay menos orientación sobre cómo desenvolverse en ellas. Además, puede resultar bastante complicado determinar qué legislación nacional se aplica al considerar la ubicación del sitio web, la ubicación de los servidores y la ciudadanía de los interesados. Le recomendamos consultar con un abogado si cree que esta excepción podría aplicarse en su caso.
Si todo esto te parece mucho, ¡qué bien, porque así debe ser! El RGPD crea un marco sólido para proteger la información personal, por lo que solo deberías recopilar dichos datos si realmente los necesitas. Volviendo al ejemplo de nuestro anuncio de alquiler, considera si es necesario recopilar nombres e información de contacto, y si recopilas datos personales accidentalmente, intenta eliminarlos lo antes posible.
En 2022, la UE promulgó la Ley de Gobernanza de Datos , que entrará en vigor en septiembre de 2023. Esta ley busca abrir los datos en poder del gobierno, principalmente mediante el establecimiento de intermediarios de datos y la prohibición de acuerdos exclusivos de intercambio de datos que involucren al gobierno. Parece ser una versión algo más sofisticada de las leyes de datos abiertos que algunos estados y localidades han aprobado en EE. UU. Debido a su reciente desarrollo, aún no está claro cómo afectará la ley al web scraping, pero si se va a extraer información de una fuente gubernamental, conviene tener en cuenta este avance.
El Parlamento Europeo también está considerando actualmente propuestas para la Ley de Datos y para un nuevo Reglamento de Privacidad Electrónica , por lo que es posible que la ley cambie en los próximos años. Parte del texto de la Ley de Datos propuesta modificaría el derecho sui generis , pero los detalles aún se están debatiendo. Sin embargo, en la actualidad, el raspado web de datos comerciales públicos que no están sujetos a leyes de derechos de autor o privacidad es legal en la UE. Finalmente, la Directiva del Mercado Único Digital que analizamos anteriormente contiene una disposición que sugiere que incluso las Condiciones de Servicio podrían no impedir por completo el raspado de datos por parte de los investigadores, pero su alcance no está claro y probablemente deba ser examinado en un tribunal.
La situación legal del web scraping en la UE es un tema sorprendentemente complejo y lleno de matices. La mayoría de los recursos secundarios y gran parte de la jurisprudencia aplicable se dirigen a las empresas que extraen datos de internet para promover sus intereses comerciales. Estas empresas probablemente tienen recursos y tolerancia al riesgo diferentes a los de la mayoría de los periodistas, investigadores o defensores.
Si usted es periodista o investigador y está interesado en el web scraping en la UE, recuerde:
Suponemos también que los periodistas e investigadores están más interesados en los datos protegidos por la Directiva de Bases de Datos o el RGPD que en el texto protegido por derechos de autor. Empresas como OpenAI procesan cantidades masivas de texto para alimentar sus modelos de aprendizaje automático, lo que pone a prueba gran parte de la legislación vigente.
Esperamos que este resumen de la legislación de la UE sobre scraping sea útil para periodistas de datos y otros investigadores que intentan recopilar información de interés público. Úselo para comprender el abanico de posibilidades en este ámbito; sin embargo, consulte con un abogado si necesita orientación sobre su situación particular, ya que esto no constituye asesoramiento legal.
Esta historia se ha actualizado con información sobre las leyes nacionales relacionadas con el procesamiento de datos personales con fines periodísticos.
También publicadoaquí
Foto de Krakograff Textures en Unsplash