El repositorio, la IA y las licencias

REDIUNLu · Acceso abierto e inteligencia artificial

El repositorio, la inteligencia artificial y las licencias.

Cómo se relaciona un repositorio de acceso abierto con los sistemas de inteligencia artificial, en qué punto está el debate, y qué conviene que tengan en cuenta los autores al depositar.

El punto de partida: la apertura que hace valioso a un repositorio —que cualquiera pueda leer, descargar y citar— es la misma que permite que sistemas automáticos recojan su contenido. Entender esa tensión, sin cerrar el acceso ni prometer barreras que hoy no existen, es lo primero.

01

¿Cómo entra la IA en el repositorio?

Un repositorio de acceso abierto está diseñado para ser lo más accesible posible: sus textos son legibles, descargables, indexables por buscadores y cosechables por otros sistemas mediante protocolos de interoperabilidad. Esa visibilidad es su razón de ser.

La contracara es que ese mismo contenido público puede ser recogido por sistemas automáticos —rastreadores web— que alimentan grandes colecciones de datos con las que se entrenan modelos de IA. El repositorio no entrega las obras a la inteligencia artificial: es su carácter abierto y legible por máquinas lo que lo vuelve una fuente natural.

Lo que la apertura habilita (y queremos)
  • Lectura y descarga por parte de personas.
  • Cita académica y reutilización con atribución.
  • Indexación en buscadores.
  • Cosecha por agregadores y redes (SNRD, BASE, CORE).
Lo que la misma apertura también permite
  • Recolección por rastreadores automáticos.
  • Incorporación a grandes corpus de la web.
  • Uso para entrenar modelos, muchas veces sin atribución ni aviso.
02

Estado de la cuestión

El marco legal y técnico se está escribiendo ahora, sobre todo en Europa; en la Argentina todavía no hay una norma específica sobre minería de datos e inteligencia artificial. Algunos puntos firmes a la fecha:

La licencia no es un candado técnico.

La propia Creative Commons señala que, para excluir el entrenamiento de IA, no alcanza con la licencia: hay que recurrir a señales legibles por máquina, a soluciones técnicas de acceso, o a retirar la obra.1

El opt-out debe ser procesable por máquina.

Para excluir la minería de datos no basta una reserva escrita en lenguaje natural dentro de los términos de uso: tiene que poder ser interpretada y aplicada por un sistema automático. Así lo estableció el Tribunal Regional Superior Hanseático de Hamburgo (OLG Hamburg) en el caso Kneschke c. LAION, en diciembre de 20252 —donde, por no cumplirse ese estándar, el uso para IA terminó amparado por la excepción de minería.

Hay marcos emergentes con respaldo creciente.

El protocolo TDMRep del W3C3, el Reglamento de IA de la Unión Europea (art. 53) y la Directiva CDSM (art. 4)4 dan base a las reservas de derechos legibles por máquina. Las AI Preferences de la IETF y las CC Signals de Creative Commons avanzan en la misma dirección, todavía en borrador5.

Una discusión de fondo, sensible para América Latina.

Buena parte de la producción del Sur global ingresa a los modelos sin atribución, reciprocidad ni consulta a las instituciones que la generan. Es un debate abierto sobre soberanía del conocimiento, no una cuestión resuelta.

03

¿Qué tienen que tener en cuenta los autores?

A nivel del autor hay dos decisiones reales al depositar, y conviene tomarlas con criterio:

Cuándo
El embargo

Mientras el texto completo no esté abierto, no queda expuesto a la recolección automática. Es un freno temporal, pero real.

Cómo
La licencia

Deja constancia de tu voluntad y puede tener peso legal según el caso. Recordá: no es una barrera técnica, y la atribución —que te citen— ya está garantizada en las seis licencias.

Una aclaración importante: a nivel del repositorio existen, además, señales técnicas (como robots.txt o los protocolos de reserva de derechos) que pueden orientar a los rastreadores. Su alcance es limitado y su definición es una decisión institucional, no del autor. Ninguna de estas medidas garantiza hoy una barrera total: los sistemas que no respetan esas señales pueden ignorarlas. Lo más útil es decidir con información y seguir un debate que está abierto.
En síntesis
  • La IA llega al repositorio por su propia apertura, no por una entrega deliberada.
  • La licencia orienta y deja constancia, pero no bloquea técnicamente.
  • El autor cuenta con el embargo y la elección de licencia; la reserva técnica es institucional.
  • El marco legal avanza hacia mecanismos de exclusión legibles por máquina.
Fuentes
  1. 1Creative Commons. «Understanding CC Licenses and AI Training: A Legal Primer» (15 de mayo de 2025) y las preguntas frecuentes «Using CC-licensed Works for AI Training» (2025). creativecommons.org
  2. 2Tribunal Regional Superior Hanseático de Hamburgo (OLG Hamburg), Kneschke c. LAION e.V., sentencia del 10 de diciembre de 2025 (ref. 5 U 104/24), que confirmó en apelación la sentencia del Tribunal Regional de Hamburgo del 27 de septiembre de 2024.
  3. 3W3C. TDM Reservation Protocol (TDMRep), informe del Grupo Comunitario (2022–2024). w3.org/ns/tdmrep
  4. 4Reglamento (UE) 2024/1689 de Inteligencia Artificial, art. 53; y Directiva (UE) 2019/790 sobre los derechos de autor en el mercado único digital (CDSM), art. 4.
  5. 5IETF, grupo de trabajo AIPREF, Vocabulary for Expressing AI Usage Preferences (borrador); y Creative Commons, CC Signals (prototipo, junio de 2025). creativecommons.org
Esta página aborda un tema en evolución (derecho de autor, repositorios e inteligencia artificial) y se revisa periódicamente.
Consultas: repositorio@unlu.edu.ar.
Última revisión: junio de 2026.