Google confirma que también está entrenando a Bard en datos web

El gigante de las búsquedas actualizó su política de privacidad para incluir Bard y Cloud AI junto con Google Translate

     Comentarios
     Comentarios

El sitio web Gizmodo descubrió que Google actualizó su política de privacidad para revelar que sus diversos servicios de IA, como Bard y Cloud AI, pueden estar entrenados en datos públicos que la empresa ha extraído de la web.

“Nuestra política de privacidad ha sido transparente durante mucho tiempo en cuanto a que Google usa información disponible públicamente de la web abierta para entrenar modelos de lenguaje para servicios como Google Translate”, dijo la portavoz de Google, Christa Muldoon, a The Verge . “Esta última actualización simplemente aclara que también se incluyen servicios más nuevos como Bard. Incorporamos principios y salvaguardas de privacidad en el desarrollo de nuestras tecnologías de IA, de acuerdo con nuestros Principios de IA”.

Luego de la actualización del 1 de julio de 2023, la política de privacidad de Google ahora dice que "Google usa información para mejorar nuestros servicios y desarrollar nuevos productos, funciones y tecnologías que benefician a nuestros usuarios y al público" y que la compañía puede "usar información disponible públicamente". información para ayudar a entrenar los modelos de IA de Google y crear productos y funciones como Google Translate, Bard y capacidades de IA en la nube”.

En el historial de revisión de la política, puede ver que la actualización proporciona una mayor claridad en cuanto a los servicios que se entrenarán con los datos recopilados. Por ejemplo, el documento ahora dice que la información puede usarse para "Modelos de IA" en lugar de "modelos de lenguaje", lo que otorga a Google más libertad para entrenar y construir sistemas además de LLM en sus datos públicos. E incluso esa nota está enterrada debajo de un enlace incrustado para "fuentes de acceso público" debajo de la pestaña " Su información local " de la política en la que debe hacer clic para abrir la sección correspondiente.

La política actualizada especifica que la "información disponible públicamente" se usa para entrenar los productos de IA de Google, pero no dice cómo (o si) la empresa evitará que los materiales protegidos por derechos de autor se incluyan en ese conjunto de datos. Muchos sitios web de acceso público tienen políticas vigentes que prohíben la recopilación de datos o el web scraping con el fin de entrenar modelos de lenguaje grandes y otros conjuntos de herramientas de IA. Será interesante ver cómo se desarrolla este enfoque con varias regulaciones globales como GDPR que también protegen a las personas contra el uso indebido de sus datos sin su permiso expreso.

Una combinación de estas leyes y una mayor competencia en el mercado han hecho que los fabricantes de sistemas populares de IA generativa como GPT-4 de OpenAI sean extremadamente cautelosos acerca de dónde obtuvieron los datos utilizados para capacitarlos y si incluyen o no publicaciones en redes sociales u obras protegidas por derechos de autor de artistas humanos y autores 

La cuestión de si la doctrina del uso justo se extiende o no a este tipo de aplicación actualmente se encuentra en un área gris legal. La incertidumbre ha provocado varias demandas y ha empujado a los legisladores de algunas naciones a introducir leyes más estrictas que estén mejor equipadas para regular cómo las empresas de inteligencia artificial recopilan y utilizan sus datos de formación. También plantea preguntas sobre cómo se procesan estos datos para garantizar que no contribuyan a fallas peligrosas dentro de los sistemas de IA, con las personas encargadas de clasificar estos vastos grupos de datos de capacitación a menudo sujetos a largas horas y condiciones de trabajo extremas .

Gannett, el editor de periódicos más grande de los Estados Unidos, está demandando a Google y su empresa matriz, Alphabet, alegando que los avances en la tecnología de IA han ayudado al gigante de las búsquedas a tener el monopolio del mercado de publicidad digital. Productos como la versión beta de búsqueda de IA de Google también han sido denominados " motores de plagio " y criticados por privar de tráfico a los sitios web.

Mientras tanto, Twitter y Reddit, dos plataformas sociales que contienen grandes cantidades de información pública, han tomado recientemente medidas drásticas para tratar de evitar que otras empresas recopilen libremente sus datos. Los cambios y las limitaciones de la API colocados en las plataformas han recibido una reacción violenta por parte de sus respectivas comunidades, ya que los cambios anti-scraping han afectado negativamente las experiencias centrales de los usuarios de Twitter y Reddit .

Comentarios