Software

Finaliza proyecto de investigación por la contaminación de las IA

Por

20/09/2024

Un trabajo destinado a evaluar el uso del lenguaje ha llegado a su fin porque los modelos generativos han saturado Internet con contenido que no representa como hablan las personas. También porque información que antes era gratuita ahora se vende a las desarrolladoras.

Wordfreq era un proyecto para evaluar la frecuencia con la que se utilizaba una palabra determinada. Funcionaba en unos 40 idiomas y dependía de un voluminoso corpus de datos conocido como Exquisite Corpus.

Exquisite Corpus tomaba información de fuentes tales como Wikipedia, Twitter, Reddit, Google Books Ngrams, NewsCrawl y Opus Open Subtitles. La técnica empleada para la recolección de información era el scrapping. Este el sistema que utilizan los desarrolladores de IA para sus bases de datos, pero en realidad antecede a esta tecnología y está presente en muchos trabajos de investigación.

Fin del proyecto

Lamentablemente la creadora de este proyecto, Robyn Speer, ha decidido darle fin. Y las razones que apunta están vinculadas a algunas de las consecuencias no deseadas del desarrollo de las IA.

Contaminación

La cantidad de texto producida por las IA presente en los sitios web es cada vez mayor. Estos textos no representan realmente el modo en que escriben los seres humanos y alteran de forma significativa las estadísticas. Speer señala como ejemplo que OpenAI parece obsesionada con la palabra en inglés delve, que muy pocas personas utilizan de verdad.

Encarecimiento de lo que era gratuito

Twitter y Reddit eran especialmente importantes porque contienen conversaciones. En una época la red ahora conocida como X permitía un acceso gratuito a sus datos, con lo que beneficiaba a una gran cantidad de proyectos de investigación. Pero con la llegada de Musk la API pública pasó a mejor vida y ahora los datos se venden a un precio elevado. Reddit también terminó con el acceso público y, según apunta Speer, vende los datos a un precio que solo las grandes compañías pueden pagar.

¡Comparte esta noticia! FUENTE: RedUsers

Finaliza proyecto de investigación por la contaminación de las IA

Fin del proyecto

Contaminación

Encarecimiento de lo que era gratuito

Últimos Artículos

Nebula 301plus: el Router de Nexxt Home para llevar la conectividad al siguiente nivel

LinkedIn: Somos demasiado aburridos para los más jóvenes

BlueSky crece y enfrenta nuevos desafíos

Se presentó el auricular SLYR de Skullcandy

Huawei lanza el Mate 70 y apuesta todo al HarmonyOS Next

Así es el nuevo modo carrera que se puede jugar en Microsoft Flight Simulator...

Eliminación de aranceles: ¿Cuánto costará importar una PlayStation 5?

Cómo desactivar Meta AI en WhatsApp y por qué algunos recomiendan hacerlo

Qué es el pharming, una ciberestafa muy peligrosa

Biwin presentó su SSD NV7200 con interfaz PCIe 4.0