Un trabajo destinado a evaluar el uso del lenguaje ha llegado a su fin porque los modelos generativos han saturado Internet con contenido que no representa como hablan las personas. También porque información que antes era gratuita ahora se vende a las desarrolladoras.
Wordfreq era un proyecto para evaluar la frecuencia con la que se utilizaba una palabra determinada. Funcionaba en unos 40 idiomas y dependía de un voluminoso corpus de datos conocido como Exquisite Corpus.
Exquisite Corpus tomaba información de fuentes tales como Wikipedia, Twitter, Reddit, Google Books Ngrams, NewsCrawl y Opus Open Subtitles. La técnica empleada para la recolección de información era el scrapping. Este el sistema que utilizan los desarrolladores de IA para sus bases de datos, pero en realidad antecede a esta tecnología y está presente en muchos trabajos de investigación.
Fin del proyecto
Lamentablemente la creadora de este proyecto, Robyn Speer, ha decidido darle fin. Y las razones que apunta están vinculadas a algunas de las consecuencias no deseadas del desarrollo de las IA.
Contaminación
La cantidad de texto producida por las IA presente en los sitios web es cada vez mayor. Estos textos no representan realmente el modo en que escriben los seres humanos y alteran de forma significativa las estadísticas. Speer señala como ejemplo que OpenAI parece obsesionada con la palabra en inglés delve, que muy pocas personas utilizan de verdad.
Encarecimiento de lo que era gratuito
Twitter y Reddit eran especialmente importantes porque contienen conversaciones. En una época la red ahora conocida como X permitía un acceso gratuito a sus datos, con lo que beneficiaba a una gran cantidad de proyectos de investigación. Pero con la llegada de Musk la API pública pasó a mejor vida y ahora los datos se venden a un precio elevado. Reddit también terminó con el acceso público y, según apunta Speer, vende los datos a un precio que solo las grandes compañías pueden pagar.
¡Comparte esta noticia! FUENTE: RedUsers