El diari digital cedeix de forma anonimitzada el contingut dels seus fòrums al projecte AINA, impulsat per la Generalitat de Catalunya i el Barcelona Supercomputing Center (BSC)

El diari digital Racó Català ha cedit al projecte AINA, liderat pel Departament de Polítiques Digitals de la Generalitat de Catalunya i el Barcelona Supercomputing Center-Centro Nacional de Supercomputación (BSC), el contingut dels seus fòrums de forma anonimitzada per a contribuir en el desenvolupament de la intel·ligència artificial en català.
Els fòrums del Racó Català són la base de dades més gran a nivell estatal de contingut generat per l’usuari en català, i permetrà als sistemes d’intel·ligència artificial reconèixer indicadors tan importants com les emocions, els posicionaments o el llenguatge ofensiu, essencial per lluitar contra el ciberassetjament.
A més, el contingut que es pot trobar als fòrums és especialment interessant perquè acull diferents registres i dialectes. Aquest fet el diferencia del material que ha cedit altres entitats com ara l’Agència Catalana de Notícies (ACN) o l’Enciclopèdia Catalana entre altres fonts, que reflecteix un català normatiu. Gràcies a l’aportació de Racó Català, els models lingüístics generats dins del marc del projecte AINA ara podran interpretar també el llenguatge propi dels contextos informals i dialectals.
Per a iniciar el treball s’han seleccionat algunes publicacions i s’han anonimitzat les dades dels usuaris per mantenir-ne la privacitat. En aquest sentit, els noms d’usuari que apareixen dins del contingut han estat substituïts per noms de persona seleccionats a l’atzar, de manera que el text resultant queda natural i s'impossibilita la identificació de l'usuari real. També s’han eliminat del contingut els noms dels usuaris que l’han generat o qualsevol referència a correus electrònics, usuaris de xarxes socials, etc. que puguin contenir per fer el màxim d’indetectable tant l’emissor com el receptor com gent i usuaris mencionats.
Les noves tecnologies d’intel·ligència artificial i les tecnologies del llenguatge es basen en l’aplicació d’algorismes sobre grans conjunts de dades de qualitat, que són, almenys en part, específics per a cada llengua. Fins ara, els esforços de recopilar aquestes dades per al català, entrenar i avaluar els models, i d’implementar aplicacions basades en aquestes tecnologies es feien per part de voluntaris (com Softcatalà) o grups universitaris. Amb el projecte AINA, però, aquesta tasca fa un salt qualitatiu i quantitatiu per assolir una veritable infraestructura tècnica per aprofitar els avantatges de l’IA al mateix nivell i potencia que en altres llengües com l’anglès, el castellà o l’alemany.
I no només això, sinó que l’equip del projecte AINA també està treballant per seleccionar algunes frases que, convenientment anonimitzades i filtrades, serveixin per enriquir la base de dades del Common Voice, un projecte col·laboratiu que té per objectiu crear una base de dades lliure de veus en diferents idiomes útil per a programari de reconeixement de la parla.
Els fòrums de Racó Català han esdevingut la base de dades de contingut relacional més gran amb què treballa el projecte AINA