Els fòrums de Racó Català, base de dades clau per al desenvolupament de la intel·ligència artificial en català

El diari digital cedeix de forma anonimitzada el contingut dels seus fòrums al projecte AINA, impulsat per la Generalitat de Catalunya i el Barcelona Supercomputing Center (BSC)

21.06.2022 08:02

El diari digital Racó Català ha cedit al projecte AINA, liderat pel Departament de Polítiques Digitals de la Generalitat de Catalunya i el Barcelona Supercomputing Center-Centro Nacional de Supercomputación (BSC), el contingut dels seus fòrums de forma anonimitzada per a contribuir en el desenvolupament de la intel·ligència artificial en català.

Els fòrums del Racó Català són la base de dades més gran a nivell estatal de contingut generat per l’usuari en català, i permetrà als sistemes d’intel·ligència artificial reconèixer indicadors tan importants com les emocions, els posicionaments o el llenguatge ofensiu, essencial per lluitar contra el ciberassetjament.

A més, el contingut que es pot trobar als fòrums és especialment interessant perquè acull diferents registres i dialectes. Aquest fet el diferencia del material que ha cedit altres entitats com ara l’Agència Catalana de Notícies (ACN) o l’Enciclopèdia Catalana entre altres fonts, que reflecteix un català normatiu. Gràcies a l’aportació de Racó Català, els models lingüístics generats dins del marc del projecte AINA ara podran interpretar també el llenguatge propi dels contextos informals i dialectals.

Per a iniciar el treball s’han seleccionat algunes publicacions i s’han anonimitzat les dades dels usuaris per mantenir-ne la privacitat. En aquest sentit, els noms d’usuari que apareixen dins del contingut han estat substituïts per noms de persona seleccionats a l’atzar, de manera que el text resultant queda natural i s'impossibilita la identificació de l'usuari real. També s’han eliminat del contingut els noms dels usuaris que l’han generat o qualsevol referència a correus electrònics, usuaris de xarxes socials, etc. que puguin contenir per fer el màxim d’indetectable tant l’emissor com el receptor com gent i usuaris mencionats.

Les noves tecnologies d’intel·ligència artificial i les tecnologies del llenguatge es basen en l’aplicació d’algorismes sobre grans conjunts de dades de qualitat, que són, almenys en part, específics per a cada llengua. Fins ara, els esforços de recopilar aquestes dades per al català, entrenar i avaluar els models, i d’implementar aplicacions basades en aquestes tecnologies es feien per part de voluntaris (com Softcatalà) o grups universitaris. Amb el projecte AINA, però, aquesta tasca fa un salt qualitatiu i quantitatiu per assolir una veritable infraestructura tècnica per aprofitar els avantatges de l’IA al mateix nivell i potencia que en altres llengües com l’anglès, el castellà o l’alemany.

I no només això, sinó que l’equip del projecte AINA també està treballant per seleccionar algunes frases que, convenientment anonimitzades i filtrades, serveixin per enriquir la base de dades del Common Voice, un projecte col·laboratiu que té per objectiu crear una base de dades lliure de veus en diferents idiomes útil per a programari de reconeixement de la parla.

Els fòrums de Racó Català han esdevingut la base de dades de contingut relacional més gran amb què treballa el projecte AINA

Segueix navegant

Subscriu-te al butlletí SmartCatalonia (Abre en pestaña nueva)

Segueix navegant

¿No sabes por dónde empezar?