Hacia una inteligencia artificial verdaderamente en español

El auge de la nueva tecnología basada en la lengua nos obliga a proyectar y defender nuestro idioma en un ámbito dominado por el inglés.

La inteligencia artificial basada en la lengua, un desafío para el español. ELENA CANTÓN/FOTO: TACHINA LEE
La inteligencia artificial basada en la lengua, un desafío para el español. ELENA CANTÓN/FOTO: TACHINA LEE

Inteligencia artificial. Esa fue la “palabra del año” elegida por la Real Academia de la Lengua Española en 2022. Y es que, si la robotización está cambiando nuestras vidas y amenaza con cambiarlas mucho más, la inteligencia artificial (IA) basada en la lengua está cobrando mucha fuerza y nos obliga a adaptarnos. De hecho, ya no solo es imprescindible proyectar nuestro idioma y defenderlo en el infinito espacio digital, sino también en el inquietante ámbito de la IA, que además está dominado por el inglés.

Por ello, el Congreso Internacional de la Lengua Española (CILE) celebra su IX edición en Cádiz en un momento transcendental, entre otras razones, porque las nuevas tecnologías del lenguaje, es decir la rama de la IA que permite explotar la información textual y audiovisual, están experimentando grandísimos avances que nos permiten interactuar con las máquinas de una manera que, hace no mucho tiempo, era inconcebible.

Estos cambios tan transformadores, sin precedentes, nos llevan a interpelarnos sobre la salud del español en una tecnología que es básicamente anglosajona, además de preguntarnos qué podemos y debemos hacer para que la IA hable en español, en un buen español, sin sesgos, que comprenda nuestras diversidades orales y esté a la altura de nuestra riqueza lingüística.

En Cádiz, alrededor de 300 especialistas del mundo de habla hispana debatirán asuntos relacionados con la realidad del español desde numerosas ópticas. Desde el papel del español como motor cultural y de entretenimiento, pasando por el mestizaje y la interculturalidad, hasta el análisis de nuestro idioma como una lengua con valor global. Se trata de un encuentro trascendental en el que se abordarán los principales aspectos relacionados con el pasado, el presente y, sobre todo, el futuro de un idioma universal, que hablan casi 600 millones de personas. Y es que el futuro de todas las lenguas se escribe en digital.  

Tecnológicamente hablando, inauguramos el año con un salto hacia lo desconocido: el ChatGPT de Open AI (Microsoft). Resulta que, en lugar de interpelar al ordenador sobre un tema acotado, los llamados chatbots específicos, nos estamos acostumbrando a preguntar a las máquinas sobre temas de toda índole y a plantearles todo tipo de retos, incluidos algorítmicos o de programación. Resulta muy interesante que nos responda, en general, con una sorprendente calidad lingüística y de contenido. Ya podemos afirmar que los amplios modelos de lenguaje de gran escala, basados en vastísimos corpus o bases de datos, constituyen la tecnología de IA más revolucionaria de los últimos tiempos.

Estos modelos son capaces de reconocer, producir, traducir y procesar el habla y comunicar en muchas lenguas, incluido el español, a un nivel difícilmente distinguible al de un humano. Junto ChatGPT, las grandes tecnológicas americanas han lanzado o están ultimando sus versiones como la MDA/Bard de Google o LLaMA de Meta. Todos ellos son instrumentos conversacionales en los que la lengua se convierte en el vehículo para lograr la comunicación efectiva entre el humano y la máquina, con la salvedad que deben tener una supervisión humana.

¿Dónde estriba el problema si el ChatGPT ya escribe en español, y además de elevada calidad? Reside en que estos modelos de lenguaje están entrenados con inmensos conjuntos de datos en inglés, los corpus, con todo lo que conlleva de sesgos lingüísticos. Ello provoca que este progreso tecnológico no se desarrolle por igual en todas las lenguas, ya que existe una diferencia abismal entre el inglés y las demás lenguas en volumen de corpus lingüísticos, incluido el español, por mucho que sea la segunda más hablada del mundo.

Ante un espacio dominado por grandes compañías tecnológicas americanas y el empuje de China, que mantiene con gran sigilo sus avances en IA, Europa ha comenzado a actuar decididamente para alcanzar y preservar la necesaria autonomía tecnológica, dada la gran importancia estratégica de las nuevas tecnologías del lenguaje.

España está avanzando a buen ritmo, gracias a las acciones desplegadas por el Ministerio de Asuntos Económicos y Transformación Digital y a través del proyecto estratégico (PERTE) de la Nueva Economía de la Lengua financiado con fondos Next Generation de la Unión Europea. Asimismo, la digitalización de nuestro país es uno de los cuatro ámbitos fundamentales de transformación y modernización, junto a la transición verde, la igualdad y la inclusión territorial.

Por ello, apostamos por ampliar, unir y conectar los diversos corpus lingüísticos sectoriales desarrollados en castellano y en las otras lenguas cooficiales de España (catalán, gallego y euskera) por instituciones, organismos, universidades y centros de investigación. Algunos tienen el valiosísimo sello de calidad de la RAE, otros surgen de trabajos de investigación centrados en las variedades orales para el estudio académico de la evolución de la lengua, y los hay de índole distinta y uso variado.

De todas maneras, dado que el volumen de corpus disponibles en español es significativamente menor que en inglés y que aquellos en lenguas cooficiales se encuentran todavía en situación de fragilidad, la urgencia de desarrollar y ampliar estas grandes bases de datos lingüísticos es, si cabe, mucho mayor. Tenemos infraestructuras computacionales únicas y de vanguardia a nivel mundial y trabajamos en la actualización del Plan Nacional de Tecnologías del Lenguaje, que ha posicionado a la comunidad investigadora española en este ámbito en primera línea europea.

Todo ello, con una visión panhispánica, porque entendemos que el español es un activo que compartimos con Latinoamérica, que lo enriquece con las variedades y giros dialectales, por lo que estamos convencidos de que asegurar un gran futuro del español en el ámbito digital y de la IA es una labor común y una responsabilidad compartida.

Todo este trabajo innovador que España lidera nos permitirá poner al servicio de las empresas, centros de investigación o administraciones un amplio repertorio de datos lingüísticos listos para ser segmentados y utilizados en multitud de ámbitos (cultural, jurídico, científico, tecnológico, etc.). De esta forma evitaremos utilizar tecnología anglosajona y haremos de nuestra lengua un motor de desarrollo económico y transformación.

En última instancia, aspiramos a situar las tecnologías en español como referencia en el mundo hispanohablante, en la vanguardia internacional. Solo así podrán ser protagonistas de una auténtica revolución tecnológica y digital sin precedentes.

Comisionada especial para la Alianza por la Nueva Economía de la Lengua del Gobierno de España.

Lo más leído
Newsletter Coolt

¡Suscríbete a nuestra 'newsletter'!

Recibe nuestros contenidos y entra a formar parte de una comunidad global.

coolt.com

Destacados