Tecnología de IA: Brecha de Precios entre Idiomas Aumenta la Disparidad, según Estudio de la Universidad de Oxford

Un reciente estudio realizado por un equipo de científicos de la Universidad de Oxford ha arrojado luz sobre la significativa disparidad de precios que existe en el ámbito de la inteligencia artificial (IA) en función del idioma en el que opera. Este fenómeno está creando una brecha considerable entre la IA en inglés y en otros idiomas, incluido el español.

El análisis se centró en empresas líderes en el desarrollo de IA, como OpenAI, responsable de ChatGPT, y llegó a la conclusión de que la disparidad en el tratamiento de diferentes idiomas se origina en la etapa de tokenización, mucho antes de que se invoque un modelo de IA.

El estudio, llevado a cabo por Aleksandar Petrov, Emanuele La Malfa, Philip H.S. Torr y Adel Bibi, destacó ejemplos notables de esta disparidad. Por ejemplo, el procesamiento en chino simplificado resulta el doble de costoso que en inglés, mientras que en el caso de la lengua Shan (Birmania), la diferencia es asombrosa, llegando a ser 15 veces más costoso.

La tokenización es una unidad de medida que representa el costo computacional de acceder a un modelo de lenguaje a través de una API, que es un componente de código que permite a diferentes aplicaciones comunicarse entre sí para compartir información y funcionalidades. El sistema de tokenización revela que los modelos utilizados en idiomas distintos al inglés son mucho más costosos de emplear y entrenar debido a las estructuras gramaticales más complejas y al mayor número de caracteres requeridos en lenguajes como el chino o el español, lo que resulta en una mayor tasa de tokenización.

Incluso al considerar modelos a nivel de caracteres y bytes, se observa una diferencia de más de 4 veces en la longitud de codificación para algunos pares de idiomas. Esta mayor carga computacional tiene un impacto injusto en las comunidades lingüísticas en términos de costo de acceso a servicios comerciales, tiempo de procesamiento, latencia y la cantidad de contenido que se puede proporcionar como contexto a los modelos de IA.

OpenAI ofrece un tokenizador del modelo de lenguaje GPT-3 que permite visualizar estas diferencias. Por ejemplo, una expresión como "tu afecto" consta de solo 2 tokens en inglés, pero de 8 en chino simplificado, a pesar de que la expresión en chino requiere menos caracteres que en inglés. En español, la cantidad de tokens asciende a 4.

La propia OpenAI señala que, como regla general, 1 token equivale a 4 caracteres en inglés y 100 tokens a unas 75 palabras, pero advierte que esta regla no es aplicable a otros idiomas.

El estudio también resalta que esta ventaja del inglés se debe, en parte, a los conjuntos de datos utilizados para entrenar a las IA, así como a la compresibilidad superior del inglés en un menor número de tokens. Concluye que el problema no radica en la forma en que se ha monetizado la IA, sino que es una limitación inherente de la tecnología y los modelos base utilizados para entrenar la IA.