Meta presenta modelo para la transcripción de voz a texto en más de 1500 idiomas

Esta semana la compañía Meta presentó un modelo que puede hacer transcripción de voz a texto en más de 1000 idiomas, gracias a sus capacidades de reconocimiento automático del habla.

Al respecto, el sistema puede transcribir más de 1600 idiomas, incluyendo los menos representados. En este punto, se incluyen 500 idiomas que nunca antes habían sido transcritos por la inteligencia artificial (IA).

De acuerdo con lo señalado por la compañía, esto se considera “un avance significativo hacia un sistema de transcripción verdaderamente universal”. Así pues, Meta busca reducir la brecha que existe con la tecnología de reconocimiento automático del habla.

Meta lleva a más de 1500 idiomas la transcripción de voz a texto

Para lograr este tipo de transcripción en miles de idiomas, Meta desarrolló y perfeccionó los sistemas de reconocimiento automático de voz. Estos sistemas requieren de grandes volúmenes de datos de un idioma para poder transcribir el audio de manera precisa.

Aunque esto no es un problema para los idiomas más conocidos en el mundo, no ocurre lo mismo con las lenguas menos habladas. Ante esto, Meta consiguió una solución: crear un enfoque basado en el aprendizaje contextual.

Esta nueva técnica permite que los sistemas puedan hacer transcripciones de “calidad aceptable” a partir de una pequeña cantidad de ejemplos de audio y texto de dicho idioma. De modo que el reconocimiento de voz se hace más accesible, incluso cuando no hay mucha información.

Si bien el rendimiento sin ejemplos de aprendizaje aún no alcanza el de los sistemas completamente entrenados, ofrece una vía mucho más escalable para incorporar nuevos idiomas al ámbito digital”, señaló la compañía en su blog de IA.

De esta manera, la compañía quiere hacer más accesible la tecnología de reconocimiento automático del habla (ASR, por sus siglas en inglés). Es bien sabido que los sistemas de conversión de voz a texto de alta calidad suelen estar limitados a los idiomas más comunes.

Esto se debe a que son los idiomas que cuentan con más recursos de datos para entrenar a los modelos de inteligencia artificial. Sin embargo, esto se traduce en que la transcripción avanzada no llega de igual forma a los idiomas poco conocidos.

Herramienta de reconocimiento automático del habla

Entre las herramientas de reconocimiento automático del habla desarrolladas por Meta está Omnilingual ASR. Se trata de un conjunto de modelos que puede hacer transcripciones en más de 1600 idiomas, incluyendo 500 pocos conocidos.

Según datos de la compañía, Omnilingual ASR “alcanza un rendimiento de vanguardia en más de 1600 idiomas, con tasas de error de caracteres inferiores al 10% en el 78% de ellos”. 

Por otra parte, la tasa de error de caracteres es inferior al 10 % en el 36 % de los casos respecto a los idiomas con pocos recursos y menos de 10 horas de entrenamiento. Esto se traduce en que las comunidades lingüísticas más pequeñas tendrán acceso a esta tecnología.

Así pues, con este modelo de reconocimiento automático del habla, Meta amplía la transcripción de voz a texto a personas hablantes de 1600 idiomas, llevando la tecnología a más lugares.

Información de La Vanguardia / redacción Tecnoflash

No dejes de leer: Traductor de Google podría estrenar nuevas funciones: Conoce los modos de uso


Usa la tecnología con inteligencia, únete a nuestras redes sociales hoy

Instagram

Telegram

X (Twitter)

TikTok

YouTube

Más del Autor

Artículos Relacionados

Últimas publicaiones

Meta destaca entre las empresas más sostenibles por sus centros de datos

La compañía tecnológica Meta destacó entre las 250 empresas más sostenibles del mundo en 2025, debido a la construcción de centros de datos sostenibles,...

Meta elimina cuentas de menores en Australia por nueva ley de redes sociales

Meta anunció el jueves 4 de diciembre de 2025 que comenzó a eliminar las cuentas de menores de 16 años en las redes sociales...

Healthify lanza actualización de su asistente Ria: usuarios podrán conversar por voz

La empresa tecnológica dedicada al área de la salud, Healthify, que está respaldada por la firma Khosla, lanzó esta semana una actualización de su...

Tendencias de búsqueda en Google 2025: Gemini, deportes y noticias

Google reveló en un informe cuáles fueron las tendencias de búsqueda más populares a escala global durante el año 2025, donde los protagonistas fueron...

Sam Altman declara «código rojo» en OpenAI para optimizar ChatGPT

El CEO de OpenAI, Sam Altman, declaró una alerta de “código rojo” en la compañía estadounidense para mejorar con rapidez las funciones de personalización...