¿Cómo manejan agentes de voz los clientes bilingües?
ServiceNow-AI ha desarrollado un nuevo benchmark para evaluar cómo los sistemas de reconocimiento del habla (ASR) manejan la comunicación bilingüe en entornos empresariales.
El estudio se centra en cuatro pares lingüísticos: español-inglés, francés-inglés, canadiense-francés-inglés y alemán-inglés. Se miden tres métricas: tasa de error de palabras (WER), tasa semántica de error de palabras (SWER) y tasa de error de respuesta (AER).
“OnceLabs Scribe V2, Gemini 3 Flash y Assembly AI Universal 3-Pro destacaron en las pruebas para tareas de reconocimiento del habla bilingüe”
El benchmark utiliza un corpus interno de interacciones de soporte técnico e recursos humanos que incluye cambios fluidos entre idiomas. Cada frase debe tener entre 12 y 40 palabras, con al menos tres palabras que puedan cambiar de idioma.
OnceLabs Scribe V2, Gemini 3 Flash y Assembly AI Universal 3-Pro destacaron en las pruebas para tareas de reconocimiento del habla bilingüe. Estos modelos mostraron un bajo error en la transcripción y la preservación del significado en contextos empresariales.
El objetivo es mejorar el rendimiento de los agentes de voz en entornos donde los usuarios cambian naturalmente entre idiomas durante sus interacciones, como consultas sobre beneficios laborales o solicitudes de soporte técnico.