Sherpa, un asistente por voz en español para teléfonos Android
- Sherpa entiende y atiende consultas y órdenes por voz del usuario
- Obedece a la solicitud de realizar tareas como enviar correo electrónico
La aplicación, gratuita, está disponible en Google Play
Desde hoy está disponible en Google Play, la tienda de aplicaciones para Android, la aplicación Sherpa en versión "en pruebas" gratuita. Sherpa es un asistente por voz que permite dirigirse al teléfono con lenguaje natural para solicitar información o para que realice determinadas tareas. Por ejemplo llamar por teléfono a alguien, enviar un mensaje, programar una cita en el calendario, publicar en Facebook, localizar restaurantes cercanos o reproducir música, entre otras cosas.
Reconocimiento del lenguaje natural
"Lenguaje natural" significa que el sistema debe de ser lo suficientemente sofisticado como para entender la forma de hablar normal, incluso coloquial, de las personas. Y también debe de ser capaz de responder de una manera que sea, al menos, parecida.
Es decir, en este sentido el lenguaje natural sería lo contrario a los comandos de voz que se limitan a entender una serie de palabras concretas, predefinidas, que el usuario debe conocer de antemano.
De modo que en lugar de enviar una orden o un comando como "mostrar el tiempo" para consultar la predicción meteorológica el sistema debería entender que preguntas como "¿Necesitaré paraguas hoy?" o "¿Tengo que coger ropa de abrigo?" se refieren a que el usuario necesita acceder a la información meteorológica. O incluso que únicamente necesita una respuesta directa como "si, coge el abrigo porque hará frío por la tarde" o "no, hoy no te hará falta el paraguas".
Y Sherpa es capaz de hacer esto. No siempre y no siempre de la forma ideal, pero básicamente funciona. Es capaz de atender y dar respuesta a un gran número de consultas del usuario, especialmente las más comunes y sencillas.
Funcionamiento y ejemplos
El funcionamiento de la aplicación Sherpa requiere que el teléfono disponga de conexión a Internet, ya que la voz del usuario se envía a servidores remotos donde se interpreta y desde los que se devuelve la respuesta que mostrará la aplicación.
Dependiendo de la consulta o necesidad del usuario Sherpa puede dar respuesta por sí mismo o recurrir a otras aplicaciones o funciones del teléfono. Por ejemplo, si dices "¿Cómo llego a la Estación de Atocha?" Sherpa "entiende" la pregunta y, después de aclarar si se quiere ir andando, en coche o en transporte público, envía la consulta completa del usuario ("cómo llegar a la estación de Atocha en coche y desde la ubicación actual") a la aplicación Google Maps (u otra aplicación de navegación GPS) desde la que se completa la petición hecha inicialmente.
Otro ejemplo: si pides ver los resultados de baloncesto primero Sherpa preguntará si de la liga ACB o de la NBA, y en función de la respuesta que dé el usuario abrirá el navegador web hacia una página en Internet u otra.
En cambio preguntando "¿cuándo juega el [equipo de fútbol que sea]?" es capaz de responder por sí misma, mostrando una tabla con los próximos partidos que jugará ese equipo de fútbol, tanto en la Champions League como en la Liga.
En otros casos sin embargo es inevitable tener que hablar de un modo menos natural, más próximo al comando de voz. Por ejemplo, no le puedes pedir a Sherpa "no grites" o "no me chilles", porque no lo entiende. En su lugar hay que decir "baja el volumen"... que en este ejemplo coincide con que se puede considerar lenguaje coloquial. O hay que ser específico sobre lo que se quiere hacer, por ejemplo distinguir si se desea enviar un mensaje (que por defecto sería un SMS) o un mensaje de correo electrónico.
El texto se puede dictar antes en Sherpa o redactarlo una vez abierta la aplicación con el conversor de voz a texto de Android. O teclearlo, por supuesto. Después de usarlo un poco es fácil hacerse una idea de qué cosas puede hacer y de cuáles no, y también de la mejor manera de pedirlo.
Opcionalmente se puede configurar la aplicación para que, además de mostrar los resultados en pantalla Sherpa los lea en voz alta, lo cual en general funciona bien.
No es perfecta, pero funciona
Sherpa padece el clásico problema de los diccionarios y sistemas de reconocimiento de voz y de conversión de texto a voz: se lían cuando se mezclan idiomas o cuando se utilizan palabras extranjeras, por ejemplo al indicar el título de una canción o el nombre de un artista extranjero. De hecho, salvo excepciones, si el inglés no se pronuncia "españolizado" lo más probable es que Shera no entienda el dictado.
Hablando de canciones, Sherpa puede reproducir muchas de las canciones que se le pidan aunque éstas no estén almacenadas en el teléfono móvil ya que las obtiene a través de Internet del servicio de música online Goear.
La interfaz de usuario también es uno de los puntos débiles de Sherpa. Aunque cumple su función perfectamente está pidiendo a gritos un aspecto algo más elaborado y atractivo, incluso "más serio".
Finalmente necesita aún mucho trabajo y mejoras en el entendimiento, en afinar las respuestas y en la velocidad de respuesta. Pero tratándose de una versión beta recién publicada sorprende bastante todo lo que es capaz de hacer. Además Sherpa "aprende" del usuario y guarda lo aprendido en Internet, de modo que todas las mejoras están disponibles para el usuario aunque utilice el servicio desde distintos dispositivos.