Euphonia crea transcripciones voz-texto para personas afectadas por padecimientos que dificultan el habla. Hablamos con sus responsables.
Hace algún tiempo, durante Google I/O 2019, la empresa presentó numerosas formas bajo las cuales buscan hacer que la Inteligencia Artificial pueda beneficiar a personas de distintos lugares del mundo, en distintas situaciones sociales y con una infinidad de casos de uso, todos unidos por la voluntad de mejorar la accesibilidad de sus sistemas.
Para profundizar un poco más al respecto viajamos a las oficinas de Google en San Francisco. Ahí conocimos algunas de las iniciativas que esta empresa ha desarrollado internamente al alero de sus equipos de Inteligencia Artificial.
Una de las más llamativas es Project Euphonia, sistema que permite crear transcripciones voz-texto para personas afectadas por sordera, esclerosis lateral amiotrófica (ELA) en distintos grados, daño neurológico y otros padecimientos que dificultan o imposibilitan el habla.
Pisapapeles conversó con Julie Cattiau, Gerente de Producto para el área de inteligencia artificial de Google, y con Dimitri Kanevsky, investigador científico de la empresa, quienes lideran internamente el proyecto Euphonia, cerrando así las brechas que el lenguaje provoca entre personas con distintas condiciones físicas.
Esta herramienta se vale de la integración de Live Transcribe, aplicación disponible en Play Store y personalización a través de Machine Learning, y entrega a sus usuarios herramientas a la medida para mantenerse comunicados a pesar de las dificultades físicas que su condición pueda implicar.
El sistema requiere una gran cantidad de entrenamiento para lograr que la máquina pueda entender lo que queremos decir, para luego entregar una respuesta en forma de palabras que muestra en la pantalla de un smartphone, o a través de la ejecución de instrucciones, efectos de sonido o palabras.
Para esto, Euphonia tiene una interfaz web que permite a los usuarios sentarse frente a un computador y grabar comandos y frases que – posteriormente – el sistema aprende y optimiza para interpretar la real intención del usuario.
En el caso de Kanevsky, él ha grabado más de 15.000 frases. «Nadie ha destinado más tiempo ni ha grabado más frases que él», comentó Julie Cattiau al conversar sobre la manera en que el matemático ruso se ha involucrado para entrenar este sistema.
Si bien el grupo que hoy aprovecha las bondades de Euphonia es pequeño, y sólo está disponible en inglés en esta etapa, Google pretende lograr una mayor masividad con este producto, para lo que sigue buscando nuevas personas para que se integren al desarrollo de este sistema basado en inteligencia artificial y machine learning. Con ese fin ha puesto a disposición un formulario a rellenar en caso de querer postular a participar del proyecto.
El caso de Dimitri Kanevsky es llamativo y habla del largo camino para cumplir un objetivo que beneficiará a millones de personas en el mundo.
Tras quedar totalmente sordo al año de vida, el ruso aprendió su idioma materno con muchísima dificultad. La falta de audición no le impidió desenvolverse de forma exitosa en sus estudios, instancia en la que consiguió incluso un doctorado de la Universidad Estatal de Moscú.
Sus conocimientos le permitieron trabajar en el prestigioso instituto Max Planck en Alemania, en el Instituto de Estudios Avanzados de Princeton, y también en el área de investigación de IBM, donde utilizó sus conocimientos matemáticos para trabajar en el desarrollo de sistemas de reconocimiento de voz. De hecho, creó el primer sistema de este tipo que reconocía el idioma ruso.
Fue reconocido como Maestro Inventor por la gigante tecnológica en 2002, 2005 y 2010.
A su nombre hay 292 patentes relacionadas con distintos sistemas tecnológicos, y en 2012 fue premiado por el gobierno de los Estados Unidos como un «Campeón del Cambio», esto al dedicar su vida para desarrollar herramientas de accesibilidad que acerquen la ciencia, la tecnología, las matemáticas y la ingeniería a personas en situación de discapacidad.
Tras 25 años en la empresa, se movió a Google para seguir con su investigación desde el equipo de Accesibilidad. Ahí, con el apoyo de la empresa y de equipos multidisciplinarios, juntó a su grupo de trabajo con el de reconocimiento de voz para así darle forma a Euphonia.
«Con esta tecnología puedo trabajar donde sea. Puedo volver a la universidad. De hecho, comencé a hacer matemáticas», explicó Kanevsky en conversación con Pisapapeles, poniendo el foco en la autonomía que esta herramienta le ha entregado.
«Si ha abierto libertad para mí, potencialmente puede abrir esa libertad para muchas personas que no escuchan. Puedo entender a la gente y la gente me puede entender a mí. Puedo hablarle a mis nietas por primera vez usando esta tecnología», concluyó.
Mira el video.