Google Euphonia, un puente con el mundo a través del lenguaje

Hace algún tiempo, durante Google I/O 2019, la empresa presentó numerosas formas bajo las cuales buscan hacer que la Inteligencia Artificial pueda beneficiar a personas de distintos lugares del mundo, en distintas situaciones sociales y con una infinidad de casos de uso, todos unidos por la voluntad de mejorar la accesibilidad de sus sistemas.

Para profundizar un poco más al respecto viajamos a las oficinas de Google en San Francisco. Ahí conocimos algunas de las iniciativas que esta empresa ha desarrollado internamente al alero de sus equipos de Inteligencia Artificial.

Una de las más llamativas es Project Euphonia, sistema que permite crear transcripciones voz-texto para personas afectadas por sordera, esclerosis lateral amiotrófica (ELA) en distintos grados, daño neurológico y otros padecimientos que dificultan o imposibilitan el habla.

Pisapapeles conversó con Julie Cattiau, Gerente de Producto para el área de inteligencia artificial de Google, y con Dimitri Kanevsky, investigador científico de la empresa, quienes lideran internamente el proyecto Euphonia, cerrando así las brechas que el lenguaje provoca entre personas con distintas condiciones físicas.

Shaiqing Cai, ingeniero de software de Google entrenando con comandos personalizados una máquina.

Dando voz a los que no la tienen, una persona a la vez

Esta herramienta se vale de la integración de Live Transcribe, aplicación disponible en Play Store y personalización a través de Machine Learning, y entrega a sus usuarios herramientas a la medida para mantenerse comunicados a pesar de las dificultades físicas que su condición pueda implicar.

El sistema requiere una gran cantidad de entrenamiento para lograr que la máquina pueda entender lo que queremos decir, para luego entregar una respuesta en forma de palabras que muestra en la pantalla de un smartphone, o a través de la ejecución de instrucciones, efectos de sonido o palabras.

Representación gráfica de las instrucciones grabadas para entrenar a Euphonia

Para esto, Euphonia tiene una interfaz web que permite a los usuarios sentarse frente a un computador y grabar comandos y frases que – posteriormente – el sistema aprende y optimiza para interpretar la real intención del usuario.

En el caso de Kanevsky, él ha grabado más de 15.000 frases. «Nadie ha destinado más tiempo ni ha grabado más frases que él», comentó Julie Cattiau al conversar sobre la manera en que el matemático ruso se ha involucrado para entrenar este sistema.

Si bien el grupo que hoy aprovecha las bondades de Euphonia es pequeño, y sólo está disponible en inglés en esta etapa, Google pretende lograr una mayor masividad con este producto, para lo que sigue buscando nuevas personas para que se integren al desarrollo de este sistema basado en inteligencia artificial y machine learning. Con ese fin ha puesto a disposición un formulario a rellenar en caso de querer postular a participar del proyecto.

Transcripción hecha por un dispositivo Android con una frase de Kanevsky. Foto: Google

Desde Rusia con amor (por la accesibilidad)

El caso de Dimitri Kanevsky es llamativo y habla del largo camino para cumplir un objetivo que beneficiará a millones de personas en el mundo.

Tras quedar totalmente sordo al año de vida, el ruso aprendió su idioma materno con muchísima dificultad. La falta de audición no le impidió desenvolverse de forma exitosa en sus estudios, instancia en la que consiguió incluso un doctorado de la Universidad Estatal de Moscú.

Sus conocimientos le permitieron trabajar en el prestigioso instituto Max Planck en Alemania, en el Instituto de Estudios Avanzados de Princeton, y también en el área de investigación de IBM, donde utilizó sus conocimientos matemáticos para trabajar en el desarrollo de sistemas de reconocimiento de voz. De hecho, creó el primer sistema de este tipo que reconocía el idioma ruso.

Fue reconocido como Maestro Inventor por la gigante tecnológica en 2002, 2005 y 2010.

A su nombre hay 292 patentes relacionadas con distintos sistemas tecnológicos, y en 2012 fue premiado por el gobierno de los Estados Unidos como un «Campeón del Cambio», esto al dedicar su vida para desarrollar herramientas de accesibilidad que acerquen la ciencia, la tecnología, las matemáticas y la ingeniería a personas en situación de discapacidad.

Tras 25 años en la empresa, se movió a Google para seguir con su investigación desde el equipo de Accesibilidad. Ahí, con el apoyo de la empresa y de equipos multidisciplinarios, juntó a su grupo de trabajo con el de reconocimiento de voz para así darle forma a Euphonia.

Dimitri Kanevsky dictando clases. Foto: IBM Research

«Con esta tecnología puedo trabajar donde sea. Puedo volver a la universidad. De hecho, comencé a hacer matemáticas», explicó Kanevsky en conversación con Pisapapeles, poniendo el foco en la autonomía que esta herramienta le ha entregado.

«Si ha abierto libertad para mí, potencialmente puede abrir esa libertad para muchas personas que no escuchan. Puedo entender a la gente y la gente me puede entender a mí. Puedo hablarle a mis nietas por primera vez usando esta tecnología», concluyó.

Mira el video.

Intel plantea que el ancho de banda de memoria es clave para el rendimiento de la IA

CXMT acelera su producción y prepara el salto al DDR6

Samsung lanza la Galaxy Card en Estados Unidos con hasta 5% de devolución en efectivo

Review Sony 1000X THE COLLEXION

Review Intel Core Ultra 7 270K Plus

Review Rythm Heaven Groove (Nintendo Switch 2)

Patente filtrada del Huawei Mate XT 2 revela un nuevo diseño y mecanismo de plegado

One UI 9 podría estrenar una misteriosa función de cámara llamada Mirror View en los Galaxy Z Fold 8 y Flip 8

Filtran los renders oficiales de prensa del próximo Google Pixel Watch 5

Francisca Florenzano de Entel: “La brecha digital no puede ser el factor que aparte a las personas mayores”

[Parte 1] Danilo Muza de Samsung Chile: “La tecnología Micro RGB busca mostrar la imagen como fue concebida”

Carlo Dubón de Dreame Technology: “El consumidor chileno puede pagar por un producto, pero exige calidad”

Alerta sísmica: Aprende a instalar y configurar Sismo Detector en tu iPhone y Android para saber segundos antes que va a temblar

Tecnología Micro RGB: ¿Qué es y cómo funciona el sistema de retroiluminación?

Mini LED, Micro LED, Micro RGB y OLED: ¿qué son y en qué se diferencian?

La fecha de preventa del remake de Zelda: Ocarina of Time podría haberse filtrado antes del lanzamiento

PlayStation anuncia la beta abierta de Marvel Tōkon: Fighting Souls para PS5 y PC

Mario Tennis Fever recibe una actualización gratuita con temática de Super Mario Galaxy: nueva cancha, raqueta y más

Google Euphonia, un puente con el mundo a través del lenguaje

Dando voz a los que no la tienen, una persona a la vez

Desde Rusia con amor (por la accesibilidad)

Redmi Note 17 ya es oficial: pantalla OLED de 7 pulgadas, batería de 8.000 mAh y protección antifraude con IA

Motorola muestra la Moto Pad 70 Groove con 9 altavoces JBL antes de su alnzamiento

Motorola aclara oficialmente el soporte de software del Edge 70 Max: hasta 3 actualizaciones y 5 años de parches

Apple M7 Ultra: filtrado con hasta 1,5 TB de memoria unificada, igualando al Mac Pro de 2019

Hisense presenta el A10, un smartphone con Android 16, pantalla de tinta electrónica y una pantalla LCD desmontable

Google Euphonia, un puente con el mundo a través del lenguaje

Dando voz a los que no la tienen, una persona a la vez

Desde Rusia con amor (por la accesibilidad)

Suscríbete