NVIDIA ha revelado Fugatto, un modelo de inteligencia artificial diseñado para crear y modificar audio a partir de indicaciones de texto. Descrito como «una navaja suiza para el sonido», este modelo permite generar música, voces y efectos sonoros, además de modificar archivos preexistentes. Fugatto fue desarrollado por un equipo internacional, lo que fortalece sus capacidades multilingües y su habilidad para adaptarse a múltiples acentos.
«Queríamos crear un modelo que entienda y genere sonido como lo hacen los humanos», explicó Rafael Valle, gerente de investigación de audio aplicado en NVIDIA y uno de los responsables del proyecto.
Fugatto tiene el potencial de revolucionar diversos campos creativos y educativos. Entre los casos de uso sugeridos por NVIDIA se encuentran:
- Producción musical: Creación rápida de prototipos para canciones, facilitando la exploración de estilos, voces e instrumentos.
- Educación y aprendizaje de idiomas: Generación de materiales personalizados, incluyendo voces específicas para distintas necesidades.
- Desarrollo de videojuegos: Generación dinámica de sonidos adaptados a las decisiones y acciones de los jugadores.
Además, el modelo tiene la capacidad de realizar tareas no incluidas en su entrenamiento inicial. Por ejemplo, puede combinar indicaciones como generar un discurso enojado con un acento específico o crear efectos sonoros complejos, como el canto de pájaros durante una tormenta. También puede generar sonidos que evolucionan con el tiempo, como el avance de una tormenta sobre un paisaje.
Aunque Fugatto representa un avance notable, no es el único modelo de IA enfocado en audio. Meta y Google también han desarrollado herramientas similares. Meta lanzó un kit de IA de código abierto para la creación de sonidos basados en texto, mientras que Google ofrece MusicLM, una herramienta que transforma texto en música accesible a través de su plataforma AI Test Kitchen.
Por ahora, NVIDIA no ha anunciado si Fugatto estará disponible para el público. Sin embargo, el modelo amplía significativamente las posibilidades de la inteligencia artificial generativa aplicada al audio.
¿Qué usos creativos o prácticos imaginas para una herramienta como Fugatto en tu vida diaria o profesional?