Close

Login

Close

Register

Close

Lost Password

Lo último

Lyria 3: detalles del nuevo modelo de Google para generar música

Google lanza Lyria 3, integrando generación de música y letra en Gemini. Analizamos su tecnología, el impacto en YouTube y la polémica del copyright en 2026.

Del tono monofónico a la sinfonía sintética

¿Recuerdan cuando tener un tono polifónico en el móvil era el colmo de la sofisticación tecnológica? A principios de los 2000, la idea de que un teléfono pudiera reproducir algo parecido a una canción real parecía magia negra. Hoy, apenas dos décadas después, la barrera entre la composición humana y la generación algorítmica se ha desdibujado hasta volverse casi invisible. El 18 de febrero de 2026 marca un nuevo hito en esta cronología acelerada: Google ha liberado Lyria 3, su modelo de generación musical más avanzado hasta la fecha, directamente en la aplicación de Gemini.

Si hace unos años nos asombrábamos con modelos que apenas podían tararear una melodía coherente, lo que Google DeepMind ha puesto sobre la mesa este miércoles cambia las reglas del juego. Ya no hablamos solo de ritmos de fondo o ambientación instrumental; hablamos de canciones completas, con letras generadas al vuelo, voces que respiran y una capacidad de interpretar no solo texto, sino imágenes. Es el momento de analizar cómo hemos llegado aquí y, lo más importante, qué significa esto para el futuro de la creatividad humana.

Lyria 3: mucho más que un generador de ruido

La llegada de Lyria 3 no es una actualización menor; es un salto generacional respecto a sus predecesores, MusicLM y las primeras versiones de Lyria probadas en 2023. Según la documentación técnica publicada por Google DeepMind, la gran novedad reside en la integración multimodal y la capacidad vocal. Hasta ayer, la mayoría de las IAs musicales comerciales sufrían para generar voces que no sonaran metálicas o “embrujadas”. Lyria 3 rompe esa barrera.

El sistema permite a los usuarios describir un género, un estado de ánimo o una situación específica (por ejemplo, “una balada R&B sobre perder el último tren a casa bajo la lluvia”) y obtener un track de 30 segundos con una fidelidad de audio de 48kHz. Pero lo verdaderamente revolucionario —y un poco inquietante— es su capacidad para “ver” la música. Gracias a la integración con los modelos de visión de Gemini, un usuario puede subir una foto de una puesta de sol o un vídeo de su mascota, y Lyria 3 compondrá una banda sonora que interprete la “vibra” visual de ese contenido.

Joël Yawili, Gerente de Producto Senior en Gemini, enfatizó durante el lanzamiento que el objetivo no es reemplazar a los artistas en las listas de éxitos, sino democratizar la expresión. “El objetivo de estas pistas no es crear una obra maestra musical, sino darte una forma divertida y única de expresarte”, afirmó en el comunicado oficial. Sin embargo, cualquiera que escuche los resultados notará que la línea entre “diversión” y “producción profesional” es cada vez más delgada.

Características técnicas clave de Lyria 3

Para entender el salto cualitativo, basta con mirar las especificaciones que diferencian a esta versión de los experimentos de 2024:

  • Generación Lírica Autónoma: Ya no necesitas escribir la letra. El modelo entiende el contexto del prompt y genera versos coherentes (aunque a veces clichés) que encajan con la métrica musical.
  • Control Granular: A diferencia de la “caja negra” que eran los modelos anteriores, Lyria 3 permite ajustar el tempo, la intensidad vocal y el estilo instrumental mediante deslizadores en la interfaz de Gemini.
  • Cover Art con Nano Banana: En un guiño a la integración total, cada canción generada viene acompañada de una portada creada por el modelo de imagen ultrarrápido de Google, “Nano Banana”.

YouTube y la expansión de Dream Track

La estrategia de Google no se limita a una app de chat. La verdadera jugada maestra está en YouTube. Desde 2023, la plataforma ha estado experimentando con “Dream Track”, una herramienta para creadores de Shorts. Con la integración de Lyria 3, esta función abandona su exclusividad estadounidense para expandirse globalmente, permitiendo a millones de creadores generar bandas sonoras libres de derechos (royalty-free) para sus videos cortos.

Esto soluciona un dolor de cabeza histórico para los youtubers: el copyright. Al generar música original al instante, los creadores evitan las temidas reclamaciones de derechos de autor que a menudo desmonetizan sus videos. Sin embargo, esto plantea una pregunta existencial para la industria de la música de stock: ¿quién pagará por una licencia de música de fondo cuando una IA puede crear algo “suficientemente bueno” y a medida en segundos?

La marca de agua invisible: SynthID y el dilema ético

Con gran poder conlleva una gran responsabilidad legal. Google es muy consciente de las demandas que han llovido sobre sus competidores y sobre sus propios modelos de texto. Por ello, una pieza central del lanzamiento de Lyria 3 es SynthID. Esta tecnología, desarrollada por DeepMind, incrusta una marca de agua digital directamente en el espectro de audio de cada canción generada. Es imperceptible para el oído humano, pero detectable por software, incluso si el audio se comprime, se acelera o se mezcla con ruido.

El problema, como señalan expertos de la industria, radica en el entrenamiento. Aunque Google afirma haber desarrollado la tecnología “responsablemente” y en colaboración con la comunidad musical, reportes de Billboard y otros medios especializados sugieren que el debate sobre el uso de material protegido por derechos de autor para entrenar a estos leviatanes algorítmicos está lejos de cerrarse. Google sostiene que Lyria 3 se ha entrenado con contenido sobre el que tiene derechos o acuerdos, pero la opacidad de los “datasets” sigue siendo el elefante en la habitación de Silicon Valley.

Comparativa de evolución: 2023 vs. 2026

Para visualizar la velocidad de este progreso, hemos recopilado los datos técnicos de la evolución de los modelos de Google:

Característica MusicLM (2023) Lyria 1 (2024) Lyria 3 (2026)
Duración máxima 20-30 seg (baja coherencia) 60 seg (experimental) 30 seg (alta fidelidad, bucleable)
Voces Ininteligibles / Tarareos Clones de artistas (beta) Voces originales + Letra generada
Input Solo Texto Texto + Tarareo Texto, Imagen, Video, Audio
Seguridad Ninguna pública SynthID (beta) SynthID (estándar global)

Compartir

Recomendados

Suscríbete

Recibe los últimos artículos en tu correo electrónico:

Síguenos

El autor

Edgar Medina es el fundador de Crónicatech. Ha escrito para medios reconocidos como El Tiempo, revista Donjuán, Portafolio, La República, revista Semana y Canal RCN. Actualmente trabaja como estratega de SEO técnico para marcas de Estados Unidos como Tesla, Jefferson University y Footlocker. También es asesor de marketing digital a través de su empresa Crónica Marketing.
0
0

    Escribe tus comentarios

    Tu dirección de correo no será publicada Los campos requeridos marcados con *

    ¡Gracias por tu comentario!

    Compartir

    Recomendados

    Suscríbete

    Recibe los últimos artículos en tu correo electrónico:

    Síguenos

    El autor

    Edgar Medina es el fundador de Crónicatech. Ha escrito para medios reconocidos como El Tiempo, revista Donjuán, Portafolio, La República, revista Semana y Canal RCN. Actualmente trabaja como estratega de SEO técnico para marcas de Estados Unidos como Tesla, Jefferson University y Footlocker. También es asesor de marketing digital a través de su empresa Crónica Marketing.