La nueva IA de Google convierte los textos en música

La empresa ya compartió algunos ejemplos de cómo funciona su nueva herramienta

     Comentarios
     Comentarios

Los investigadores de Google han creado una IA que puede generar piezas musicales de minutos de duración a partir de indicaciones de texto, e incluso puede transformar una melodía silbada o tarareada en otros instrumentos, de forma similar a cómo los sistemas como DALL-E generan imágenes a partir de indicaciones escritas ( a través de TechCrunch ). El modelo se llama MusicLM, y aunque no puedes jugar con él por ti mismo, la compañía ha subido un montón de muestras que produjo usando el modelo.

Los ejemplos son impresionantes. Hay fragmentos de 30 segundos de lo que suenan como canciones reales creadas a partir de descripciones de párrafos largos que prescriben un género, ambiente e incluso instrumentos específicos, así como piezas de cinco minutos de duración generadas a partir de una o dos palabras como "techno melódico". ” Tal vez mi favorito sea una demostración del "modo historia", donde el modelo básicamente recibe un guión para transformarse entre indicaciones. Por ejemplo, este aviso:

Puede que no sea para todos, pero pude ver que esto fue compuesto por un humano (también lo escuché en bucle docenas de veces mientras escribía este artículo). En el sitio de demostración también se incluyen ejemplos de lo que produce el modelo cuando se le pide que genere clips de 10 segundos de instrumentos como el violonchelo o las maracas (el último ejemplo es uno en el que el sistema hace un trabajo relativamente pobre), clips de ocho segundos de un cierto género, música que encajaría en una fuga de prisión, e incluso cómo sonaría un pianista principiante en comparación con uno avanzado. También incluye interpretaciones de frases como “club futurista” y “death metal de acordeón”.

MusicLM puede incluso simular voces humanas, y aunque parece obtener el tono y el sonido general de las voces correctamente, tienen una cualidad que definitivamente no funciona. La mejor manera en que puedo describirlo es que suenan granulados o estáticos. Esa cualidad no es tan clara en el ejemplo anterior, pero creo que este lo ilustra bastante bien .

Eso, por cierto, es el resultado de pedirle que hiciera música para un gimnasio. Es posible que también haya notado que la letra no tiene sentido, pero de una manera que no necesariamente puede captar si no está prestando atención, como si estuviera escuchando a alguien cantando en simlish o esa canción que debe sonar como Inglés pero no lo es .

No pretendo saber cómo Google logró estos resultados, pero ha publicado un trabajo de investigación que lo explica en detalle si eres el tipo de persona que entendería esta cifra:

Una figura que explica la "tarea de modelado jerárquico de secuencia a secuencia" que los investigadores usan junto con AudioLM, otro proyecto de Google .

La música generada por IA tiene una larga historia que se remonta a décadas; hay sistemas a los que se les ha atribuido el mérito de componer canciones pop , copiar a Bach mejor que un ser humano en los años 90 y acompañar actuaciones en directo . Una versión reciente utiliza el motor de generación de imágenes de IA StableDiffusion para convertir indicaciones de texto en espectrogramas que luego se convierten en música. El documento dice que MusicLM puede superar a otros sistemas en términos de su "calidad y adherencia a los subtítulos", así como el hecho de que puede recibir audio y copiar la melodía.

Esa última parte es quizás una de las mejores demostraciones que presentaron los investigadores. El sitio te permite reproducir el audio de entrada, donde alguien tararea o silba una melodía, luego te permite escuchar cómo el modelo la reproduce como un sintetizador electrónico principal, un cuarteto de cuerdas, un solo de guitarra, etc. De los ejemplos que escuché, maneja el tarea muy bien.

Al igual que con otras incursiones en este tipo de IA, Google está siendo significativamente más cauteloso con MusicLM que algunos de sus pares con tecnología similar . “No tenemos planes de lanzar modelos en este momento”, concluye el documento, citando riesgos de “apropiación indebida potencial de contenido creativo” (léase: plagio) y apropiación o tergiversación cultural potencial.

Siempre es posible que la tecnología aparezca en algún momento en uno de los divertidos experimentos musicales de Google , pero por ahora, las únicas personas que podrán hacer uso de la investigación son otras personas que construyan sistemas musicales de IA. Google dice que está lanzando públicamente un conjunto de datos con alrededor de 5500 pares de música y texto, lo que podría ayudar al entrenar y evaluar otras IA musicales.

Comentarios