Escalado de audio | ClearVitality Innovaciones Co., Ltd

Imagen anterior Imagen siguiente

Investigadores del MIT, el MIT-IBM Watson AI Lab, IBM Research y otros lugares han desarrollado una nueva técnica para analizar datos de audio y visuales sin etiquetar que podría mejorar el rendimiento de los modelos de aprendizaje automático utilizados en aplicaciones como el reconocimiento de voz y la detección de objetos. El trabajo, por primera vez, combina dos arquitecturas de aprendizaje autosupervisado, aprendizaje contrastivo y modelado de datos enmascarados, en un esfuerzo por escalar tareas de aprendizaje automático como la clasificación de eventos en datos monomodales y multimodales sin necesidad de anotación, replicando así cómo los humanos entienden y perciben nuestro mundo.

"Una mayor parte del conocimiento humano se aprende de forma autosupervisada, porque no siempre recibimos señales de supervisión y queremos permitir que el modelo de aprendizaje automático tenga la misma capacidad", dice Yuan Gong, un postdoctorado del MIT. en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL).

"Entonces, otra forma de decirlo es que el aprendizaje autosupervisado a menudo forma la base de un modelo inicial, porque puede aprender sobre grandes cantidades de datos sin etiquetar. Y luego puede usar el aprendizaje supervisado clásico o el aprendizaje por refuerzo para afinar el modelo a algo en particular si lo desea", dice Jim Glass, científico investigador sénior del MIT y miembro del MIT-IBM Watson AI Lab.

La técnica, llamada autocodificador contrastivo audiovisual enmascarado (CAV-MAE), es un tipo de red neuronal que puede aprender a extraer y mapear representaciones latentes significativas en un espacio de alta dimensión a partir de datos acústicos y visuales mediante el entrenamiento en grandes conjuntos de datos de YouTube de clips de audio y video de 10 segundos. Los investigadores dicen que la técnica es más efectiva que los enfoques anteriores porque modela explícitamente las relaciones entre los datos de audio y visuales de una manera que otros métodos no lo hacen.

Junto a Gong y Glass en el estudio están los estudiantes graduados Andrew Rouditchenko y Alexander H. Liu del MIT, David Harwath PhD '18 de la Universidad de Texas en Austin y los miembros del MIT-IBM Watson AI Lab Leonid Karlinsky e Hilde Kuehne. Kuehne también está afiliado a la Universidad Goethe de Frankfurt. El método fue presentado recientemente en la Conferencia Internacional sobre Representaciones de Aprendizaje.

Un enfoque conjunto y coordinado

El CAV-MAE funciona "aprendiendo por predicción" y "aprendiendo por comparación", dice Gong. El modelado de datos enmascarados, o el método de predicción, toma un video junto con su forma de onda de audio coordinada, convierte el audio en un espectrograma y enmascara el 75 por ciento de ambos. Los datos desenmascarados se tokenizan, luego se alimentan a codificadores de audio y visuales separados antes de ingresar a un codificador/descodificador conjunto, donde se le pide al modelo que recupere los datos que faltan. La diferencia (pérdida de reconstrucción) entre la predicción reconstruida resultante y la combinación audiovisual original se usa luego para entrenar el modelo para un mejor rendimiento. Un ejemplo de esto sería cubrir parte de un video de un piano y parte de un espectrograma de música de piano, y luego pedirle al modelo que intente determinar las entradas enmascaradas. Desafortunadamente, es posible que este método no capture la asociación entre el par de video y audio, mientras que el aprendizaje contrastivo aprovecha esto, pero puede descartar cierta información exclusiva de la modalidad, como el fondo de un video.

El aprendizaje contrastivo tiene como objetivo mapear representaciones que son similares cerca unas de otras. Por ejemplo, el modelo intentará colocar diferentes datos de video y audio de diferentes loros cerca uno del otro y más lejos de pares de video y audio de guitarras tocando. De manera similar a la codificación automática enmascarada, los pares audiovisuales se pasan a codificadores de modalidad separados; sin embargo, los componentes de audio y visuales se mantienen separados dentro del codificador conjunto antes de que el modelo realice la agrupación y la pérdida de contraste. De esta forma, el aprendizaje contrastivo trata de identificar las partes de cada audio o video que son más relevantes para el otro. Por ejemplo, si un video muestra a alguien hablando y el clip de audio correspondiente contiene un discurso, el codificador automático aprenderá a asociar los movimientos de la boca del hablante con las palabras pronunciadas. Luego ajustará los parámetros del modelo para que esas entradas se representen cerca unas de otras. En última instancia, el método CAV-MAE combina ambas técnicas con múltiples flujos de datos directos con enmascaramiento como primer paso, codificadores específicos de modalidad y normalización de capas para que las fortalezas de representación sean similares.

"[Luego] queríamos comparar el CAV-MAE propuesto con un modelo entrenado solo con un codificador automático enmascarado y un modelo entrenado solo con aprendizaje contrastivo, porque queremos demostrar que al combinar el codificador automático enmascarado y el aprendizaje contrastivo, podemos obtener algún rendimiento mejora", dice Gong, "y los resultados respaldan nuestra hipótesis de que hay una mejora obvia".

Los investigadores probaron CAV-MAE, así como su método sin pérdida de contraste o un codificador automático enmascarado, con otros métodos de última generación en tareas de recuperación audiovisual y clasificación de eventos audiovisuales utilizando AudioSet estándar (20K y 2M) y conjuntos de datos VGGSound: clips cortos etiquetados y realistas, que podrían incluir múltiples sonidos. La recuperación audiovisual significa que el modelo ve el componente de audio o visual de un par de consultas y busca el que falta; la clasificación de eventos incluye la identificación de acciones o sonidos dentro de los datos, como una persona cantando o conduciendo un automóvil.

En general, encontraron que el aprendizaje contrastivo y el modelado de datos enmascarados son métodos complementarios. CAV-MAE fue capaz de superar las técnicas anteriores (con entrenamiento previo totalmente autosupervisado) en aproximadamente un 2 por ciento para el rendimiento de la clasificación de eventos frente a modelos con computación comparable y, lo que es más impresionante, siguió el ritmo o superó a los modelos con recursos computacionales de nivel industrial. El modelo del equipo se clasificó de manera similar a los modelos entrenados solo con la pérdida contrastiva. Y sorprendentemente, dice el equipo, la incorporación de datos multimodales en el entrenamiento previo de CAV-MAE mejora en gran medida el ajuste fino de la representación de una sola modalidad a través del aprendizaje supervisado (con algunos datos etiquetados) y el rendimiento en tareas de clasificación de eventos de solo audio. . Esto demuestra que, al igual que los humanos, la información multimodal proporciona un impulso adicional de "etiqueta suave" incluso para tareas solo de audio o visuales; por ejemplo, ayuda al modelo a comprender si está buscando una guitarra eléctrica o acústica, una señal de supervisión más rica.

"Creo que a la gente le gusta la elegancia de este modelo para combinar información en los diferentes flujos de audio y visuales. Tiene la pérdida de contraste y reconstrucción, y en comparación con modelos que han sido evaluados con datos similares, claramente lo hace muy bien en un rango de estas tareas", dice Glass.

Sobre la base de esto, "una cosa especial es que nuestro modelo puede hacer tanto la clasificación como la recuperación, lo cual no es común", agrega Gong. "Antes de este trabajo, estos métodos se usaban por separado, pero después de este trabajo, veo que la mayoría de los marcos de aprendizaje audiovisual usan la pérdida de contratación y el codificador automático enmascarado juntos, implícita o explícitamente".

Llevar el aprendizaje audiovisual autosupervisado a nuestro mundo

Los investigadores ven su contribución del autocodificador contrastivo audiovisual enmascarado (CAV-MAE) como un hito importante y un paso adelante para las aplicaciones, que se están moviendo cada vez más de la modalidad única a la multimodalidad y que requieren o aprovechan la fusión audiovisual. Tienen la hipótesis de que algún día podría usarse para el reconocimiento de acciones en ámbitos como los deportes, la educación, el entretenimiento, los vehículos motorizados y la seguridad pública. También podría, algún día, extenderse a otras modalidades. En este momento, el hecho de que "esto solo se aplica a los datos audiovisuales puede ser una limitación, pero estamos apuntando al aprendizaje multimodal, que es la tendencia del aprendizaje automático", dice Gong. "Como humanos, tenemos múltiples modalidades, tenemos olfato, tacto, muchas más cosas que solo audiovisuales. Entonces, cuando tratamos de construir IA, tratamos de imitar a los humanos de alguna manera, no necesariamente desde la perspectiva biológica, y esto el método podría [potencialmente ser] generalizado a otras modalidades inexploradas".

A medida que los modelos de aprendizaje automático sigan desempeñando un papel cada vez más importante en nuestras vidas, técnicas como esta serán cada vez más valiosas.

Esta investigación fue apoyada por el MIT-IBM Watson AI Lab.

Elemento anterior Elemento siguiente

Un enfoque conjunto y coordinado Llevando el aprendizaje audiovisual autosupervisado a nuestro mundo