Autodestilación: un final | ClearVitality Innovaciones Co., Ltd

Los investigadores de Urbana-Champaign y Google de la Universidad de Illinois presentan AutoDistill, un marco de destilación de modelos totalmente automatizado de extremo a extremo que integra la exploración de la arquitectura del modelo y la optimización multiobjetivo para crear modelos de procesamiento de lenguaje natural preentrenados y eficientes en hardware.

A medida que los modelos de lenguaje impulsados por IA continúan aumentando de tamaño, la reducción del costo de servicio se ha convertido en un área de investigación importante. La destilación de conocimiento se ha convertido en un método prometedor y efectivo para la compresión de modelos, pero los métodos de destilación existentes pueden tener problemas con el servicio de modelos en los centros de datos masivos de hoy en día, donde enfrentan desafíos como el manejo de modelos que evolucionan rápidamente, considerando el rendimiento del servicio y la optimización para múltiples objetivos. .

Para hacer frente a estos problemas, un equipo de investigación de la Universidad de Illinois Urbana-Champaign y Google presentó AutoDistill, un marco de trabajo de destilación de modelos totalmente automatizado de extremo a extremo que integra la exploración de arquitectura de modelos y la optimización multiobjetivo para crear modelos preentrenados eficientes en hardware. modelos de procesamiento de lenguaje natural (PNL).

El equipo resume sus principales contribuciones como:

AutoDistill es una solución integral diseñada para generar modelos de lenguaje preentrenado independientes de tareas optimizados para configuraciones de hardware de destino. AutoDistill toma los requisitos, objetivos y restricciones del usuario como entradas que representan componentes clave para su consideración, como tareas previas al entrenamiento, espacios de diseño de modelos, hardware de destino, métricas de evaluación, etc.

El flujo general de AutoDistill incluye tres etapas principales: exploración del modelo, destilación instantánea y evaluación. La exploración de modelos se utiliza para buscar mejores modelos comprimidos considerando el espacio de diseño, las métricas de evaluación y las restricciones especificadas por el usuario. Luego se adopta la destilación instantánea para hacer crecer el modelo candidato más prometedor como un modelo de estudiante que aprende tanto de los conjuntos de datos previos al entrenamiento como del modelo del maestro. Esta etapa también es responsable de la destilación regular con el mismo modelo de maestro pero diferentes configuraciones de entrenamiento. Luego, el modelo de estudiante destilado en flash se evalúa en las tareas objetivo y el hardware para determinar la precisión de la predicción, la precisión de la predicción de la siguiente oración y el rendimiento del hardware. Una vez recopiladas todas las métricas deseadas, la información vuelve a pasar a la etapa de exploración del modelo, donde el motor de búsqueda selecciona el modelo óptimo para la siguiente iteración.

En particular, AutoDistill formula la búsqueda de arquitectura de modelos de estudiantes como un problema de optimización de caja negra, integrando el algoritmo de optimización bayesiana (BO) y el servicio de optimización de caja negra basado en la nube Vizier (Golovin et al., 2017) en el motor de búsqueda de arquitectura de estudiantes. buscar. Los investigadores pueden capturar comentarios de hardware válidos y precisos midiendo el modelo de estudiante en el hardware de destino y el entorno de software del centro de datos en la etapa de evaluación totalmente automatizada e integrada.

AutoDistill tiene varias ventajas sobre los métodos anteriores de búsqueda de arquitectura neuronal diferenciable (DNAS): 1) No es necesario realizar un gran esfuerzo para entrenar una gran superred de antemano en tareas de preentrenamiento de NLP, 2) Puede escalar mejor para manejar un espacio de diseño mucho más grande. y 3) Puede extenderse fácilmente a nuevos objetivos y nuevos modelos con diferentes configuraciones de arquitectura.

El equipo realizó extensos experimentos para evaluar AutoDistill. En el punto de referencia de la Evaluación general de comprensión del lenguaje (GLUE) con nueve tareas posteriores de comprensión del lenguaje natural, AutoDistill logró puntajes promedio más altos que BERTBASE, DistilBERT, TinyBERT6 y MobileBERT con tamaños de modelo significativamente más pequeños. En experimentos con el hardware TPUv4i de Google, los modelos generados por AutoDistill lograron hasta un 3,2 % más de precisión preentrenada y hasta 1,44 veces más de latencia en comparación con MobileBERT.

En general, AutoDistill mejora tanto la precisión de la predicción como la latencia de servicio en el hardware de destino, lo que indica su promesa y potencial para construir modelos NLP preentrenados eficientes en hardware de próxima generación.

El documento AutoDistill: un marco integral para explorar y destilar modelos de lenguaje eficientes en hardware está en arXiv.

Autor: Hécate He |Editor: Michael Sarazen

Sabemos que no quiere perderse ninguna noticia o avance de investigación.Suscríbase a nuestro popular boletín Synced Global AI Weekly para obtener actualizaciones semanales de IA.

Inteligencia de máquinas | Tecnología e Industria | Información y análisis

Me gusta mucho este blog porque es muy informativo y está relacionado con la tecnología... gracias por compartir y ver IFO DEVELOPMENT LAUNCHPAD

Este artículo es muy informativo y muy útil, ¡gracias por compartirlo! Desarrollo de la oferta de intercambio inicial

goooooooooooooooood

Su dirección de correo electrónico no será publicada. Los campos obligatorios están marcados *

Comentario *

Nombre

Correo electrónico

Sitio web

Notifíqueme de comentarios consecuentes por email.

Notificarme de nuevas publicaciones a través de email.

Autor Editor Suscríbase a nuestro popular boletín Synced Global AI Weekly para recibir actualizaciones semanales de IA.