El avance de OpenAI en alucinaciones de IA es un paso atrás para la IA en su conjunto

Los grandes modelos de lenguaje que siguen instrucciones, como ChatGPT de OpenAI, y sistemas rivales como Bard de Google y Claude de Anthropic, tienen el potencial de revolucionar los negocios. Pero muchas empresas están luchando por descubrir cómo usarlos. Esto se debe principalmente a que no son confiables y son propensos a proporcionar información que suena autorizada pero inexacta. También se debe a que el contenido que generan estos modos de IA puede presentar riesgos. Pueden generar lenguaje tóxico o alentar a los usuarios a participar en comportamientos inseguros o ilegales. Pueden revelar datos que las empresas desean salvaguardar. Docenas de empresas están compitiendo para descubrir cómo resolver este problema, y hay una olla de oro para quien llegue primero.

La semana pasada, OpenAI publicó un artículo de investigación y una publicación de blog que lo acompaña defendiendo lo que dijo que era un paso potencialmente importante hacia ese objetivo, así como hacia la solución del "problema de alineación" más grande. El "problema de alineación" se refiere a cómo dotar a los poderosos sistemas de inteligencia artificial de una comprensión de los conceptos y valores humanos. Los investigadores que trabajan en el campo conocido como "Seguridad de IA" lo consideran fundamental para garantizar que el futuro software de IA no represente una amenaza de extinción para la humanidad. Pero, como explicaré, creo que la solución que propone OpenAI en realidad demuestra cuán limitados son los grandes modelos de lenguaje actuales. A menos que ideemos una arquitectura fundamentalmente diferente para la IA generativa, es probable que la tensión entre "alineación" y "rendimiento" signifique que la tecnología nunca estará a la altura de todo su potencial. De hecho, se podría argumentar que capacitar a los LLM en la forma en que OpenAI sugiere en su última investigación es un paso atrás para el campo.

Para explicar por qué, repasemos lo que mostró la última investigación de OpenAI. Primero, debe comprender que una forma en que los investigadores han tratado de controlar los resultados salvajes de los grandes modelos de lenguaje es a través de un proceso llamado aprendizaje de refuerzo a partir de la retroalimentación humana (o RLHF, por sus siglas en inglés). Esto significa que los humanos califican las respuestas que produce un LLM, generalmente con un simple pulgar hacia arriba o hacia abajo (aunque algunas personas han experimentado con sistemas de retroalimentación menos binarios) y el LLM luego se ajusta para producir respuestas que tienen más probabilidades de ser Pulgares hacia arriba calificados. Otra forma de lograr que los LLM produzcan respuestas de mejor calidad, especialmente para tareas como preguntas de lógica o matemáticas, es pedirle al LLM que "razone paso a paso" o "piense paso a paso" en lugar de solo producir una respuesta final. Exactamente por qué funciona esta llamada "cadena de pensamiento" no se entiende completamente, pero parece producir mejores resultados consistentemente.

Lo que hizo OpenAI en su última investigación fue ver qué sucedía cuando a un LLM se le decía que usara el razonamiento de cadena de pensamiento y también se lo entrenaba usando RLHF en cada uno de los pasos lógicos de la cadena (en lugar de en la respuesta final). OpenAI llamó a esto "supervisión de procesos" en oposición a la "supervisión de resultados" que ha usado antes. Bueno, resulta, quizás no sorprendente, que dar retroalimentación en cada paso produce resultados mucho mejores. Puede pensar en esto como algo similar a cómo su maestro de matemáticas de secundaria siempre lo amonestaba a "mostrar su trabajo" en los exámenes. De esa manera, podría verte si entendiera el razonamiento necesario para resolver la pregunta y podría darte crédito parcial incluso si cometiste un simple error aritmético en alguna parte del proceso.

Solo hay un par de problemas. Uno, como han señalado otros investigadores, no está claro si esta "supervisión del proceso" ayudará con toda la gama de alucinaciones que exhiben los LLM, especialmente aquellas que involucran citas inexistentes y citas inexactas, o si solo aborda un subconjunto de imprecisiones. que implican lógica. Cada vez es más claro que tratar de alinear los LLM para evitar muchos de los resultados indeseables que las empresas temen puede necesitar un replanteamiento mucho más fundamental de cómo se construyen y entrenan estos modelos.

De hecho, un grupo de científicos informáticos israelíes de la Universidad Hebrea y AI21 Labs exploró recientemente si RLHF era un método de alineación sólido y encontró problemas graves. En un artículo publicado este mes, los investigadores dijeron que habían demostrado que para cualquier comportamiento que pudiera exhibir un modelo de IA, sin importar cuán improbable, existía un aviso que podía provocar ese comportamiento, y los comportamientos menos probables simplemente requerían avisos más largos. "Esto implica que cualquier proceso de alineación que atenúe el comportamiento no deseado pero no lo elimine por completo, no es seguro contra los ataques de provocación adversaria", escribieron los investigadores. Lo que es peor, descubrieron que técnicas como RLHF en realidad facilitaban empujar a un modelo a mostrar un comportamiento no deseado, no menos probable.

También hay un problema mucho mayor. Incluso si esta técnica tiene éxito, en última instancia limita, no mejora, lo que la IA puede hacer: de hecho, corre el riesgo de tirar por la borda la genialidad de Move 37. ¿Qué quiero decir? En 2016, AlphaGo, un sistema de inteligencia artificial creado por lo que ahora es Google DeepMind, logró un hito importante en la informática cuando venció al mejor jugador humano del mundo en el antiguo juego de mesa de estrategia Go en un partido de demostración al mejor de cinco. En el segundo juego de ese concurso, en el movimiento 37 del juego, AlphaGo colocó una piedra de manera tan inusual y, para los expertos humanos en Go, tan contraria a la intuición, que casi todos asumieron que se trataba de un error. AlphaGo mismo estimó que había menos de uno en diez mil posibilidades de que un humano hiciera ese movimiento. Pero AlphaGo también predijo que el movimiento lo colocaría en una excelente posición para ganar el juego, y así fue. El movimiento 37 no fue un error. Fue un golpe de genio.

Más tarde, cuando los expertos analizaron el juego de AlphaGo en cientos de juegos, se dieron cuenta de que había descubierto una forma de jugar que trastornó 1000 años de experiencia humana e intuición sobre las mejores estrategias de Go. De manera similar, otro sistema creado por DeepMind, Alpha Zero, que podía dominar una variedad de juegos de estrategia diferentes, jugaba al ajedrez en un estilo que parecía, para los grandes maestros humanos, tan extraño pero tan efectivo que algunos lo calificaron como "ajedrez alienígena". En general, estaba dispuesto a sacrificar piezas supuestamente de alto valor para ganar una posición en el tablero de una manera que inquietaba a los jugadores humanos. Al igual que AlphaGo, AlphaZero se entrenó mediante el aprendizaje por refuerzo, jugando millones de juegos contra sí mismo, donde la única recompensa que recibió fue si ganó o perdió.

En otras palabras, AlphaGo y AlphaZero no recibieron comentarios de expertos humanos sobre si algún paso intermedio que tomaron fue positivo o negativo. Como resultado, el software de IA pudo explorar todo tipo de estrategias sin prejuicios por las limitaciones de la comprensión humana existente del juego. Si AlphaGo hubiera recibido la supervisión del proceso a partir de comentarios humanos, como OpenAI postula para los LLM, es casi seguro que un experto humano habría rechazado Move 37. Después de todo, los maestros humanos de Go consideraron ilógico el Movimiento 37. Resultó ser brillante. Y ese es el problema con el enfoque sugerido por OpenAI. En última instancia, es un kluge: una solución tosca diseñada para disimular un problema que es fundamental para el diseño de los LLM.

Los sistemas de IA generativa de hoy en día son muy buenos para el pastiche. Regurgitan y remezclan el conocimiento humano. Pero, si lo que realmente queremos son sistemas de IA que puedan ayudarnos a resolver los problemas más difíciles que enfrentamos, desde el cambio climático hasta las enfermedades, entonces lo que necesitamos no es simplemente un masala de ideas antiguas, sino fundamentalmente nuevas. Queremos una IA que, en última instancia, pueda promover hipótesis novedosas, lograr avances científicos e inventar nuevas tácticas y métodos. Es probable que la supervisión de procesos con retroalimentación humana sea perjudicial para lograr ese objetivo. Terminaremos con sistemas de IA bien alineados, pero incapaces de ser geniales.

Con eso, aquí está el resto de las noticias de esta semana en AI

Pero, antes de seguir leyendo: ¿Quiere escuchar a algunos de los jugadores más importantes que dan forma a la revolución de la IA generativa y aprender cómo las empresas están utilizando la tecnología para reinventar sus negocios? ¡Por supuesto que sí! Así que ven aTecnología de lluvia de ideas de Fortune2023conferencia,10-12 de julio en Park City, Utah. estaré entrevistandoDirector ejecutivo de Anthropic, Dario Amodeien la construcción de IA en la que podamos confiar yMicrosoft corporate vice president Jordi Ribas sobre cómo la IA está transformando Bing y la búsqueda. También escucharemos deAntonio Neri, director ejecutivo de Hewlett Packard Enterprise, sobre cómo la empresa está desbloqueando la promesa de AI,Arati Prabhakar, directora de la Oficina de Política Científica y Tecnológica de la Casa Blancasobre los últimos pensamientos de la Administración Biden sobre los EE. UU. puede darse cuenta del potencial de la IA, al tiempo que promulga la regulación necesaria para garantizar que nos protejamos contra sus riesgos significativos,Meredith Whittaker, presidenta de la Fundación Signal, sobre la protección de la privacidad en la era de la IA,y muchos muchos mas, incluyendo algunos de losprincipales inversores de capital de riesgo respaldando el auge de la IA generativa. Todo eso, máspesca con mosca, ciclismo de montaña y senderismo . ¡Me encantaría que los lectores de Eye on AI se unan a nosotros! Puedes aplicar para asistir aquí.

jeremy kahn@[email protected]

Australia planea la regulación de la IA. Eso es según Reuters, que dijo que Australia está planeando una legislación para prohibir las falsificaciones profundas y la producción de contenido engañoso generado por IA. Un informe del Consejo Nacional de Ciencia y Tecnología de Australia destacó recientemente la posibilidad de que el contenido generado por IA se utilice para influir en la opinión pública durante las elecciones parlamentarias. Australia también planea actualizar sus leyes y reglamentos para abordar las lagunas en áreas como los derechos de autor, la privacidad y la protección del consumidor. Australia fue uno de los primeros en introducir un marco de ética voluntario para la IA en 2018. Los legisladores europeos están finalizando actualmente una Ley de IA histórica que podría servir como modelo para otras economías avanzadas, incluido un enfoque de regulación basado en el riesgo que Australia podría considerar seguir.

La línea de ayuda para trastornos alimentarios extrae un chatbot que dio consejos dañinos. La Asociación Nacional de Trastornos de la Alimentación (NEDA) tuvo que suspender el uso de un chatbot llamado Tessa, que fue diseñado para asesorar a las personas con trastornos de la alimentación, después de que una publicación viral en las redes sociales expusiera su promoción de hábitos alimenticios peligrosos, informó Vice News. La publicación de la activista Sharon Maxwell describió cómo Tessa alentó la pérdida de peso intencional, el conteo de calorías y una dieta estricta, todas actividades que, según Maxwell, habían contribuido a que ella desarrollara un trastorno alimentario en primer lugar. NEDA inicialmente negó el relato de Maxwell, pero luego reconoció el problema y afirmó que las respuestas de Tessa iban en contra de sus políticas y creencias fundamentales. NEDA había recibido críticas anteriormente por su decisión de poner fin a su línea de ayuda de personal humano después de 20 años en respuesta a los intentos de sindicalización de los trabajadores de la línea de ayuda, reemplazando todo el servicio con un chatbot.

Putin deep fake utilizado como parte de la campaña de desinformación 'Rusia bajo ataque'. Los piratas informáticos organizaron un ciberataque en el que se transmitió un falso llamado de emergencia televisado generado por IA, diseñado para que pareciera que lo estaba haciendo el presidente ruso Vladimir Putin, informó Politico. En el video, Putin afirmó estar declarando la ley marcial después de que las tropas ucranianas supuestamente cruzaran a territorio ruso. El discurso falso y de aspecto realista instó a los ciudadanos a evacuar y prepararse para una guerra total con Ucrania. Pero el secretario de prensa de Putin confirmó que el discurso nunca sucedió. El incidente destaca el creciente riesgo de falsificaciones profundas y desinformación.

Getty solicita a la corte del Reino Unido una orden judicial para detener la comercialización de Stable AI de Stable Diffusion. La agencia de fotografía ha pedido a un tribunal del Reino Unido que detenga las ventas del software de generación de imágenes de Stability AI en el país, informó Reuters. Getty ya ha demandado a Stability, que ayudó a crear el popular software de IA de texto a imagen de código abierto Stable Diffusion, tanto en el Reino Unido como en los EE. UU. por violaciones de derechos de autor, alegando que Stable Diffusion fue entrenado en millones de imágenes propiedad de Getty. de Internet sin la debida licencia. El caso está siendo observado de cerca por el precedente que puede sentar sobre si el uso de material protegido por derechos de autor sin consentimiento para el entrenamiento de IA se otorgará algún tipo de exención de "uso justo".

El fundador y director ejecutivo de Stability AI exageró sus credenciales y la relación de la empresa con los socios, incluido Amazon, según el informe. Una historia de investigación en Forbes dice que Emad Mostaque, el fundador y director ejecutivo de Stability AI, hizo afirmaciones engañosas sobre sus antecedentes y las asociaciones de la empresa. Según la historia, Mostaque afirmó falsamente tener una maestría de Oxford, tergiversó su papel y el papel de Stability en los principales proyectos de inteligencia artificial, incluida la creación del sistema de inteligencia artificial característico de la compañía hasta la fecha, Stable Diffusion, e hizo afirmaciones dudosas sobre asociaciones y estrategias. alianzas, incluso con el proveedor de la nube de Amazon, AWS. Los exempleados también informaron que la empresa tardó en pagar los salarios y fue investigada por no pagar los impuestos sobre la nómina a tiempo, mientras que los fondos se transfirieron de la cuenta bancaria de la empresa a la cuenta personal de la esposa de Mostaque. Según Forbes, la empresa, que obtuvo 101 millones de dólares en fondos con una valoración superior a los 1.000 millones de dólares en octubre, ahora está luchando por conseguir dinero de capital de riesgo adicional.

¿Por qué los grandes modelos de lenguaje parecen tan brillantemente inteligentes y tan estúpidos al mismo tiempo? La investigación de científicos informáticos del Instituto Allen de Inteligencia Artificial, la Universidad de Washington, la Universidad de Chicago y la Universidad del Sur de California trató de examinar por qué los LLM pueden manejar tantas tareas aparentemente complejas con fluidez y, sin embargo, tienen dificultades para producir resultados precisos en las tareas. que los humanos encuentran triviales. "¿Son estos errores incidentales o indican limitaciones más sustanciales?" preguntaron los investigadores. Investigaron el rendimiento de LLM en tres "tareas de composición" que implican dividir un problema en subpasos y luego sintetizar los resultados de esos subpasos para producir una respuesta: multiplicación de varios dígitos, acertijos de cuadrículas lógicas y programación dinámica clásica. ¿Sus hallazgos? Los LLM, que se basan en un tipo de arquitectura de aprendizaje profundo llamada Transformador, funcionan reduciendo el razonamiento compositivo de varios pasos en una serie de esfuerzos para determinar el mejor conjunto de palabras que probablemente responda a cada componente de la pregunta, pero sin realmente aprender sistemáticamente. habilidades para resolver problemas. (Esto también puede explicar por qué insistir en que LLM "piense paso a paso" en un aviso produce mejores resultados que simplemente pedir la respuesta. Al menos, obliga a la IA a realizar una serie de búsquedas encadenadas de las respuestas más probables en lugar de simplemente intentarlo. para encontrar la respuesta única más probable al aviso inicial.) Como resultado, argumentan los investigadores, el desempeño de los LLM necesariamente empeorará ("decaer rápidamente" son las palabras que usan) a medida que las tareas se vuelven cada vez más complejas. En otras palabras, tal vez los LLM no sean el camino correcto para aumentar la inteligencia humana después de todo. Y tal vez este ciclo de exageración actual se dirige hacia una caída.

Un molesto problema de corrección automática de iPhone finalmente se está solucionando, y todo gracias a la IA, por Prarthana Prakash

El funcionario número 2 del FMI dice que los expertos se equivocaron al ignorar los empleos perdidos por la automatización, y advierte que 'no tenemos el lujo del tiempo' para regular la IA, por Prarthana Prakash

Los escritores de Hollywood están teniendo un momento steampunk, dice Barclays. La IA realmente lo cambiará todo, dentro de algunas décadas, por Rachel Shin

La IA cambiará las trayectorias profesionales, dice el CEO de HP: "De hacer cosas a interpretarlas", por Steve Mollman

¿La falta de GPU acabará con la revolución de la IA generativa en su cuna? Escribí a principios de esta semana sobre una publicación de blog que supuestamente reveló lo que el CEO de OpenAI, Sam Altman, dijo en una reunión a puerta cerrada de los CEO de nuevas empresas de IA y desarrolladores de IA cuando estuvo en Londres hace unas semanas. (La publicación del blog se eliminó rápidamente a pedido de OpenAI, pero no antes de que fuera capturada por el archivo de Internet y vinculada a las redes sociales y foros de discusión de desarrolladores). En la reunión, una de las cosas que Altman reveló fue la medida en que OpenAI el crecimiento se ve limitado por su incapacidad para asegurar suficientes unidades de procesamiento de gráficos (GPU) para satisfacer la creciente demanda de sus productos. La falta de GPU ha impedido que OpenAI implemente funciones, como una ventana de contexto mucho más larga (que permite indicaciones y respuestas más largas), para igualar lo que ofrecen los competidores, como Anthropic, que ofrece una enorme ventana de contexto de 100 000 tokens para los usuarios. Pero, por supuesto, uno se pregunta si Anthropic solo ha podido hacer esto porque aún no tiene el reconocimiento de marca que tienen OpenAI y ChatGPT. Si de repente comienza a atraer a más usuarios, tal vez Anthropic también se encuentre luchando por tener suficientes GPU para satisfacer esa demanda.

Incluso los grandes titanes de Big Tech se enfrentan a este problema. El socio de OpenAI, Microsoft, según una historia de CNBC, firmó un acuerdo por un valor potencial de miles de millones de dólares durante varios años para comprar capacidad de GPU adicional del socio de Nvidia, CoreWeave. Mientras tanto, los periodistas que prueban la "experiencia de búsqueda" impulsada por IA generativa de Google han notado cuán lento es el sistema para generar respuestas, presumiblemente también como resultado de la capacidad limitada de GPU en el gigante de Internet.

Y recuerde, las aplicaciones de IA generativa aún están en pañales. No está claro si Nvidia, que es el principal productor de GPU en este momento, o sus nacientes rivales de chips específicos de IA, podrán aumentar la producción lo suficientemente rápido como para satisfacer la demanda. Y eso puede significar que la revolución de la IA generativa será, bueno, si no cancelada, al menos atenuada.

Esta es la versión en línea de Eye on AI, un boletín informativo gratuito que se envía a las bandejas de entrada los martes. Registrate aquí.

Fortune's Brainstorm Tech 2023 10-12 de julio Anthropic CEO Dario Amodei Vicepresidente corporativo de Microsoft Jordi Ribas Antonio Neri, CEO de Hewlett Packard Enterprise Arati Prabhakar, directora de la Oficina de Política Científica y Tecnológica de la Casa Blanca Meredith Whittaker, presidenta de Signal Foundation y muchos , muchos más inversores de capital de riesgo importantes pesca con mosca, ciclismo de montaña y senderismo Jeremy Kahn Australia planea la regulación de la IA. La línea de ayuda para trastornos alimentarios extrae un chatbot que dio consejos dañinos. Putin deep fake utilizado como parte de la campaña de desinformación 'Rusia bajo ataque'. Getty solicita a la corte del Reino Unido una orden judicial para detener la comercialización de Stable AI de Stable Diffusion. El fundador y director ejecutivo de Stability AI exageró sus credenciales y la relación de la empresa con los socios, incluido Amazon, según el informe. ¿Por qué los grandes modelos de lenguaje parecen tan brillantemente inteligentes y tan estúpidos al mismo tiempo? ¿La falta de GPU acabará con la revolución de la IA generativa en su cuna?