Lo que ChatGPT puede y no puede hacer por inteligencia | ClearVitality Innovaciones Co., Ltd

En noviembre de 2022, ChatGPT emergió como favorito entre los modelos de lenguaje grande (LLM) de inteligencia artificial (AI), captando la atención de la CIA y otras agencias de defensa de EE. UU. La inteligencia artificial general, IA con un razonamiento flexible como el de los humanos, aún está más allá del horizonte tecnológico y es posible que nunca suceda. Pero la mayoría de los expertos están de acuerdo en que los LLM son un gran avance tecnológico. La capacidad de los LLM para producir resultados útiles en algunas tareas y fallar por completo en otras, ofrece un vistazo a las capacidades y limitaciones de la IA en la próxima década.

Las perspectivas de ChatGPT para la inteligencia son mixtas. Por un lado, la tecnología parece "impresionante" y "aterradoramente inteligente", pero por otro lado, sus propios creadores advirtieron que "puede crear una impresión engañosa de grandeza". En ausencia de un consenso de expertos, los investigadores y profesionales deben explorar el potencial y las desventajas de la tecnología para la inteligencia. Para abordar esta brecha, nosotros, académicos que estudian análisis de inteligencia y un ingeniero de tecnología de la información, buscamos probar la capacidad de ChatGPT (GPT-4) para complementar el trabajo de los analistas de inteligencia. Lo sometimos a una prueba preliminar utilizando la famosa solicitud de Colin Powell: "Dime lo que sabes. Dime lo que no sabes. Entonces puedes decirme lo que piensas". Para cada tarea, proporcionamos el resultado de ChatGPT para que los lectores puedan reproducir los análisis y sacar sus propias conclusiones.

Con base en estos hallazgos, parece posible que ChatGPT y sus sucesores puedan eliminar aspectos del trabajo del analista de inteligencia (p. ej., resúmenes tediosos, aunque reconocemos que ChatGPT no resume de una manera que un humano reconocería) y complementar otros (p. ej., ayudando a generar críticas para los productos analíticos). A pesar de estas capacidades, notamos como otros tienen que ChatGPT tiene limitaciones notables (por ejemplo, extracción de redes sociales). También transformará las habilidades comerciales analíticas en equipos humanos-IA, donde "hacer la pregunta correcta" se expande para incluir "ingeniería rápida". La ingeniería rápida es el proceso de optimizar la forma en que se presentan las preguntas o indicaciones para extraer respuestas establecidas de un modelo de IA. Los LLM también crearán nuevos riesgos, a través de tácticas como el "envenenamiento de datos", como explicamos a continuación.

Cómo funciona ChatGPT

ChatGPT, o transformador preentrenado generativo, es un tipo de modelo de IA que genera texto de acuerdo con la información que se le proporciona. Es como un actor de improvisación (improv) que ha aprendido de una gran cantidad de guiones y que puede hacer conexiones entre diferentes temas. La IA, como el improvisador hipotético, se limita a la información que se ha proporcionado. ChatGPT ha sido entrenado con información hasta 2021, aunque los modelos de prueba beta disponibles se basan en datos de entrenamiento de la web en tiempo real.

ChatGPT se "enseña" en dos pasos principales. Primero, aprende los conceptos básicos de un dominio de conocimiento mediante el estudio de un gran corpus de texto. Luego se ajusta para realizar tareas específicas utilizando ejemplos y orientación. A través de este método, se vuelve mejor para responder a las preguntas y declaraciones de los usuarios. La precisión de sus respuestas depende de varios factores, incluida la calidad de los datos proporcionados al modelo y las técnicas de ingeniería rápidas empleadas, entre otros.

La dependencia del modelo en los datos de entrenamiento plantea riesgos desde datos inocentemente falsos (información errónea) hasta datos intencionalmente falsos (desinformación). ChatGPT puede reflejar sesgos en los datos de entrenamiento, lo que podría sesgar la imparcialidad y la objetividad de su salida generada. Los informes de los medios de resultados sesgados de ChatGPT sobre figuras políticas controvertidas como Donald Trump y Joe Biden ilustran este punto. Otro riesgo es cuando el modelo es "envenenado" por adversarios que corrompen deliberadamente los datos de entrenamiento. Dado que los LLM dependen en gran medida de la calidad de sus datos de capacitación, los datos envenenados pueden incorporar patrones nefastos que son difíciles de detectar y mitigar.

Qué tan bien explica el usuario lo que quiere que haga ChatGPT, lo que se conoce como ingeniería rápida, es fundamental para lograr mejores resultados del sistema. En su forma actual, la salida de ChatGPT está a un nivel superficial, al menos sin indicaciones significativas y cuidadosas.

Descubrimos que si las indicaciones son claras, los usuarios pueden generar procedimientos analíticos. Como ejemplo de ingeniería rápida, consultamos a ChatGPT para generar un procedimiento de análisis de hipótesis en competencia (ACH), una técnica de análisis para probar hipótesis, usando la pregunta de si Rusia usará armas nucleares en su guerra con Ucrania.

Para generar el análisis, solicitamos a ChatGPT que proporcione resultados basados en los pasos de ACH. (Proporcionamos los ocho pasos de la formulación de Heuer de la técnica en "Psicología del análisis de inteligencia".) A continuación, proporcionamos el contexto del que carece ChatGPT, que se conoce como "enriquecimiento". Recuerde que el modelo se desarrolló con datos de entrenamiento hasta 2021, un año antes de que Rusia llevara a cabo una invasión a gran escala de Ucrania. Proporcionamos el siguiente enriquecimiento:

Los analistas pueden proporcionar un mayor enriquecimiento, aunque ChatGPT limita la cantidad de texto que los usuarios pueden proporcionar al modelo.

En su respuesta a las indicaciones, ChatGPT generó hipótesis y una lista de argumentos influenciados por el contexto que se le proporcionó. El modelo generó tres hipótesis: (1) Rusia usará armas nucleares en Ucrania, (2) Rusia buscará solo una guerra convencional y (3) Rusia usará armas nucleares solo como una herramienta de negociación.

Luego, el modelo preparó una matriz e indicó si una pieza de evidencia es consistente con cada hipótesis. Vale la pena señalar nuevamente que Chat GPT no está pensando en el sentido humano sino "improvisando" o completando texto predictivo basado en sus datos de entrenamiento.

Finalmente, ChatGPT generó un análisis basado en la matriz, una conclusión general y futuros hitos a tener en cuenta. En el ejemplo, el resultado señala que la hipótesis más probable es que Rusia utilizará las armas nucleares solo como herramienta de negociación.

Ningún analista de inteligencia competente vería estos resultados como innovadores. El resultado es similar a un primer borrador que un analista de nivel de entrada podría producir y luego refinar continuamente. Aquí es donde está el valor actual de la tecnología: Chat GPT sirve como un buen punto de partida inicial para el análisis. Por ejemplo, esta prueba de hipótesis inicial podría llevar a un analista a refinar las hipótesis o explorar nuevas fuentes de evidencia. La capacidad de Chat GPT para estimular el pensamiento del analista es cierta en la forma en que ayuda a los analistas a sintetizar información, intercambiar ideas y criticar su trabajo.

"Dime lo que sabes."

Los analistas evalúan los eventos actuales de varias fuentes y resumen los desarrollos clave. La explosión en la cantidad de datos, especialmente la información de código abierto, ha dificultado esta tarea en los últimos años. Los expertos en inteligencia Nick Hare y Peter Coghill señalaron que leer todo sobre un solo país de segundo nivel en 1995 requeriría leer unas 20.000 palabras al día. En 2015, estimaron que el número estaría más cerca de las 200 000 palabras, y seguramente será más alto en 2023. Esta tarea, filtrar grandes cantidades de información, es quizás en la que la IA puede ayudar mejor en su forma actual, como Tom Tugendhat, ministro de estado para la seguridad en el Reino Unido, señaló recientemente.

ChatGPT se muestra prometedor en la síntesis rápida de información de múltiples fuentes, suponiendo que los usuarios sigan las mejores prácticas (por ejemplo, usar datos de calidad, buena ingeniería rápida). Por ejemplo, ChatGPT ha superado una serie de evaluaciones que requieren la recuperación y el resumen de grandes cantidades de información, como el examen de la barra uniforme y el examen de registro de graduados (GRE).

Con indicaciones cuidadosas, ChatGPT puede agilizar el proceso de resaltar tendencias y patrones dentro de los datos y, con suerte, llevar a los analistas a conclusiones mejor informadas. Para probar las capacidades de ChatGPT, lo usamos para resumir rápidamente artículos de noticias. Entregó una docena de resúmenes oportunos de desarrollos e ideas y presentó la información en un formato de línea de base inicial (BLUF). Generamos memorandos para resaltar las implicaciones de las recientes audiencias de TikTok celebradas en Washington, utilizando información de varias fuentes de noticias.

Para comenzar, le indicamos a la IA su rol ("Usted es una IA capacitada para crear informes tácticos BLUF de vía rápida, concisos y efectivos de múltiples fuentes") y proporcionamos indicaciones para crear informes en un formato BLUF con hallazgos clave y acciones recomendadas. Luego proporcionamos los artículos de noticias. Como señalamos anteriormente, Chat GPT limita la cantidad de texto ingresado para enriquecer el modelo. En este ejemplo, agregamos un máximo de solo dos artículos para resumir. Sin embargo, no es difícil imaginar organizaciones con acceso a sus propios LLM capaces de procesar cantidades de datos mucho mayores.

Chat GPT generó la nota similar a BLUF compuesta de información procedente del contexto y generada de acuerdo con los objetivos de nuestro aviso. El tiempo transcurrido, el costo y los tokens utilizados fueron consistentes en numerosos casos, con resultados de calidad similar.

La sección "Puntos clave" destaca las conclusiones, mientras que el "Resumen ejecutivo" proporciona los principales hallazgos y recomendaciones. Además, a ChatGPT se le encomendó la tarea de correlacionar las notas finales y las referencias de estilo APA con el contenido generado en función de las fuentes.

ChatGPT y sus sucesores pueden proporcionar una medida de ahorro de tiempo para ayudar a los analistas con el problema de "big data" de tratar de mantenerse actualizado. Como señalamos anteriormente, la precisión general del resultado es directamente proporcional a la calidad y el detalle del contexto proporcionado al LLM. Como dice el viejo dicho en informática: "basura que entra, basura que sale".

Los expertos en ciberseguridad están comenzando a usar ChatGPT de manera similar para generar informes de amenazas automatizados y en tiempo real. (Reconocemos que su modelo está entrenado en un conjunto de datos altamente seleccionados). Si bien puede parecer que no proporciona mucha más sustancia en comparación con las técnicas más simples de "detectar la diferencia", donde los sistemas verifican los correos electrónicos entrantes contra una colección de contenido sospechoso conocido. —ChatGPT aún podría ofrecer información valiosa en casos de uso específicos. Por ejemplo, puede ofrecer información sobre el análisis de correos electrónicos de phishing. En este escenario, ChatGPT podría analizar el contenido de los correos electrónicos entrantes en tiempo real e identificar intentos de phishing al evaluar el contexto detrás del mensaje.

"Dime lo que no sabes".

Los analistas deben tener claro lo que no saben para que sus clientes entiendan las limitaciones de su conocimiento. Aún así, los analistas pueden buscar información adicional para llenar sus vacíos de conocimiento, con lo que sistemas como ChatGPT podrían ayudar. Sin embargo, existen algunos problemas bien documentados cuando el modelo se esfuerza por "llenar el vacío" de su base de conocimiento al ofrecer respuestas plausibles pero inexactas, lo que da como resultado respuestas engañosas. Este es, con mucho, el mayor riesgo de integrar los LLM contemporáneos en el trabajo de inteligencia.

Descubrimos que ChatGPT reconocía con frecuencia su comprensión limitada cuando se enfrentaba a solicitudes que iban más allá del alcance de sus datos de capacitación. En sus respuestas, ofreció respuestas informativas que nos ayudaron a identificar temas que no podía abordar. Nos dimos cuenta de que se podía emplear la ingeniería rápida para refinar los resultados que caen fuera de los límites de la base de conocimientos de ChatGPT para fomentar una mayor promoción de las admisiones honestas de las limitaciones del modelo. Descubrimos que la ingeniería rápida puede servir para eludir las medidas de seguridad por completo. Con eso en mente, al momento de escribir este artículo, los analistas no deberían usar ChatGPT como una base de conocimiento automatizada debido al riesgo inherente de desinformación.

Dejando a un lado las limitaciones, ChatGPT puede ser útil en las fases iniciales de un proyecto para ayudar con la lluvia de ideas. Esto se puede lograr mediante el ajuste fino de diversos conjuntos de datos que abarcan diversas perspectivas, como informes de inteligencia extranjera o manifiestos extremistas, y mediante cuidadosos métodos de ingeniería rápida.

Para ilustrar cómo ChatGPT puede ayudar a los analistas a reflexionar sobre lo que no saben, llevamos a cabo un ejercicio elemental de formación de equipos rojos, inspirado en una entrevista con la experta en inteligencia Amy Zegart, que analiza el uso hipotético de los "equipos rojos de IA".

Usamos ChatGPT para asumir el perfil adversario de Aaron Thompson, un extremista violento doméstico en los Estados Unidos. En una variedad de situaciones, la IA simula los patrones cognitivos de Aaron y cómo podría ajustar sus tácticas. Por ejemplo, le preguntamos a ChatGPT, desde la perspectiva de Aaron Thompson, cómo respondería al ser acorralado por las autoridades durante la ejecución de un complot terrorista. En el aviso, le indicamos al modelo que considere que Aaron está en un evento público y rodeado por la policía. ChatGPT genera una respuesta superficial en la que Thompson evalúa, adapta, improvisa y comunica.

Sin embargo, solicitamos a Chat GPT que considerara situaciones más específicas para extraer una respuesta más refinada del modelo. En el indicador mejorado, le pedimos al modelo que considere que hay un oficial de policía cerca (a 10 pies de distancia) y un perro está presente. El resultado considera cómo podría reaccionar Thompson según el propósito del perro (como un K-9 o un perro mascota común) o las acciones para escapar ("mezclarse entre la multitud").

Este y otros resultados no son muy específicos: Aaron Thompson no está escrito en profundidad por el LLM como lo crearía un experto en la materia sobre el extremismo violento doméstico, pero aún puede ayudar a los analistas a estimular su pensamiento. Los investigadores deben realizar estudios para comparar los resultados de ChatGPT con expertos en la materia. El enfoque podría ser similar al estudio de Romyn y Kebbell de 2014 que investigó cómo diferían aquellos con y sin experiencia militar en la simulación de la toma de decisiones terroristas. Los proyectos de investigación como este y otros se pueden utilizar para mejorar aún más el rendimiento de LLM para los equipos rojos.

"... Dime que piensas."

El papel central de las evaluaciones perspicaces en el trabajo del análisis de inteligencia radica en la elaboración de juicios. Hacer estos juicios significa ir más allá de lo que se sabe de inmediato y sacar inferencias informadas. Como bromeó una vez el ex director de la CIA Michael Hayden: "Si es un hecho, no es inteligencia".

Los LLM contemporáneos pueden brindar cierta asistencia para ayudar a los analistas a sacar inferencias al proporcionar críticas básicas de su razonamiento y juicios. Por ejemplo, puede asumir el papel de un "glóbulo rojo" personal. Le encomendamos que actuara como abogado del diablo en la sección de Irán de la edición 2023 de la Evaluación anual de amenazas de la comunidad de inteligencia de EE. UU. Solicitamos a ChatGPT que proporcionara puntos de vista opuestos y validara el informe con las mejores prácticas establecidas en las Directivas de la comunidad de inteligencia (ICD), como ICD 203 sobre estándares analíticos e ICD 206 sobre requisitos de abastecimiento. Nuestro mensaje también incluyó solicitudes de críticas de posibles lagunas de información, anticipación de preguntas de los lectores, así como ponderación de la importancia de cada crítica. En su respuesta a la sección cibernética de la evaluación de Irán, ChatGPT destacó la vaguedad y sugirió incluir detalles para respaldar el juicio.

El resultado incluye sugerencias, preguntas y "lentes de inteligencia", los últimos de los cuales se centran en si el contenido es compatible con las premisas del informe. Una pregunta le pide al escritor que considere cómo se comparan las capacidades cibernéticas de Irán con las de otras naciones rebeldes, como Corea del Norte. El modelo también sugiere "aclarar el cronograma para el desarrollo potencial de un arma nuclear por parte de Irán si decide buscar una y si el JCPOA no se renueva". Para profundizar la crítica, solicitamos a ChatGPT que generara fundamentos para cada una de las críticas con ejemplos extraídos del texto. Por ejemplo, sobre la sugerencia de incluir un cronograma para la adquisición de un arma nuclear por parte de Irán, el resultado del modelo destacó la importancia de dejar en claro la "urgencia e importancia del tema".

Estos resultados pueden ayudar a los analistas con sus proyectos al evaluar las fortalezas y debilidades de los productos de inteligencia. Sospechamos que los sucesores de ChatGPT-4 refinarán y aprobarán esta capacidad. El proyecto REASON de IARPA, un proyecto de investigación diseñado para ayudar a los analistas a razonar con los sistemas de IA, es una iniciativa contemporánea para hacer esto.

Las implicaciones para el desarrollo de la fuerza laboral y los futuros modelos de IA

Al igual que otras profesiones centradas en la información, como el periodismo y el derecho, los profesionales de la inteligencia se han dado cuenta de que la IA tiene el potencial de interrumpir y cambiar la forma en que hacen su trabajo. Hace cuatro años, la comunidad de inteligencia presentó su propia estrategia para implementar la IA. Lo que sorprende es lo rápido que está mejorando la tecnología: Open AI ya tiene planes para mejorar GPT-4, y otros proveedores están lanzando herramientas previamente restringidas. Las capacidades de la tecnología para ayudar a los analistas como hemos descrito anteriormente y las mejoras de la tecnología por venir sugieren algunas implicaciones.

En primer lugar, los analistas deberán sentirse más cómodos trabajando en equipo con IA. Específicamente, los analistas necesitan una comprensión sólida de los modelos y algoritmos de lenguaje extenso, centrándose en algunos de los sesgos de datos que hemos discutido en este artículo, como el envenenamiento de datos y la distorsión de los resultados del modelo basados en información errónea. También necesitarán perfeccionar sus habilidades de ingeniería rápida. Las habilidades básicas de alfabetización en ciencia de datos ya son importantes y lo serán aún más en la próxima década. Afortunadamente, existen amplias oportunidades para aprender y experimentar con LLM para usuarios que no son expertos en tecnología. En un memorándum de Google filtrado, un empleado señaló que la experimentación con IA "se ha reducido de la producción total de una importante organización de investigación a una persona, una noche y una computadora portátil robusta".

En segundo lugar, los gerentes analíticos también deberán ser conscientes de cómo la IA afectará la forma en que piensan los analistas. En un profético artículo de 2013, el experto en inteligencia Michael Landon-Murray señaló que la digitalización de la sociedad está reconfigurando fundamentalmente la forma en que piensan los analistas de inteligencia y, en el proceso, acortando su capacidad de atención. De manera similar, la implementación de asistentes de IA podría tener el efecto secundario negativo de disminuir la disposición de los analistas a buscar información en los modos tradicionales buscando la respuesta directamente en la fuente.

En tercer lugar, existe el peligro inherente de que los sistemas puedan simplemente reforzar los modos de pensamiento y análisis a medida que los LLM producen un mayor porcentaje de contenido de todo tipo y se retroalimentan como datos de capacitación. Esto corre el riesgo de debilitar aún más las habilidades analíticas y crear oportunidades para que los adversarios logren una sorpresa estratégica.

Por último, se desarrollarán modelos de IA especializados por dominio. Cuanto más especializados sean los datos de entrenamiento alimentados a los modelos de IA, más útil será el resultado. Es cierto que las características de la inteligencia pueden ser diferentes de las del derecho y de los sistemas que se están desarrollando para dominios específicos como las finanzas. Se construyó un modelo reciente usando datos de la Dark Web. No obstante, el principio general de adaptar los datos de entrenamiento a dominios específicos sigue siendo un enfoque valioso para mejorar el rendimiento de los modelos de IA. La plataforma AI de Palantir es un buen ejemplo de esto con implicaciones para las organizaciones militares y de defensa.

El rápido avance de las tecnologías de IA está dando forma a las profesiones en numerosas industrias con nuevos sistemas que surgen a un ritmo que los profesionales pueden encontrar difícil de seguir. En inteligencia, es fácil imaginar agencias que desarrollen tecnologías innovadoras con sus propios modelos entrenados en datos seleccionados, incluida información clasificada. Con este panorama cambiante, ChatGPT es solo otra tecnología a la que la comunidad de inteligencia debe adaptarse de manera inteligente.

Jason Healey Herb Lin Daniel Byman Chongyang Gao Chris Meserole VS Subrahmanian Sean O'Brien Scott Shapiro Benjamin Wittes Eugenia Lostri