Un transformador de visión para decodificar la actividad del cirujano a partir de videos quirúrgicos

Nature Biomedical Engineering (2023)Citar este artículo

6508 Accesos

2 citas

129 Altmetric

Detalles de métricas

La actividad intraoperatoria de un cirujano tiene un impacto sustancial en los resultados postoperatorios. Sin embargo, para la mayoría de los procedimientos quirúrgicos, los detalles de las acciones quirúrgicas intraoperatorias, que pueden variar ampliamente, no se comprenden bien. Aquí informamos sobre un sistema de aprendizaje automático que aprovecha un transformador de visión y aprendizaje contrastivo supervisado para la decodificación de elementos de la actividad quirúrgica intraoperatoria de videos comúnmente recopilados durante cirugías robóticas. El sistema identificó con precisión los pasos quirúrgicos, las acciones realizadas por el cirujano, la calidad de estas acciones y la contribución relativa de los fotogramas de video individuales a la decodificación de las acciones. A través de pruebas exhaustivas en datos de tres hospitales diferentes ubicados en dos continentes diferentes, mostramos que el sistema se generaliza a través de videos, cirujanos, hospitales y procedimientos quirúrgicos, y que puede proporcionar información sobre gestos y habilidades quirúrgicas a partir de videos sin anotaciones. La decodificación de la actividad intraoperatoria a través de sistemas precisos de aprendizaje automático podría usarse para proporcionar a los cirujanos información sobre sus habilidades operativas y permitir la identificación del comportamiento quirúrgico óptimo y el estudio de las relaciones entre los factores intraoperatorios y los resultados posoperatorios.

El objetivo general de la cirugía es mejorar los resultados posoperatorios de los pacientes1,2. Recientemente se demostró que tales resultados están fuertemente influenciados por la actividad quirúrgica intraoperatoria3, es decir, qué acciones realiza un cirujano durante un procedimiento quirúrgico y qué tan bien se ejecutan esas acciones. Sin embargo, para la gran mayoría de los procedimientos quirúrgicos, una comprensión detallada de la actividad quirúrgica intraoperatoria sigue siendo difícil de alcanzar. Este escenario es demasiado común en otros dominios de la medicina, donde los impulsores de ciertos resultados de los pacientes aún no se han descubierto o se manifiestan de manera diferente. El statu quo dentro de la cirugía es que la actividad quirúrgica intraoperatoria simplemente no se mide. Tal falta de medición hace que sea difícil capturar la variabilidad en la forma en que se realizan los procedimientos quirúrgicos a lo largo del tiempo, los cirujanos y los hospitales, probar hipótesis que asocian la actividad intraoperatoria con los resultados del paciente y proporcionar a los cirujanos comentarios sobre su técnica quirúrgica.

La actividad quirúrgica intraoperatoria se puede decodificar a partir de videos comúnmente recopilados durante los procedimientos quirúrgicos asistidos por robot. Dicha decodificación proporciona información sobre qué pasos del procedimiento (como la disección y la sutura del tejido) se realizan a lo largo del tiempo, cómo se ejecutan esos pasos (por ejemplo, a través de un conjunto de acciones o gestos discretos) por parte del cirujano y la calidad con la que se ejecutan. se ejecutan (es decir, el dominio de una habilidad; Fig. 1). Actualmente, si se tuviera que decodificar un video, sería a través de un análisis retrospectivo manual por parte de un cirujano experto. Sin embargo, este enfoque impulsado por humanos es subjetivo, ya que depende de la interpretación de la actividad por parte del cirujano revisor; poco confiable, ya que asume que un cirujano está al tanto de toda la actividad intraoperatoria; e inescalable, ya que requiere la presencia de un cirujano experto y una gran cantidad de tiempo y esfuerzo. Estas suposiciones son particularmente irrazonables cuando los cirujanos expertos no están disponibles (como en entornos de bajos recursos) y ya están presionados por el tiempo. Como tal, existe una necesidad apremiante de decodificar la actividad quirúrgica intraoperatoria de una manera objetiva, confiable y escalable.

a, Los videos quirúrgicos comúnmente recopilados durante las cirugías robóticas se decodifican a través de SAIS en múltiples elementos de la actividad quirúrgica intraoperatoria: lo que realiza un cirujano, como las subfases de sutura del manejo de la aguja, la conducción de la aguja y la extracción de la aguja, y cómo esa actividad es ejecutada por un cirujano, como a través de gestos discretos y en diferentes niveles de habilidad. b, SAIS es un sistema unificado ya que la misma arquitectura se puede utilizar para decodificar de forma independiente diferentes elementos de la actividad quirúrgica, desde el reconocimiento de subfases hasta la clasificación de gestos y la evaluación de habilidades.

Dadas estas limitaciones, se han utilizado tecnologías emergentes como la inteligencia artificial (IA) para identificar la actividad quirúrgica4, los gestos5, los niveles de habilidad del cirujano6,7 y los movimientos de los instrumentos8 exclusivamente a partir de videos. Sin embargo, estas tecnologías se limitan a decodificar solo un único elemento de la actividad quirúrgica intraoperatoria a la vez (como solo gestos), lo que limita su utilidad. Estas tecnologías también rara vez se evalúan rigurosamente, donde sigue siendo una pregunta abierta si se generalizan o funcionan bien en nuevos entornos, como con videos no vistos de diferentes cirujanos, procedimientos quirúrgicos y hospitales. Una evaluación tan rigurosa es fundamental para garantizar el desarrollo de sistemas de IA seguros y confiables.

En este estudio, proponemos un sistema quirúrgico unificado de inteligencia artificial (SAIS) que decodifica múltiples elementos de la actividad quirúrgica intraoperatoria a partir de videos recopilados durante la cirugía. A través de una evaluación rigurosa de los datos de tres hospitales, mostramos que SAIS decodifica de manera confiable múltiples elementos de la actividad intraoperatoria, desde los pasos quirúrgicos realizados hasta los gestos que se ejecutan y la calidad con la que los ejecuta un cirujano. Esta decodificación confiable se mantiene independientemente de si los videos son de diferentes procedimientos quirúrgicos y de diferentes cirujanos en hospitales. También mostramos que SAIS decodifica dichos elementos de manera más confiable que los sistemas de IA de última generación, como Inception3D (I3D; ref. 6), que se han desarrollado para decodificar solo un elemento (como la habilidad del cirujano). También mostramos que SAIS, a través de la implementación en videos quirúrgicos sin anotaciones realizadas por humanos, proporciona información sobre la actividad quirúrgica intraoperatoria, como su calidad a lo largo del tiempo, que de otro modo no habría estado disponible para un cirujano. A través de una evaluación cualitativa, demostramos que SAIS proporciona un razonamiento preciso detrás de su decodificación de la actividad intraoperatoria. Con estas capacidades, ilustramos cómo se puede usar SAIS para proporcionar a los cirujanos comentarios prácticos sobre cómo modular su comportamiento quirúrgico intraoperatorio.

Desciframos el "qué" de la cirugía al encargar a SAIS que distinguiera entre tres subfases quirúrgicas: manipulación de la aguja, conducción de la aguja y retirada de la aguja (Fig. 1). Para todos los experimentos, entrenamos SAIS en muestras de video exclusivamente de la Universidad del Sur de California (USC) (Tabla 1). En Métodos se proporciona una descripción de los procedimientos quirúrgicos y las subfases.

Implementamos SAIS en el conjunto de prueba de muestras de video de USC y presentamos las curvas de características operativas del receptor (ROC) estratificadas de acuerdo con las tres subfases (Fig. 2a). Observamos que SAIS decodifica de forma fiable las subfases quirúrgicas con un área bajo la curva característica operativa (AUC) del receptor de 0,925, 0,945 y 0,951, para la conducción de la aguja, el manejo de la aguja y la retirada de la aguja, respectivamente. También descubrimos que SAIS puede decodificar cómodamente los pasos de alto nivel de la cirugía, como la sutura y la disección (Nota complementaria 3 y Figura complementaria 2).

a–c, SAIS se entrena con muestras de video exclusivamente de USC y se evalúa con las de USC (a), SAH (b) y HMH (c). Los resultados se muestran como un promedio (±1 desviación estándar) de diez pasos de validación cruzada de Monte Carlo. d, Entrenamos variantes de SAIS para cuantificar el beneficio marginal de sus componentes en su PPV. Eliminamos el aumento del tiempo de prueba ('sin TTA'), los marcos RGB ('sin RGB'), los mapas de flujo ('sin flujo') y el mecanismo de autoatención ('sin SA'). Descubrimos que el mecanismo de atención y la entrada de modalidad múltiple (RGB y flujo) son los que más contribuyen al PPV. e, comparamos SAIS con un modelo I3D al decodificar subfases de videos VUA completos sin supervisión humana. Cada cuadro refleja los cuartiles de los resultados y los bigotes se extienden hasta 1,5 veces el rango intercuartílico.

Para determinar si SAIS puede generalizarse a cirujanos invisibles en distintos hospitales, lo implementamos en muestras de video del Hospital St. Antonius (SAH) (Fig. 2b) y el Hospital Metodista de Houston (HMH) (Fig. 2c). Encontramos que SAIS continuó sobresaliendo con AUC ≥0.857 para todas las subfases y en todos los hospitales.

Implementamos SAIS para decodificar subfases de videos completos del paso de sutura de la anastomosis vesicouretral (VUA) (20 minutos de duración) sin supervisión humana (sección de inferencia en Métodos). Presentamos el puntaje F110 (Fig. 2e), una métrica comúnmente informada9, y contextualizamos su desempeño en relación con el de una red I3D de última generación6. Descubrimos que SAIS descodifica las subfases quirúrgicas de manera más confiable que I3D, con estos modelos logrando F110 de 50 y 40, respectivamente.

Para apreciar mejor el grado en que los componentes de SAIS contribuyeron a su desempeño general, entrenamos variantes de SAIS, después de haber eliminado o modificado estos componentes (sección de ablación en Métodos), e informamos su valor predictivo positivo (VPP) al decodificar el resultado quirúrgico. subfases (Fig. 2d).

Descubrimos que el mecanismo de autoatención (SA) fue el que más contribuyó al desempeño de SAIS, donde su ausencia resultó en un ∆PPV de aproximadamente −20. Este hallazgo implica que capturar la relación entre los marcos y el orden temporal de los mismos es fundamental para la decodificación de la actividad quirúrgica intraoperatoria. También observamos que la entrada de modalidad dual (rojo-verde-azul, o RGB, fotogramas y flujo) tiene una mayor contribución al rendimiento que el uso de cualquiera de las dos modalidades de datos por sí sola. Al eliminar los marcos RGB ("sin RGB") o el flujo óptico ("sin flujo"), el modelo exhibió un ∆PPV promedio de aproximadamente −3 en relación con la implementación de referencia. Tal hallazgo sugiere que estas dos modalidades son complementarias entre sí. Por lo tanto, utilizamos el modelo de referencia (SAIS) para todos los experimentos posteriores.

En la sección anterior, mostramos la capacidad de SAIS para decodificar subfases quirúrgicas (el "qué" de la cirugía) y generalizar a muestras de video de cirujanos invisibles en distintos hospitales, y también cuantificamos el beneficio marginal de sus componentes a través de un estudio de ablación. En esta sección, examinamos la capacidad de SAIS para decodificar gestos quirúrgicos (el 'cómo' de la cirugía) realizados durante las actividades de disección y sutura de tejidos (la descripción de los gestos y actividades se proporciona en Métodos). Para la actividad de sutura (VUA), entrenamos a SAIS para distinguir entre cuatro gestos de sutura discretos: derecha derecha por debajo (R1), derecha derecha por encima (R2), derecha izquierda por debajo (L1) y derecha combinada por encima (C1). Para la actividad de disección, conocida como preservación de nervios (NS), entrenamos a SAIS para distinguir entre seis gestos de disección discretos: corte en frío (c), gancho (h), clip (k), movimiento de cámara (m), pelado (p) y retracción (r). Tomamos nota de que la capacitación se realizó en muestras de video exclusivamente de la USC.

Implementamos SAIS en el conjunto de prueba de muestras de video de la USC y presentamos las curvas ROC estratificadas de acuerdo con los gestos de sutura discretos (Fig. 3a) y los gestos de disección (Fig. 3b). Hay dos conclusiones principales aquí. Primero, observamos que SAIS puede generalizarse bien tanto para gestos de sutura como de disección en videos no vistos. Esto se exhibe por el alto AUC logrado por SAIS a través de los gestos. Por ejemplo, en la actividad de sutura, el AUC fue de 0,837 y 0,763 para los gestos de derecha por debajo (R1) y derecha combinada por encima (C1), respectivamente. En la actividad de disección, el AUC fue de 0,974 y 0,909 para los gestos clip (k) y movimiento de cámara (m), respectivamente. Estos hallazgos son un buen augurio para el posible despliegue de SAIS en videos no vistos para los cuales las anotaciones de gestos reales no están disponibles, una vía que exploramos en una sección posterior. En segundo lugar, encontramos que el desempeño de SAIS difiere entre los gestos. Por ejemplo, en la actividad de disección, el AUC fue de 0,701 y 0,974 para los gestos de retracción (r) y clip (k), respectivamente. Nuestra hipótesis es que el buen desempeño de SAIS para este último se debe a la clara presencia visual de un clip en el campo de visión quirúrgico. Por otro lado, la ubicuidad de los gestos de retracción en el campo de visión quirúrgico podría ser una fuente de la capacidad relativamente menor de SAIS para decodificar las retracciones, como se explica a continuación. La retracción a menudo se anota como tal cuando la mano dominante del cirujano la realiza activamente. Sin embargo, como un gesto central que se utiliza para, por ejemplo, mejorar la visualización del campo quirúrgico por parte del cirujano, una retracción a menudo complementa otros gestos. Como tal, puede ocurrir simultáneamente y, por lo tanto, confundirse con otros gestos del modelo.

a, SAIS está capacitado y evaluado en los datos VUA exclusivamente de USC. Los gestos de sutura son derecha derecha por debajo (R1), derecha derecha por encima (R2), derecha izquierda por debajo (L1) y derecha combinada por encima (C1). b–d, SAIS se entrena con los datos NS exclusivamente de USC y se evalúa con los datos NS de USC (b), los datos NS de SAH (c) y los datos HD de USC (d). Los gestos de disección son corte en frío (c), gancho (h), clip (k), movimiento de cámara (m), pelado (p) y retracción (r). Tenga en cuenta que los clips (k) no se utilizan durante el paso HD. Los resultados se muestran como un promedio (±1 desviación estándar) de diez pasos de validación cruzada de Monte Carlo. e, Proporción de gestos predichos identificados como correctos (precisión) estratificados sobre la base de la ubicación anatómica del haz neurovascular en el que se realiza el gesto. f, perfil de gesto donde cada fila representa un gesto distinto y cada línea vertical representa la ocurrencia de ese gesto en un momento particular. SAIS identificó una secuencia de gestos (gancho, clip y corte en frío) que se espera en el paso NS de los procedimientos RARP, y descubrió un comportamiento atípico de un gesto de movimiento de cámara más largo de lo normal correspondiente a la extracción, inspección y reinserción de la cámara en el cuerpo del paciente.

Para medir el grado en que SAIS puede generalizarse a cirujanos no vistos en un hospital distinto, lo implementamos en muestras de video de SAH (Fig. 3c y recuento de muestras de video en la Tabla 1). Descubrimos que SAIS continúa funcionando bien en tal entorno. Por ejemplo, el AUC fue de 0,899 y 0,831 para los gestos de mover la cámara (m) y recortar (k), respectivamente. Es importante destacar que tal hallazgo sugiere que SAIS se puede implementar de manera confiable en datos con varias fuentes de variabilidad (cirujano, hospital, etc.). Esperábamos, y de hecho observamos, una ligera degradación en el rendimiento en esta configuración en relación con cuando SAIS se implementó en muestras de video de USC. Por ejemplo, el AUC fue 0,823 → 0,702 para el gesto de corte en frío (c) en los datos de USC y SAH, respectivamente. Esto se esperaba debido al posible cambio en la distribución de los datos recopilados en los dos hospitales, que se ha documentado que afecta negativamente el rendimiento de la red10. Las posibles fuentes de cambio de distribución incluyen la variabilidad en la forma en que los cirujanos realizan el mismo conjunto de gestos (por ejemplo, diferentes técnicas) y en el campo de visión quirúrgico (por ejemplo, visión clara con menos sangre). Además, nuestra hipótesis de por qué esta degradación afecta a ciertos gestos (como los fiambres) más que a otros (como los clips) es que estos últimos muestran menos variabilidad que los primeros y, por lo tanto, son más fáciles de clasificar por el modelo.

Si bien los videos de diferentes procedimientos quirúrgicos (como nefrectomía versus prostatectomía) pueden mostrar variabilidad en, por ejemplo, puntos de referencia anatómicos (como riñón versus próstata), es probable que reflejen los mismos gestos de disección de tejido. Exploramos el grado en que dicha variabilidad afecta la capacidad de SAIS para decodificar gestos de disección. Específicamente, implementamos SAIS en muestras de video de un paso quirúrgico diferente: disección hiliar renal (HD), de un procedimiento quirúrgico diferente: nefrectomía parcial asistida por robot (RAPN) (Fig. 3d y Tabla 1 para el recuento de muestras de video). Observamos que SAIS logra generalizar adecuadamente a un procedimiento quirúrgico invisible, aunque muestra un rendimiento degradado, como se esperaba (0,615 < AUC < 0,858 en los gestos). Curiosamente, el gesto de gancho (h) experimentó la mayor degradación en el rendimiento (AUC 0,768 → 0,615). Presumimos que esto se debía a la diferencia en el tejido en el que se realiza un gancho. Mientras que en el paso de disección NS, generalmente se realiza un gancho alrededor de los pedículos prostáticos (una región de los vasos sanguíneos), en el paso de HD renal, se realiza en el tejido conectivo alrededor de la arteria y la vena renales, transportando sangre hacia y desde el riñón, respectivamente.

Para contextualizar nuestro trabajo con los métodos anteriores, también entrenamos a SAIS para distinguir entre gestos de sutura en dos conjuntos de datos disponibles públicamente: el conjunto de trabajo de evaluación de habilidades y gestos JHU-ISI (JIGSAWS)11 y el complejo vascular dorsal University College London (DVC UCL)12 (Métodos ). Mientras que el primero contiene videos de participantes en un entorno de laboratorio, el segundo contiene videos de cirujanos en un paso particular (complejo vascular dorsal) del procedimiento de prostatectomía radical asistida por robot (RARP) en vivo. Comparamos la precisión de SAIS con la de los métodos de mejor rendimiento en JIGSAWS (Tabla complementaria 6) y DVC UCL (Tabla complementaria 7).

Descubrimos que SAIS, a pesar de no estar diseñado específicamente para el conjunto de datos JIGSAWS, se desempeña de manera competitiva con los métodos de referencia (Tabla complementaria 6). Por ejemplo, el método basado en video de mejor rendimiento logró una precisión de 90,1, mientras que SAIS logró una precisión de 87,5. Es concebible que la incorporación de modalidades adicionales y modificaciones específicas de conjuntos de datos en SAIS podría mejorar aún más su desempeño. En cuanto al conjunto de datos UCL de DVC, seguimos un protocolo de evaluación diferente del que se informó originalmente12 (consulte los detalles de implementación de la capacitación de SAIS en conjuntos de datos de video externos en Métodos), ya que solo se ha hecho público un subconjunto del conjunto de datos. Para comparar de manera justa los modelos en este entorno, cuantificamos su mejora en relación con un sistema ingenuo que siempre predice el gesto mayoritario (aleatorio) (Tabla complementaria 7). Descubrimos que SAIS conduce a una mayor mejora en el rendimiento en relación con el método de última generación (MA-TCN) en el conjunto de datos DVC UCL. Esto es evidente por el aumento de tres y cuatro veces en la precisión logrado por MA-TCN y SAIS, respectivamente, en relación con un sistema ingenuo.

Uno de los objetivos finales, pero ambiciosos, de SAIS es decodificar la actividad del cirujano de un video quirúrgico completo sin anotaciones y con una supervisión humana mínima. Si lo hiciera, proporcionaría a los cirujanos información que, de otro modo, estaría menos disponible para ellos. En la búsqueda de este objetivo, y como ejemplo, implementamos SAIS para decodificar los gestos de disección de videos completos de NS de la USC (20 a 30 minutos de duración) a los que nunca se ha expuesto (Métodos).

Para evaluar esta decodificación, seleccionamos aleatoriamente una predicción hecha por SAIS para cada categoría de gestos de disección en cada video (n = 800 predicciones de gestos en total). Esto aseguró que recuperáramos las predicciones de un conjunto de videos más representativo y diverso, mejorando así la generalización de nuestros hallazgos. Informamos la precisión de estas predicciones después de confirmar manualmente si las muestras de video correspondientes reflejaron o no el gesto correcto (Fig. 3e). Además, estratificamos esta precisión sobre la base de la ubicación anatómica del haz neurovascular en relación con la glándula prostática. Esto nos permitió determinar si SAIS (a) estaba aprendiendo un atajo poco confiable para decodificar gestos al asociar puntos de referencia anatómicos con ciertos gestos, lo cual no es deseable, y (b) era resistente a los cambios en el ángulo de la cámara y la dirección del movimiento del gesto. Para este último, tenga en cuenta que operar en el haz neurovascular izquierdo a menudo implica usar el instrumento de la mano derecha y moverlo hacia la izquierda del campo de visión (Fig. 3f, fila superior de imágenes). Lo contrario es cierto cuando se opera en el haz neurovascular derecho.

Descubrimos que es poco probable que SAIS esté aprendiendo un atajo específico de anatomía para decodificar gestos y es robusto a la dirección del movimiento del gesto. Esto es evidente por su desempeño similar cuando se implementa en muestras de video de gestos realizados en los haces neurovasculares izquierdo y derecho. Por ejemplo, las predicciones del gesto del gancho (h) exhibieron una precisión de ~0,75 en ambas ubicaciones anatómicas. También observamos que SAIS pudo identificar una categoría de gesto adicional más allá de aquellos en los que se entrenó originalmente. Al inspeccionar manualmente las muestras de video en la categoría de gestos de corte en frío (c) con una precisión aparentemente baja, descubrimos que SAIS estaba identificando un gesto de corte distinto, también conocido como corte en caliente, que, en contraste con un corte en frío, implica aplicar calor. /energía para cortar tejido.

Para evaluar cualitativamente el desempeño de SAIS, presentamos sus predicciones de gestos para un solo video NS de 30 minutos (Fig. 3f). Cada fila representa un gesto distinto y cada línea vertical representa la aparición de este gesto en un momento determinado. Observamos que, aunque SAIS no fue informado explícitamente sobre la relación entre gestos, identificó correctamente un patrón de gestos a lo largo del tiempo que es típico del paso NS dentro de los procedimientos quirúrgicos RARP. Este patrón constituye un (a) gancho, (b) clip y (c) corte en frío y se realiza para separar el haz neurovascular de la próstata mientras se minimiza el grado de sangrado que incurre el paciente.

También descubrimos que SAIS puede descubrir comportamientos atípicos, a pesar de no estar explícitamente capacitado para hacerlo. Específicamente, SAIS identificó un intervalo contiguo de 60 s durante el cual se realizó un movimiento de cámara (m), y que es 60 veces más largo que la duración promedio (1 s) de un movimiento de cámara. Ante la sospecha de un comportamiento atípico, inspeccionamos este intervalo y descubrimos que coincidía con la extracción de la cámara del cuerpo del paciente, su inspección por parte del cirujano que la operaba y su reinserción en el cuerpo del paciente.

En este punto, hemos demostrado que SAIS, como un sistema de IA unificado, puede lograr de forma independiente el reconocimiento de subfases quirúrgicas (el qué de la cirugía) y la clasificación de gestos (el cómo de la cirugía), y generalizar a muestras de videos no vistos en el proceso. En esta sección, examinamos la capacidad de SAIS para decodificar evaluaciones de habilidades de videos quirúrgicos. Al hacerlo, también abordamos el cómo de la cirugía, sin embargo, a través de la lente de la habilidad del cirujano. Evaluamos la calidad con la que los cirujanos ejecutaron dos subfases de sutura: manejo de la aguja y conducción de la aguja (Fig. 1a, columna derecha). Capacitamos a SAIS para decodificar el nivel de habilidad de estas actividades utilizando muestras de video exclusivamente de la USC.

Implementamos SAIS en el conjunto de prueba de muestras de video de la USC y presentamos las curvas ROC asociadas con las habilidades de manejo de agujas (Fig. 4a) y conducción de agujas (Fig. 4b). Descubrimos que SAIS puede decodificar de manera confiable el nivel de habilidad de la actividad quirúrgica, logrando un AUC de 0,849 y 0,821 para la actividad de manejo y manejo de agujas, respectivamente.

a,b, Capacitamos a SAIS en muestras de video exclusivamente de USC para decodificar el nivel de habilidad del manejo de agujas (a) y conducción de agujas (b), y lo implementamos en muestras de video de USC, SAH y HMH. Los resultados son un promedio (±1 desviación estándar) de diez pasos de validación cruzada de Monte Carlo. c, d, también presentamos la atención puesta en los marcos por SAIS para una muestra de video de manejo de agujas de baja habilidad (c) y conducción de agujas (d). Las imágenes con un cuadro delimitador naranja indican que SAIS presta la mayor atención a los marcos que representan estados visuales consistentes con los criterios de evaluación de habilidades respectivos. Estos criterios corresponden a reposiciones de agujas y ajustes de agujas, respectivamente. e, perfil de habilidades quirúrgicas que representa la evaluación de habilidades de manejo de agujas y conducción de agujas de un solo caso quirúrgico en SAH. f,g, Ratio de manejo de agujas (f) y conducción de agujas (g) de baja destreza en cada uno de los 30 casos quirúrgicos en el SAH. Las líneas discontinuas horizontales representan la relación promedio de actividad de baja calificación en la USC.

También implementamos SAIS en muestras de video de cirujanos invisibles en dos hospitales: SAH y HMH (Fig. 4a, b y Tabla 1 para el recuento de muestras de video). Esta es una tarea desafiante que requiere que SAIS se adapte a las formas potencialmente diferentes en que los cirujanos ejecutan las actividades quirúrgicas con diferentes preferencias. Descubrimos que SAIS continuó decodificando de manera confiable el nivel de habilidad del manejo de agujas (SAH: AUC 0.880, HMH: AUC 0.804) y conducción de agujas (SAH: AUC 0.821, HMH: AUC 0.719). La capacidad de SAIS para detectar patrones consistentes en los hospitales apunta a su utilidad potencial para la evaluación objetiva de las habilidades quirúrgicas.

Las variantes de la red neuronal convolucional 3D (3D-CNN) han logrado resultados de vanguardia en la decodificación de habilidades quirúrgicas sobre la base de videos de un ensayo de laboratorio6 o un procedimiento en vivo13. Como tal, para contextualizar la utilidad de SAIS, ajustamos un modelo I3D previamente entrenado (consulte los detalles de implementación de los experimentos I3D en Métodos) para decodificar el nivel de habilidad del manejo de agujas y la conducción de agujas (Tabla 2). Descubrimos que SAIS supera constantemente este modelo de última generación al descifrar el nivel de habilidad de las actividades quirúrgicas en los hospitales. Por ejemplo, al decodificar el nivel de destreza en el manejo de agujas, SAIS e I3D lograron AUC de 0,849 y 0,681, respectivamente. Al decodificar el nivel de habilidad de conducción de agujas, lograron AUC de 0,821 y 0,630, respectivamente. También descubrimos que I3D era más sensible a las muestras de video en las que se entrenó y la inicialización de sus parámetros. Esto es evidente por la desviación estándar más alta de su rendimiento en relación con el de SAIS en los pliegues (0,12 frente a 0,05 para la conducción de agujas en USC). Tal sensibilidad no es deseable ya que apunta a la falta de robustez y al comportamiento impredecible del modelo.

El despliegue seguro de los sistemas de IA clínica a menudo requiere que sean interpretables14. Por lo tanto, queríamos explorar si SAIS identificaba o no señales visuales relevantes mientras decodificaba el nivel de habilidad de los cirujanos. Esto inculcaría a los profesionales del aprendizaje automático la confianza de que SAIS se está aferrando a las características apropiadas y, por lo tanto, se puede confiar en el caso de una implementación futura dentro de un entorno clínico. Primero recuperamos una muestra de video que mostraba una actividad de baja habilidad (manejo de agujas o conducción de agujas) que SAIS clasificó correctamente. Al inspeccionar la atención puesta en dichos marcos por el mecanismo de atención (arquitectura en la Fig. 5), pudimos cuantificar la importancia de cada marco. Idealmente, se presta mucha atención a los marcos de relevancia, donde la relevancia se define sobre la base de la habilidad que se evalúa.

SAIS consta de dos flujos paralelos que procesan distintas modalidades de datos de entrada: videos quirúrgicos RGB y flujo óptico. Independientemente de la modalidad de datos, las características se extraen de cada cuadro a través de un ViT preentrenado de manera autosupervisada en ImageNet. Las características de los cuadros de video luego se ingresan en una pila de codificadores transformadores para obtener una característica de video específica de la modalidad. Estas características específicas de la modalidad se agregan y pasan a un cabezal de proyección para obtener una única característica de video, que es atraída o repelida por el prototipo relevante. Aunque ilustramos dos prototipos para reflejar categorías binarias (actividad de alta habilidad versus actividad de baja habilidad), tendríamos prototipos C en un entorno con categorías C.

Presentamos la atención (cuanto más oscuro es más importante) colocada en los fotogramas de una muestra de video sobre el manejo de agujas (Fig. 4c) y la conducción de agujas (Fig. 4d) y que SAIS clasificó correctamente como de baja habilidad. Encontramos que SAIS pone la mayor atención en marcos que son consistentes con los criterios de evaluación de habilidades. Por ejemplo, con la actividad de manejo de agujas de baja habilidad basada en la cantidad de veces que un cirujano vuelve a agarrar una aguja, vemos que los marcos más importantes resaltan el momento en que ambos brazos robóticos sostienen simultáneamente la aguja, que es característico de una maniobra de reposición de la aguja (fig. 4c). Múltiples repeticiones de este comportamiento se alinean bien con la evaluación de baja habilidad del manejo de agujas. Además, con la conducción de la aguja evaluada como de baja habilidad en función de la suavidad de su trayectoria, observamos que la aguja se introdujo inicialmente a través del tejido, se ajustó y luego se retiró por completo (opuesta a la dirección del movimiento) antes de volver a conducirla a través del tejido. tejido segundos después (Fig. 4d). SAIS puso un alto nivel de atención en la extracción de la aguja y su ajuste y, por lo tanto, se alineó con la evaluación de baja habilidad del manejo de la aguja. En términos más generales, estos hallazgos explicables sugieren que SAIS no solo es capaz de proporcionar a los cirujanos una evaluación de habilidad confiable, objetiva y escalable, sino que también puede identificar los cuadros importantes en la muestra de video. Esta capacidad aborda por qué se realizó una evaluación de baja habilidad y es un buen augurio para cuando se implemente SAIS para proporcionar a los cirujanos comentarios específicos sobre cómo mejorar su ejecución de habilidades quirúrgicas.

Queríamos demostrar que SAIS también puede proporcionar a los cirujanos información sobre habilidades quirúrgicas que de otro modo no habrían estado disponibles para ellos. Con ese fin, le encomendamos a SAIS que evaluara la habilidad de todas las muestras de video de manejo y conducción de agujas recopiladas de SAH.

Con el manejo de la aguja (y la conducción de la aguja) visto como una subfase de un solo punto y sabiendo que una secuencia de puntos a lo largo del tiempo constituye una actividad de sutura (como VUA) en un caso quirúrgico, SAIS puede generar un perfil de habilidades quirúrgicas para un solo caso (Fig. 4e) para el manejo de la aguja y la conducción de la aguja. Nos gustaría enfatizar que este perfil, cuando se genera para casos quirúrgicos que no están anotados con evaluaciones de habilidades reales, brinda a los cirujanos información procesable que de otro modo no habría estado disponible para ellos. Por ejemplo, un cirujano en formación ahora puede identificar regiones temporales de actividad de sutura de baja habilidad, quizás relacionarlas con ubicaciones anatómicas y aprender a enfocarse en tales regiones en el futuro. Al decodificar perfiles para diferentes habilidades dentro del mismo caso quirúrgico, un cirujano ahora puede identificar si el desempeño inferior a la media para una habilidad (como el manejo de agujas) se correlaciona con el de otra habilidad (como la conducción de agujas). Esta información ayudará a guiar cómo un cirujano practica tales habilidades.

SAIS también puede proporcionar información procesable más allá del nivel de caso quirúrgico individual. Para ilustrar esto, presentamos la proporción de acciones de manejo de agujas (Fig. 4f) y conducción de agujas (Fig. 4g) en un caso quirúrgico que se consideró de baja habilidad, para los 30 casos quirúrgicos de SAH. También presentamos la relación promedio de baja habilidad observada en videos quirúrgicos de la USC. Con esta información, el subconjunto de casos con la tasa más baja de acciones de baja habilidad se puede identificar y presentar a los cirujanos en formación con fines educativos. Al comparar las proporciones a nivel de casos con la proporción promedio en diferentes hospitales (Fig. 4g), los cirujanos pueden identificar los casos que pueden beneficiarse de una mayor capacitación del cirujano.

Inicialmente afirmamos que la decodificación de la actividad quirúrgica intraoperatoria puede allanar el camino para múltiples aplicaciones posteriores, una de las cuales es la provisión de retroalimentación posoperatoria a los cirujanos sobre su técnica quirúrgica. Aquí proporcionamos una plantilla de cómo SAIS, según los hallazgos que hemos presentado hasta ahora, puede cumplir con este objetivo. Al decodificar de manera confiable las subfases quirúrgicas y las habilidades quirúrgicas y, al mismo tiempo, proporcionar su razonamiento para hacerlo, SAIS puede brindar retroalimentación de la siguiente forma: 'al completar la puntada número tres del paso de sutura, su manejo de la aguja (qué—subfase) se ejecutó de manera deficiente (cómo -habilidad). Esto probablemente se deba a su actividad en el primer y último trimestre de la subfase de manipulación de agujas (por qué: atención)'. Tal retroalimentación granular y localizada temporalmente ahora permite que un cirujano se concentre mejor en el elemento de la actividad quirúrgica intraoperatoria que requiere mejoras, una capacidad que antes no estaba disponible.

Si bien es útil para dominar una habilidad técnica quirúrgica en sí misma, la retroalimentación del cirujano se vuelve clínicamente más significativa cuando se basa en los resultados del paciente. Por ejemplo, si las evaluaciones de baja habilidad se asocian con malos resultados, entonces un cirujano puede comenzar a modular un comportamiento específico para mejorar dichos resultados. Con ese fin, realizamos un análisis preliminar que retrotrajo las evaluaciones de habilidades del cirujano de SAIS en la USC a la recuperación binaria de la continencia urinaria (capacidad de controlar voluntariamente la micción) de un paciente 3 meses después de la cirugía (Métodos). Al considerar todas las muestras de video (múltiples por caso quirúrgico) y al controlar el número de casos de cirujanos y la edad de los pacientes, encontramos que la recuperación de la continencia urinaria fue de 1,31 × (odds ratio [OR], intervalo de confianza [IC] 1,08–1,58, P = 0,005) más probable cuando el manejo de agujas se evaluó como alta habilidad que como baja habilidad por SAIS. Al agregar las evaluaciones de habilidades de muestras de video dentro de un caso quirúrgico, esa relación se fortalece aún más (OR 1.89, IC 0.95–3.76, P = 0.071). Estos hallazgos preliminares son consistentes con los basados en evaluaciones de habilidades manuales de estudios recientes15,16.

Solo en la última década se ha demostrado empíricamente que la actividad quirúrgica intraoperatoria puede tener una influencia directa en los resultados posoperatorios de los pacientes. Sin embargo, descubrir y actuar sobre esta relación para mejorar los resultados es un desafío cuando los detalles de la actividad quirúrgica intraoperatoria siguen siendo esquivos. Al combinar tecnologías emergentes como la IA con videos comúnmente recopilados durante cirugías robóticas, podemos comenzar a decodificar múltiples elementos de la actividad quirúrgica intraoperatoria.

Hemos demostrado que SAIS puede decodificar subfases quirúrgicas, gestos y habilidades, sobre la base de muestras de videos quirúrgicos, de manera confiable, objetiva y escalable. Aunque hemos presentado SAIS como decodificador de estos elementos específicos en cirugías robóticas, es posible que se pueda aplicar para decodificar cualquier otro elemento de la actividad intraoperatoria de diferentes procedimientos quirúrgicos. La decodificación de elementos adicionales de cirugía simplemente requerirá seleccionar un conjunto de datos anotado con el elemento quirúrgico de interés. Para facilitar esto, lanzamos nuestro código para que otros puedan extraer información de sus propios videos quirúrgicos con SAIS. De hecho, SAIS y los métodos que hemos presentado en este estudio se aplican a cualquier campo en el que la información pueda decodificarse sobre la base de señales visuales y de movimiento.

Comparado con estudios previos, nuestro estudio ofrece contribuciones tanto traslacionales como metodológicas. Desde un punto de vista traslacional, demostramos la capacidad de SAIS para generalizar videos, cirujanos, procedimientos quirúrgicos y hospitales. Es probable que tal hallazgo inculque a los cirujanos una mayor confianza en la confiabilidad de SAIS y, por lo tanto, aumente su probabilidad de adoptarlo. Esto contrasta con el trabajo anterior que evaluó los sistemas de IA en videos capturados en un entorno de laboratorio controlado o en un solo hospital, lo que demuestra capacidades de generalización limitadas.

Desde un punto de vista metodológico, SAIS tiene mucho que ofrecer en comparación con los sistemas de IA desarrollados previamente para decodificar la actividad quirúrgica. Primero, SAIS está unificado en el sentido de que es capaz de decodificar múltiples elementos de la actividad quirúrgica intraoperatoria sin ningún cambio en su arquitectura subyacente. Al actuar como una arquitectura central confiable en torno a la cual se realizan los desarrollos futuros, es probable que SAIS reduzca la cantidad de recursos y la carga cognitiva asociada con el desarrollo de sistemas de IA para decodificar elementos adicionales de la actividad quirúrgica. Esto contrasta con el statu quo en el que se debe emprender el oneroso proceso de desarrollar sistemas de IA especializados para decodificar un solo elemento. En segundo lugar, SAIS proporciona hallazgos explicables en el sentido de que puede resaltar la importancia relativa de los fotogramas de video individuales para contribuir a la decodificación. Tal explicabilidad, que investigamos sistemáticamente en un estudio concurrente17, es fundamental para ganarse la confianza de los cirujanos y garantizar el despliegue seguro de los sistemas de IA para la toma de decisiones de alto riesgo, como la acreditación de cirujanos basada en habilidades. Esto contrasta con los sistemas de IA anteriores, como MA-TCN12, que solo es capaz de resaltar la importancia relativa de las modalidades de datos (por ejemplo, imágenes frente a cinemática) y, por lo tanto, carece del nivel más fino de explicabilidad de SAIS.

SAIS también es flexible porque puede aceptar muestras de video con un número arbitrario de cuadros de video como entrada, principalmente debido a su arquitectura de transformador. Tal flexibilidad, que está ausente de los modelos anteriores de uso común, como 3D-CNN, confiere beneficios para el entrenamiento, el ajuste y la realización de inferencias. Durante el entrenamiento, SAIS puede aceptar un mini lote de videos, cada uno con una cantidad diferente de fotogramas. Esto se puede lograr rellenando videos en el mini lote (con ceros) que tienen menos fotogramas y enmascarando adecuadamente el mecanismo de atención en el codificador del transformador (consulte Detalles de implementación e hiperparámetros en Métodos). Esto contrasta con los sistemas de IA existentes, que a menudo deben presentarse con un mini lote de videos de igual tamaño. De manera similar, durante el ajuste fino o la inferencia, se puede presentar a SAIS una cantidad arbitraria de cuadros de video, lo que amplía el espectro de videos que se le pueden presentar. Esto contrasta con las configuraciones existentes que aprovechan una 3D-CNN que ha sido previamente entrenada en el conjunto de datos de Kinetics18, por lo que las muestras de video deben contener 16 cuadros o múltiplos de los mismos6,13. Cumplir con esta restricción puede ser subóptimo para lograr ciertas tareas, y apartarse de ella implica la incapacidad de aprovechar los parámetros entrenados previamente que han demostrado ser críticos para el éxito de los métodos anteriores. Además, SAIS es arquitectónicamente diferente de los modelos anteriores en que aprende prototipos a través del aprendizaje contrastivo supervisado para decodificar la actividad quirúrgica, un enfoque que aún no se ha explorado con videos quirúrgicos. Dichos prototipos allanan el camino para múltiples aplicaciones posteriores, desde la detección de muestras de video fuera de distribución hasta la identificación de grupos de actividad intraoperatoria y la recuperación de muestras de una gran base de datos quirúrgica19.

También demostramos que SAIS puede proporcionar información que, de otro modo, no habría estado disponible para los cirujanos. Esto incluye gestos quirúrgicos y perfiles de habilidades, que reflejan cómo un cirujano ejecuta la actividad quirúrgica a lo largo del tiempo para un solo caso quirúrgico y en diferentes casos. Estas capacidades allanan el camino para múltiples aplicaciones posteriores que, de otro modo, habrían sido difíciles de lograr. Por ejemplo, desde una perspectiva científica, ahora podemos capturar la variabilidad de la actividad quirúrgica a lo largo del tiempo, los cirujanos y los hospitales. Desde una perspectiva clínica, ahora podemos probar hipótesis que asocian la actividad quirúrgica intraoperatoria con los resultados del paciente a largo plazo. Esto lleva a la comunidad médica un paso más cerca de identificar y eventualmente modular los factores causales responsables de los malos resultados. Finalmente, desde una perspectiva educativa, ahora podemos monitorear y proporcionar retroalimentación a los cirujanos sobre su técnica quirúrgica. Estos comentarios pueden ayudar a los cirujanos a dominar las habilidades necesarias y contribuir a mejorar los resultados de los pacientes.

Hay desafíos importantes que nuestro trabajo aún no aborda. Primero, nuestro marco, similar a otros en el campo, se limita solo a decodificar los elementos de la actividad quirúrgica que se han descrito previamente en alguna taxonomía (como los gestos). En otras palabras, no puede decodificar lo que no sabe. Aunque muchas de estas taxonomías han sido desarrolladas rigurosamente por equipos de cirujanos y a través de la experiencia clínica, es posible que no arrojen luz sobre otros aspectos intrincados de la actividad quirúrgica. Esto, a su vez, limita el grado en que los sistemas automatizados pueden descubrir actividades novedosas que van más allá del ámbito del protocolo existente. Dicho descubrimiento puede dar una idea de, por ejemplo, el comportamiento quirúrgico óptimo pero aún no descubierto. De manera similar, SAIS actualmente es incapaz de decodificar nuevos elementos de la actividad quirúrgica más allá de los que se le presentaron inicialmente. Tales capacidades de aprendizaje continuo10 son fundamentales para adaptarse a una taxonomía en evolución de la actividad quirúrgica a lo largo del tiempo.

El objetivo de la cirugía es mejorar los resultados del paciente. Sin embargo, sigue siendo una pregunta abierta si los elementos decodificados de la actividad quirúrgica intraoperatoria: subfases, gestos y habilidades, son los factores más predictivos de los resultados postoperatorios del paciente. Aunque hemos presentado evidencia preliminar en esta dirección para el caso de las habilidades quirúrgicas, se requieren estudios a gran escala para descubrir estas relaciones. Para explorar más a fondo estas relaciones e informar de manera más confiable la práctica quirúrgica futura, alentamos el lanzamiento público de conjuntos de datos de videos quirúrgicos a gran escala de diferentes hospitales y especialidades quirúrgicas. Equipados con dichos videos y SAIS, los investigadores pueden comenzar a decodificar los diversos elementos de la cirugía a escala.

En el futuro, buscamos investigar si SAIS tiene el efecto deseado en las partes interesadas clínicas. Por ejemplo, nuestro objetivo es implementar SAIS en un entorno de laboratorio controlado para evaluar el nivel de habilidad de la actividad realizada por los estudiantes de medicina y brindarles retroalimentación basada en dichas evaluaciones. Esto brindará una visión práctica de la utilidad de las evaluaciones de habilidades basadas en IA y su percepción por parte de los cirujanos en formación. También pretendemos explorar la interdependencia de los elementos de la actividad quirúrgica intraoperatoria (reconocimiento de subfases, clasificación de gestos y evaluación de habilidades). Esto se puede lograr, por ejemplo, entrenando una variante multitarea de SAIS en la que todos los elementos se decodifican simultáneamente de un video. En tal entorno, la interferencia positiva entre las tareas podría resultar en una decodificación aún más confiable. Alternativamente, SAIS se puede entrenar para realizar primero el reconocimiento de subfases (una tarea relativamente fácil) antes de transferir sus parámetros para realizar una evaluación de habilidades (una tarea relativamente más difícil). Esto es similar al aprendizaje curricular20, en el que a un sistema de IA se le presentan tareas cada vez más difíciles durante el proceso de aprendizaje para mejorar su rendimiento general. En un estudio concurrente21, también investigamos si SAIS exhibe un sesgo algorítmico contra varias subcohortes de cirujanos22. Tal análisis de sesgo es particularmente crítico si se va a utilizar SAIS para proporcionar retroalimentación a los cirujanos. Por ejemplo, puede poner en desventaja a ciertas subcohortes de cirujanos (como los novatos con experiencia mínima) y, por lo tanto, afectar su capacidad para desarrollarse profesionalmente.

Todos los conjuntos de datos (datos de USC, SAH y HMH) se recopilaron bajo la aprobación de la junta de revisión institucional en la que se obtuvo el consentimiento informado (HS-17-00113). Estos conjuntos de datos se desidentificaron antes del desarrollo del modelo.

El trabajo anterior ha utilizado métodos computacionales, como la IA, para decodificar la cirugía23,24. Una línea de investigación se ha centrado en explotar datos de sensores derivados de robots, como el desplazamiento y la velocidad de los brazos robóticos (cinemática), para predecir resultados clínicos25,26,27,28. Por ejemplo, los investigadores han utilizado métricas de rendimiento automatizadas para predecir la duración de la estancia postoperatoria de un paciente en un hospital26. En cambio, otra línea de investigación se ha centrado en explotar exclusivamente vídeos quirúrgicos en directo de cámaras endoscópicas para clasificar la actividad quirúrgica4,29, los gestos5,30,31,32,33 y las habilidades6,7,13,34,35, entre otras tareas36,37. Para obtener información sobre estudios adicionales, remitimos a los lectores a una revisión reciente9. Más recientemente, se han utilizado redes neuronales basadas en la atención, como los transformadores38, para distinguir entre distintos pasos quirúrgicos dentro de un procedimiento39,40,41,42.

El trabajo anterior a menudo divide sus datos de una manera que tiene el potencial de 'fugas' de información a través de conjuntos de entrenamiento y prueba. Por ejemplo, se cree que la configuración de evaluación de exclusión de un usuario comúnmente adoptada en el conjunto de datos JIGSAWS11 es rigurosa. Aunque brinda información sobre la generalización de un modelo a un video de un participante no visto, esta configuración implica informar un puntaje de validación cruzada, que a menudo se optimiza directamente mediante métodos anteriores (por ejemplo, a través del ajuste de hiperparámetros), por lo tanto, produce un resultado demasiado optimista. estimación de rendimiento. Como otro ejemplo, considere la división de datos utilizada para el conjunto de datos CholecT5043. Aquí hay información mínima sobre si los videos en los conjuntos de entrenamiento y prueba pertenecen al mismo cirujano. Por último, el conjunto de datos12 de DVC UCL más reciente consta de 36 videos disponibles públicamente para capacitación y 9 videos privados para prueba. Después de una inspección manual, encontramos que estos nueve videos provienen de seis cirujanos cuyos datos también se encuentran en el conjunto de capacitación. Este es un ejemplo concreto de fuga de datos de cirujanos y, como tal, advertimos el uso de dichos conjuntos de datos con fines de evaluación comparativa. Por lo tanto, es fundamental evaluar más rigurosamente el desempeño de SAIS y de acuerdo con la forma en que es probable que se implemente en un entorno clínico.

Nos enfocamos en videos quirúrgicos que representan dos tipos de actividades quirúrgicas comúnmente realizadas en casi cualquier cirugía: disección de tejido y sutura, que a continuación describimos en detalle.

La disección de tejidos es una actividad fundamental en casi cualquier procedimiento quirúrgico y consiste en separar trozos de tejido entre sí. Por ejemplo, el procedimiento quirúrgico RARP, en el que se extirpa una glándula prostática cancerosa del cuerpo de un paciente, implica varios pasos de disección de tejido, uno de los cuales se denomina preservación nerviosa o NS. La NS implica la preservación del haz neurovascular, una malla de vasculatura y nervios a la izquierda y a la derecha de la próstata, y es esencial para la recuperación posoperatoria de la función eréctil del paciente para las relaciones sexuales. Además, un procedimiento quirúrgico RAPN, en el que se extrae una parte de un riñón canceroso del cuerpo del paciente, implica un paso de disección denominado disección hiliar o HD. La HD implica la extirpación del tejido conectivo alrededor de la arteria y la vena renales para controlar cualquier sangrado potencial de estos vasos sanguíneos.

Estos pasos de disección (NS y HD), aunque específicos del procedimiento (RARP y RAPN), los realiza un cirujano a través de un vocabulario común de gestos de disección discretos. En nuestro trabajo anterior, desarrollamos una taxonomía44 que nos permite anotar cualquier paso de disección de tejido con una secuencia de gestos de disección discretos a lo largo del tiempo.

La sutura también es un componente fundamental de la cirugía45 y consiste en unir los tejidos. Por ejemplo, el procedimiento RARP implica un paso de sutura denominado anastomosis vesicouretral o VUA. La VUA sigue a la extirpación de la glándula prostática cancerosa e implica conectar, a través de puntos, el cuello de la vejiga (una estructura esférica) a la uretra (una estructura cilíndrica), y es esencial para el flujo normal de orina posoperatorio. El paso VUA generalmente consta de un promedio de 24 puntos donde un cirujano puede realizar cada punto a través de un vocabulario común de gestos de sutura. En nuestro trabajo anterior, desarrollamos una taxonomía5 que nos permite anotar cualquier actividad de sutura con una secuencia de gestos de sutura discretos. Notamos que los gestos de sutura son diferentes y más sutiles que los gestos de disección.

Cada puntada también se puede deconstruir en las tres subfases recurrentes de (1) manejo de la aguja, donde la aguja se sostiene en preparación para la puntada, (2) conducción de la aguja, donde la aguja se conduce a través del tejido (como la uretra) y (3) retiro de la aguja, donde la aguja se retira del tejido para completar un solo punto. Las subfases de manejo de agujas y conducción de agujas también se pueden evaluar en función del nivel de habilidad con el que se ejecutan. En nuestro trabajo anterior, desarrollamos una taxonomía46 que nos permite anotar cualquier subfase de sutura con un nivel de habilidad binario (baja habilidad versus alta habilidad).

Recopilamos videos de procedimientos quirúrgicos robóticos completos de tres hospitales: USC, SAH y HMH. Cada video del procedimiento RARP, por ejemplo, era del orden de 2 h. Un becario médico (RM) identificó manualmente el paso de disección de tejido NS y el paso de sutura de tejido VUA en cada video RARP. Describimos el número total de videos y muestras de video de cada hospital en la Tabla 1. A continuación, describimos cómo se anotaron estos pasos con subfases quirúrgicas, gestos y niveles de habilidad.

Es importante señalar que los evaluadores humanos se sometieron a una fase de capacitación en la que se les pidió que anotaran el mismo conjunto de videos quirúrgicos, lo que permitió el cálculo de la confiabilidad entre evaluadores (entre 0 y 1) de sus anotaciones. Una vez que esta confiabilidad superó 0,8, se consideró completa la fase de entrenamiento47.

Cada video del paso de disección NS (del orden de 20 min) fue anotado retrospectivamente por un equipo de evaluadores humanos capacitados (RM, TH y otros) con gestos de disección de tejido. Esta anotación siguió las pautas estrictas de nuestra taxonomía de gestos de disección desarrollada previamente44. Nos centramos en los seis gestos de disección más utilizados: corte en frío (c), gancho (h), clip (k), movimiento de cámara (m), pelado (p) y retracción (r). En concreto, al observar un gesto, un evaluador humano registró la hora de inicio y la hora de finalización de su ejecución por parte del cirujano. Por lo tanto, cada paso de NS resultó en una secuencia de n ≈ 400 muestras de video de gestos (de seis categorías distintas) con cada muestra de video del orden de 0 a 10 s de duración. Además, cada muestra de video se asignó a un solo gesto. Se siguió la misma estrategia para anotar el paso de sutura VUA con gestos de sutura. Esta anotación siguió las pautas estrictas de nuestra taxonomía desarrollada previamente de gestos de sutura5. Nos centramos en los cuatro gestos de sutura más utilizados: derecha derecha por debajo (R1), derecha derecha por encima (R2), derecha izquierda por debajo (L1) y derecha combinada por encima (C1).

Cada video del paso de sutura VUA (del orden de 20 minutos) fue anotado retrospectivamente por un equipo de evaluadores humanos capacitados (DK, TH y otros) con subfases y habilidades quirúrgicas. Esta anotación siguió las pautas estrictas de nuestra taxonomía desarrollada anteriormente denominada evaluación de extremo a extremo de la experiencia en sutura o EASE46. Dado que el paso VUA es reconstructivo en el que se unen la vejiga y la uretra, a menudo requiere una serie de puntos (del orden de 24 puntos: 12 en el lado de la vejiga y otros 12 en el lado de la uretra).

Con una sola puntada que consta de las tres subfases de manipulación de la aguja, conducción de la aguja y retirada de la aguja (siempre en ese orden), un evaluador humano primero identificaría la hora de inicio y la hora de finalización de cada una de estas subfases. Por lo tanto, cada paso de VUA puede tener n = 24 muestras de video de las subfases de manejo de la aguja, conducción de la aguja y retiro de la aguja con cada muestra de video del orden de 10 a 30 s. La distribución de la duración de tales muestras de video se proporciona en la Nota complementaria 2.

También se pidió a los evaluadores humanos que anotaran la calidad del manejo de la aguja o la actividad de conducción de la aguja (0 para poca habilidad y 1 para alta habilidad). Para el manejo de agujas, una evaluación de alta habilidad se basa en la cantidad de veces que el cirujano debe cambiar la posición de agarre de la aguja para prepararla para atravesar el tejido (cuantas menos, mejor). Para la conducción de agujas, una evaluación de alta habilidad se basa en la suavidad y la cantidad de ajustes necesarios para conducir la aguja a través del tejido (cuanto más suave y menor sea la cantidad de ajustes, mejor). Dado que cada muestra de video se asignó a varios evaluadores, tenía varias etiquetas de evaluación de habilidades. En caso de posibles desacuerdos en las anotaciones, se consideró la puntuación más baja (peor). Nuestra motivación para hacerlo se basó en la suposición de que si un evaluador humano penalizó la calidad de la actividad del cirujano, entonces debe haber sido debido a uno de los criterios objetivos descritos en el sistema de puntuación y, por lo tanto, es subóptimo. Nosotros, a su vez, queríamos capturar y codificar este comportamiento subóptimo.

En todos los experimentos, entrenamos SAIS en un conjunto de entrenamiento de muestras de video y lo evaluamos usando una validación cruzada de Monte Carlo de diez veces, donde el conjunto de prueba de cada pliegue constaba de subfases de videos no vistos durante el entrenamiento. Tal enfoque contribuye a nuestro objetivo de una evaluación rigurosa al permitirnos evaluar la capacidad de SAIS para generalizar a videos no vistos (en adelante, a través de videos). Esta configuración también es más desafiante y representativa de la implementación en el mundo real que una en la que un sistema de IA generaliza a muestras invisibles dentro del mismo video. Como tal, adoptamos esta configuración de evaluación para todos los experimentos descritos en este estudio, a menos que se indique lo contrario. En la Nota complementaria 1 se puede encontrar un desglose detallado de la cantidad de muestras de video utilizadas para capacitación, validación y prueba.

Para todos los experimentos realizados, a menos que se indique lo contrario, dividimos los datos a nivel de video del caso en un conjunto de entrenamiento (90 %) y de prueba (10 %). Usamos el 10% de los videos en el conjunto de entrenamiento para formar un conjunto de validación con el que realizamos el ajuste de hiperparámetros. Al dividir a nivel de video, donde los datos del mismo video no aparecen en los conjuntos, estamos evaluando rigurosamente si el modelo se generaliza en videos no vistos. Tenga en cuenta que, si bien es posible que aparezcan datos del mismo cirujano tanto en los conjuntos de entrenamiento como de prueba, también experimentamos con configuraciones aún más rigurosas: en hospitales, donde los videos son de hospitales y cirujanos completamente diferentes, y en procedimientos quirúrgicos. donde los videos son de procedimientos quirúrgicos completamente diferentes (como nefrectomía versus prostatectomía). Si bien existen varias formas de evaluar rigurosamente SAIS, creemos que demostrar su capacidad de generalización entre cirujanos, hospitales y procedimientos quirúrgicos, como lo hemos hecho, es un paso en la dirección correcta. Informamos el rendimiento de los modelos como un promedio, con una desviación estándar, en todos los pliegues.

Para capturar señales visuales y de movimiento en videos quirúrgicos, SAIS operó en dos modalidades distintas: videos quirúrgicos en vivo en forma de marcos RGB y el flujo óptico correspondiente de dichos marcos. Los videos quirúrgicos se pueden grabar a varias velocidades de muestreo, que tienen unidades de fotogramas por segundo (fps).

El conocimiento de la tasa de muestreo junto con la tasa natural con la que ocurre la actividad en un entorno quirúrgico es esencial para tomar decisiones múltiples. Estos pueden variar desde la cantidad de fotogramas para presentar en una red de aprendizaje profundo y la velocidad adecuada con la que reducir la resolución de los videos hasta el tamaño de paso temporal utilizado para derivar mapas de flujo óptico, como se describe a continuación. La inclusión de demasiados fotogramas en los que hay muy pocos cambios en la escena visual genera una carga computacional y puede resultar en un ajuste excesivo debido a la inclusión de fotogramas muy similares (baja diversidad visual). Por otro lado, incluir muy pocos marcos puede resultar en la pérdida de información visual pertinente a la tarea en cuestión. De manera similar, la obtención de mapas de flujo óptico razonables, que es una función de un par de imágenes que están espaciadas temporalmente, depende del tiempo transcurrido entre dichas imágenes. Un lapso de tiempo demasiado corto podría resultar en un movimiento mínimo en la escena visual, lo que resultaría en mapas de flujo óptico poco informativos. De manera análoga, un período de tiempo demasiado largo podría significar perderse un movimiento intermedio informativo en la escena visual. Nos referimos a estas decisiones como hiperparámetros (consulte la sección Detalles de implementación e hiperparámetros en Métodos). A lo largo de este documento, derivamos mapas de flujo óptico mediante la implementación de un modelo RAFT48, que encontramos que proporciona mapas razonables.

Nuestro sistema de IA, SAIS, se basa en la visión y está unificado (Fig. 5). Se basa en la visión, ya que opera exclusivamente en videos quirúrgicos recopilados de forma rutinaria como parte de los procedimientos quirúrgicos robóticos. Está unificado ya que la misma arquitectura, sin modificaciones, puede utilizarse para decodificar múltiples elementos de la actividad quirúrgica intraoperatoria (Fig. 1b). Describimos los beneficios de dicho sistema en Discusión.

Extraemos una secuencia de representaciones D-dimensionales, \(\left\{ {v_t \in {\Bbb R}^D} \right\}_{t = 1}^T\), de T marcos ordenados temporalmente a través de un Transformador de visión (congelado) (ViT) entrenado previamente en el conjunto de datos de ImageNet de manera autosupervisada49. En resumen, esta configuración previa al entrenamiento, denominada DINO, implicó optimizar una función objetiva contrastiva mediante la cual las representaciones de la misma imagen, aumentadas de diferentes maneras (como el recorte aleatorio), se animan a ser similares entre sí. Para obtener más detalles, consulte el documento original50.

Los ViT convierten cada cuadro de entrada en un conjunto de parches de imagen cuadrados de dimensión H × H e introducen un mecanismo de autoatención que intenta capturar la relación entre los parches de imagen (es decir, información espacial). Encontramos que esta atención espacial capta las puntas de los instrumentos, las agujas y los bordes anatómicos (Fig. 6). Elegimos este extractor de características sobre la base de (a) evidencia reciente que favorece los modelos preentrenados autosupervisados en relación con sus contrapartes supervisadas y (b) el deseo de reducir la carga computacional asociada con el entrenamiento de un extractor de características en un punto a punto. forma final.

Presentamos dos cuadros de video RGB de muestra de la actividad de manejo de agujas y la atención espacial correspondiente colocada por ViT en parches de estos cuadros.

Agregamos una incrustación de clasificación D-dimensional aprendible, \(e_{{{{\mathrm{cls}}}}} \in {\Bbb R}^D\), al comienzo de la secuencia de representaciones de marcos, \( \left\{ {v_t} \right\}_{t = 1}^T\). Para capturar el orden temporal de los marcos de las imágenes, agregamos incrustaciones posicionales temporales de dimensión D, \(\left\{ {e_t \in {\Bbb R}^D} \right\}_{t = 1}^ T\), a la secuencia de representaciones de cuadro antes de ingresar la secuencia en cuatro capas de codificador de Transformador. Dicho codificador tiene un mecanismo de autoatención por el cual cada cuadro atiende a todos los demás cuadros de la secuencia. Como tal, se capturan las dependencias de corto y largo alcance entre fotogramas. Resumimos el video específico de la modalidad a través de una representación de video específica de la modalidad, \(h_{{{{\mathrm{cls}}}}} \in {\Bbb R}^D\), de la clasificación incrustada, ecls, en la capa final del codificador del transformador, como suele hacerse. Este proceso se repite para el flujo de modalidad de flujo óptico.

Las dos representaciones de video específicas de la modalidad, hRGB y hFlow, se agregan de la siguiente manera:

La representación agregada, hagg, se pasa a través de dos cabezales de proyección, en forma de capas lineales con una función de activación no lineal (ReLU), para obtener una representación de video E-dimensional, \(h_{{{{\mathrm{Video }}}}} \in {\BbbR}^E\).

Para lograr la tarea de interés, la representación específica del video, hVideo, se somete a una serie de atracciones y repulsiones con incrustaciones aprendibles, a las que nos referimos como prototipos. Cada prototipo, p, refleja una sola categoría de interés y tiene la misma dimensionalidad que hVideo. La representación, \(h_{{{{\mathrm{Video}}}}} \in {\Bbb R}^E\), de un video de una categoría particular, c, es atraída por el prototipo único, \( p_{{{\mathrm{c}}}} \in {\Bbb R}^E\), asociado con la misma categoría y repelido de todos los demás prototipos, \(\left\{ {p_j} \right\} _ {j = 1}^C,j \ne c\), donde C es el número total de categorías. Logramos esto aprovechando el aprendizaje contrastivo y minimizando la pérdida de InfoNCE, \({{{\mathcal{L}}}}_{{{{\mathrm{NCE}}}}}\):

Durante el entrenamiento, compartimos los parámetros del codificador Transformer en todas las modalidades para evitar el sobreajuste. Como tal, aprendemos, de manera integral, los parámetros del codificador del Transformador, la incorporación del token de clasificación, las incorporaciones posicionales temporales, los parámetros del cabezal de proyección y los prototipos específicos de categoría.

Para clasificar una muestra de video en una de las categorías, calculamos la similitud (es decir, la similitud del coseno) entre la representación de video, hVideo, y cada uno de los prototipos, \(\left\{ {p_j} \right\}_{ j = 1}^C\). Aplicamos la función softmax a estos valores de similitud para obtener una función de masa de probabilidad sobre las categorías. Al identificar la categoría con la masa de probabilidad más alta (argmax), podemos hacer una clasificación.

La representación de video, hVideo, puede depender de la elección de fotogramas (tanto RGB como de flujo óptico) que se ingresan inicialmente en el modelo. Por lo tanto, para tener en cuenta esta dependencia y evitar la pérdida de marcos potencialmente informativos durante la inferencia, implementamos lo que se conoce como aumento del tiempo de prueba (TTA). Esto implica aumentar la misma entrada varias veces durante la inferencia, lo que, a su vez, genera múltiples funciones de masa de probabilidad. Luego podemos promediar estas funciones de masa de probabilidad, de forma análoga a un modelo de conjunto, para hacer una clasificación única. En nuestro contexto, usamos tres entradas de tiempo de prueba; el conjunto original de fotogramas a una frecuencia de muestreo fija y los perturbados al compensar el fotograma de inicio en K fotogramas a la misma frecuencia de muestreo. Al hacerlo, se garantiza que haya una mínima superposición de fotogramas en las entradas aumentadas, capturando así información diferente, mientras continúa abarcando los aspectos más relevantes del video.

Durante el entrenamiento y la inferencia, usamos la hora de inicio y la hora de finalización de cada muestra de video para guiar la selección de cuadros de video de esa muestra. Para la clasificación de gestos, seleccionamos diez cuadros igualmente espaciados de la muestra de video. Por ejemplo, para una muestra de video con una frecuencia de cuadro de 30 Hz y que tiene una duración de 3 s, a partir de los 30 × 3 = 90 cuadros originales, solo recuperaríamos cuadros ∈ [0, 9, 18, …]. Por el contrario, para el reconocimiento de subfases y la evaluación de habilidades, seleccionamos cada décimo de por medio. Por ejemplo, para la misma muestra de video anterior, solo recuperaríamos fotogramas ∈ [0, 10, 20,...]. Descubrimos que estas estrategias dieron como resultado una buena compensación entre la complejidad computacional y la captura de señales suficientemente informativas en el video para completar la tarea. De manera similar, los mapas de flujo óptico se basaron en pares de imágenes separadas por 0,5 s. Lapsos de tiempo más cortos dieron como resultado fotogramas que exhibían un movimiento mínimo y, por lo tanto, mapas de flujo poco informativos. Durante el entrenamiento, para asegurarnos de que los mapas de flujo óptico y RGB estuvieran asociados con el mismo lapso de tiempo, recuperamos mapas que se superponían en el tiempo con los marcos RGB. Durante la inferencia, y para TTA, compensamos los marcos de flujo óptico y RGB en K = 3 y K = 6 marcos.

Realizamos nuestros experimentos en PyTorch51 usando una GPU V100 en una máquina DGX. Cada marco RGB y mapa de flujo óptico se redimensionó a 224 × 224 (desde 960 × 540 en USC y SAH y 1920 × 1080 en SAH) antes de ingresarlos al extractor de funciones ViT. El extractor de características de ViT preprocesó cada cuadro en un conjunto de parches cuadrados de dimensión H = 16 y generó una representación de cuadro de dimensión D = 384. Todas las representaciones de video y prototipos son de dimensión E = 256. En la práctica, congelamos los parámetros del ViT, extrajo todas esas representaciones fuera de línea (es decir, antes del entrenamiento) y las almacenó como archivos h5py. Seguimos la misma estrategia para extraer representaciones de mapas de flujo óptico. Esto redujo sustancialmente el cuello de botella típico asociado con la carga de videos y optimizó nuestro proceso de capacitación e inferencia. Esto también facilita la inferencia realizada en futuros videos. Una vez que se graba un nuevo video, sus características se pueden extraer inmediatamente sin conexión y almacenarse para uso futuro.

A menos que se indique lo contrario, entrenamos SAIS utilizando un tamaño de mini lote de ocho muestras de video y una tasa de aprendizaje de 1e−1, y optimizamos sus parámetros a través del descenso de gradiente estocástico. A menudo se requiere que las muestras de mini lotes tengan la misma dimensionalidad (B × T × D), donde B es el tamaño del lote, T es el número de fotogramas y D es la dimensión de la representación almacenada. Por lo tanto, cuando encontramos muestras de video en el mismo mini lote con una cantidad diferente de cuadros temporales (como T = 10 versus T = 11), primero agregamos representaciones de marcador de posición (tensores llenos de ceros) al final del video más corto. muestras Esto aseguró que todas las muestras de video en el mini lote tuvieran la misma dimensión. Para evitar incorporar estas representaciones rellenadas en el procesamiento posterior, utilizamos una matriz de enmascaramiento (matriz con entradas binarias) que indica a qué representaciones debe atender el mecanismo de atención. Es importante destacar que las representaciones rellenas no se atienden durante un paso hacia adelante a través de SAIS.

Entrenamos varias variantes de SAIS para identificar la contribución de cada uno de sus componentes en el desempeño general. Específicamente, las variantes del modelo se entrenan usando SAIS (línea de base), se evalúan sin aumento de tiempo de prueba ("sin TTA") y se exponen solo a flujo óptico ("sin RGB") o marcos RGB ("sin flujo") como entradas. También eliminamos el mecanismo de autoatención que capturaba la relación entre fotogramas y el orden temporal de los mismos ('sin SA'). En esta configuración, simplemente promediamos las características del cuadro. Aunque presentamos el PPV en Resultados, llegamos a hallazgos similares cuando usamos otras métricas de evaluación.

Después de entrenar y evaluar un modelo en muestras de video (del orden de 10 a 30 s), lo implementamos en videos completos (del orden de 10 a 30 min) para decodificar un elemento de la actividad quirúrgica sin supervisión humana. Nos referimos a este proceso como inferencia. Como describimos a continuación, una implementación adecuada de la inferencia a menudo depende del elemento de la actividad quirúrgica que se decodifica.

Las muestras de video utilizadas para entrenar y evaluar SAIS para decodificar las tres subfases de sutura del manejo de la aguja, la conducción de la aguja y la extracción de la aguja abarcaron, en promedio, 10 a 30 s (Nota complementaria 2). Esto guió nuestras elecciones de diseño para la inferencia.

Durante la inferencia, adoptamos dos enfoques complementarios, como se describe a continuación. Enfoque 1: presentamos a SAIS muestras de video de 10 s de un video VUA completo con superposiciones de 5 s entre muestras de video posteriores, y estas últimas garantizan que capturemos la actividad de los límites. Como tal, cada muestra de video de 10 s se asoció con una sola salida probabilística, {sNH, sND, sNW}, que refleja la probabilidad, s, de manejo de agujas (NH), conducción de agujas (ND) y retiro de agujas (NW). Enfoque 2: presentamos SAIS con muestras de video de 5 s sin superposición del mismo video. La motivación para elegir una muestra de video más corta es capturar una breve subfase que, de otro modo, se habría convertido en otra subfase al usar una muestra de video más larga. Como tal, cada muestra de video de 5 s se asoció con una sola salida probabilística. Tenga en cuenta que seguimos el mismo enfoque para seleccionar fotogramas de cada muestra de video que hicimos durante la configuración original de capacitación y evaluación (consulte Detalles de implementación e hiperparámetros).

Como ejemplo de estos enfoques, la primera muestra de video presentada a SAIS en el enfoque 1 abarca de 0 a 10 s, mientras que las dos primeras muestras de video presentadas a SAIS en el enfoque 2 abarcan de 0 a 5 s y de 5 a 10 s, respectivamente. Al considerar ambos enfoques, el intervalo de tiempo de 0 a 10 s se asocia con tres salidas probabilísticas únicas (al igual que cada otro intervalo de tiempo de 10 s).

Recuerde que entrenamos a SAIS utilizando una validación cruzada de Monte Carlo de diez veces, lo que resultó en diez modelos únicos. Para aumentar nuestra confianza en el proceso de inferencia, realizamos la inferencia siguiendo los dos enfoques antes mencionados con cada uno de los diez modelos. Como tal, cada intervalo de tiempo de 10 s se asoció con 3 salidas probabilísticas (P) × 10 pliegues (F) × 3 TTA = 90 salidas probabilísticas en total. Como se hace con los modelos de conjunto, luego promediamos estas salidas probabilísticas (también conocidas como embolsado) para obtener una única salida probabilística,\(\left\{ {\overline s _{{{\mathrm{NH}}},\overline s _{{ {\mathrm{ND}}},\overline s _{{\mathrm{NW}}}} \right\}\), donde el j-ésimo valor de probabilidad para j ∈ [1, C] (categorías C) se obtiene como sigue:

Además de los modelos de conjunto que a menudo superan a sus contrapartes de modelo único, también pueden proporcionar una estimación de la incertidumbre sobre una clasificación. Tal cuantificación de la incertidumbre puede ser útil para identificar muestras de video fuera de distribución52, como aquellas que el modelo nunca ha visto antes, o para resaltar muestras de video donde la clasificación es ambigua y, por lo tanto, potencialmente inexacta. Para cuantificar la incertidumbre, nos inspiramos en un trabajo reciente53 y calculamos la entropía, S, de la salida posterior probabilística resultante. Con alta entropía implicando alta incertidumbre, podemos optar por abstenernos de considerar clasificaciones cuya entropía exceda algún umbral, Sthresh:

Una vez que filtramos las predicciones que son inciertas (es decir, exhiben una alta entropía), nos quedamos con predicciones individuales para cada subfase que abarcan como máximo 10 s (debido a cómo identificamos anteriormente muestras de video). Sin embargo, sabemos por observación que ciertas subfases pueden durar más de 10 s (Nota complementaria 2). Para dar cuenta de esto, agregamos predicciones de subfases que estaban cerca unas de otras a lo largo del tiempo. Específicamente, agregamos múltiples predicciones de la misma subfase en una sola predicción si estaban separadas por menos de 3 s, en efecto encadenando las predicciones. Aunque es probable que este valor dependa de otras opciones en el proceso de inferencia, encontramos que produce resultados razonables.

Las muestras de video utilizadas para entrenar y evaluar SAIS para decodificar los seis gestos de disección abarcaron, en promedio, 1 a 5 s. Esto también guió nuestras elecciones de diseño para la inferencia.

Durante la inferencia, encontramos suficiente adoptar solo uno de los dos enfoques para la inferencia descritos anteriormente (inferencia para el reconocimiento de subfases). Específicamente, presentamos a SAIS muestras de video sin superposición de 1 segundo de un video NS completo. Como tal, cada muestra de video de 1 s se asoció con una sola salida probabilística, \(\{ s_j\} _{j = 1}^6\) que refleja la probabilidad, s, de cada uno de los seis gestos.

Al igual que con la inferencia para el reconocimiento de subfases de sutura, implementamos los diez modelos SAIS (de los diez pliegues de Monte Carlo) y tres TTA en las mismas muestras de video. Como tal, cada muestra de video de 1 s se asoció con 10 × 3 = 30 salidas probabilísticas. Luego se promedian para obtener un único resultado probabilístico, \(\{ \bar s_j\} _{j = 1}^6\).

También aprovechamos la entropía de las clasificaciones de gestos como una forma de cuantificar la incertidumbre y, por lo tanto, abstenernos de hacer clasificaciones de gestos altamente inciertas. Encontramos que Sthresh = 1.74 condujo a resultados razonables.

Para dar cuenta de la observación de que los gestos pueden abarcar varios segundos, agregamos predicciones individuales de 1 s que estaban cerca unas de otras a lo largo del tiempo. Específicamente, agregamos múltiples predicciones del mismo gesto en una sola predicción si estaban separadas por menos de 2 s. Por ejemplo, si se predice un gesto de retracción (r) a intervalos de 10 a 11 s, de 11 a 12 s y de 15 a 16 s, lo tratamos como dos gestos de retracción distintos. El primero dura 2 s (10–12 s) mientras que el segundo dura 1 s (15–16 s). Esto nos evita etiquetar gestos espurios e incompletos (por ejemplo, el comienzo o el final de un gesto) como un gesto completamente distinto a lo largo del tiempo. Nuestro intervalo de 2 s introdujo cierta tolerancia para una posible clasificación errónea entre gestos del mismo tipo y permitió la continuidad temporal de los gestos.

Capacitamos a SAIS en dos conjuntos de datos disponibles públicamente: JIGSAWS11 y DVC UCL12. En resumen, estos conjuntos de datos contienen muestras de video de personas que realizan gestos de sutura en un entorno de laboratorio controlado o durante el paso del complejo vascular dorsal del procedimiento quirúrgico RARP. Para obtener más detalles sobre estos conjuntos de datos, remitimos a los lectores a las respectivas publicaciones originales.

Seguimos la configuración de validación cruzada de dejar un usuario fuera comúnmente adoptada11. Esto implica la capacitación en muestras de video de todos los usuarios menos uno y la evaluación de los del usuario restante. Estos detalles se pueden encontrar en una revisión reciente9.

Este conjunto de datos, publicado recientemente como parte del Endoscopic Vision Challenge 2022 en MICCAI, consta de 45 videos de un total de ocho cirujanos que realizan gestos de sutura durante el paso del complejo vascular dorsal del procedimiento quirúrgico RARP12. El conjunto de datos disponible públicamente, en el momento de escribir este artículo, se compone de 36 de estos videos (Tabla 1). De manera similar a los conjuntos de datos privados que usamos, cada video (del orden de 2 a 3 minutos) se anota con una secuencia de ocho gestos de sutura únicos junto con su hora de inicio y finalización. Tenga en cuenta que estas anotaciones no siguen la taxonomía que hemos desarrollado y, por lo tanto, son distintas de las que describimos en la sección de anotaciones y muestras de videos quirúrgicos. El único método anterior para evaluar este conjunto de datos lo hace en un conjunto de prueba privado. Como este conjunto de prueba no está disponible públicamente, adoptamos una configuración de dejar un video fuera e informamos el rendimiento de validación cruzada diez veces de SAIS (Tabla complementaria 3 para la cantidad de muestras de video en cada pliegue). Tal configuración proporciona una idea de qué tan bien SAIS puede generalizar a videos no vistos. Además, a la luz de las pocas muestras de una de las categorías de gestos (G5), distinguimos entre solo siete de los gestos. Para facilitar la reproducibilidad de nuestros hallazgos, publicaremos las divisiones de datos exactas utilizadas para el entrenamiento y las pruebas.

Entrenamos el modelo I3D para decodificar el nivel de habilidad binaria del manejo de agujas y la conducción de agujas sobre la base de muestras de video del paso VUA. Para una comparación justa, presentamos el modelo I3D con los mismos datos exactos presentados de otro modo a SAIS (nuestro modelo). Al entrenar el modelo I3D, seguimos la estrategia central propuesta en la ref. 6. Por ejemplo, cargamos los parámetros previamente entrenados en el conjunto de datos de Kinetics y congelamos todas menos las últimas tres capas (denominadas Mixed5b, Mixed5c y logits).

Sin embargo, habiendo observado que el modelo I3D era bastante sensible a la elección de los hiperparámetros, nos pareció necesario realizar una gran cantidad de experimentos para identificar la configuración óptima y los hiperparámetros para decodificar la habilidad quirúrgica, cuyos detalles se describen a continuación. Primero, mantuvimos la capa de logits tal cual, lo que resultó en una representación de 400 dimensiones, y la seguimos con un cabezal de clasificación no lineal para generar la probabilidad de, por ejemplo, una actividad de alta habilidad. También aprovechamos ambas modalidades de datos (RGB y flujo) que encontramos para mejorar la implementación original que había usado una sola modalidad. En concreto, sumamos las dos representaciones de 400 dimensiones (una para cada modalidad) entre sí y pasamos la representación resultante por la cabeza de clasificación antes mencionada. Con el I3D preentrenado esperando una entrada con 16 fotogramas o múltiplos de los mismos, le proporcionamos una muestra de video compuesta por 16 fotogramas igualmente espaciados entre la hora de inicio y la hora de finalización de esa muestra. Si bien también experimentamos con una cantidad diferente de fotogramas, descubrimos que producía resultados subóptimos. Para entrenar I3D, usamos un tamaño de lote de 16 muestras de video y una tasa de aprendizaje de 1e−3.

Para determinar si las evaluaciones de habilidades de SAIS están asociadas con los resultados de los pacientes, realizamos un experimento con dos variantes. Primero implementamos SAIS en el conjunto de prueba de muestras de video en cada pliegue de la configuración de validación cruzada de Monte Carlo. Esto resultó en una salida, Z1 ∈ [0, 1], para cada muestra de video que refleja la probabilidad de una evaluación de alta habilidad. En la primera variante de este experimento, asignamos a cada muestra de video, vinculada a un caso quirúrgico, un resultado de recuperación de la continencia urinaria (3 meses después de la cirugía), Y. Para tener en cuenta el hecho de que un solo resultado, Y, está vinculado a una todo el caso quirúrgico, en la segunda variante de este experimento, promediamos las salidas, Z, para todas las muestras de video dentro del mismo caso quirúrgico. Esto, naturalmente, redujo el número total de muestras disponibles.

En ambos experimentos, controlamos el número total de cirugías robóticas realizadas por el cirujano (carga de casos, Z2) y la edad del paciente operado (Z3), y retrocedimos los resultados probabilísticos de SAIS al resultado de recuperación de la continencia urinaria utilizando un modelo de regresión logística (SPSS), como se muestra a continuación (σ es la función sigmoidea). Después de entrenar este modelo, extrajimos el coeficiente, b1, e informamos la razón de posibilidades (OR) y el intervalo de confianza (IC) del 95%.

Más información sobre el diseño de la investigación está disponible en el Resumen de informes de Nature Portfolio vinculado a este artículo.

Los datos que respaldan los resultados de este estudio incluyen datos del cirujano y del paciente. Como tal, si bien los datos de SAH y HMH no están disponibles públicamente, los datos no identificados de USC pueden estar disponibles a pedido razonable de los autores.

El código está disponible en https://github.com/danikiyasseh/SAIS.

Weiser, TG et al. Una estimación del volumen global de cirugía: una estrategia de modelado basada en los datos disponibles. Lancet 372, 139–144 (2008).

Artículo PubMed Google Académico

Sheetz, KH, Claflin, J. & Dimick, JB Tendencias en la adopción de cirugía robótica para procedimientos quirúrgicos comunes. Red JAMA Abierto 3, e1918911–e1918911 (2020).

Artículo PubMed PubMed Central Google Académico

Birkmeyer, JD et al. Habilidad quirúrgica y tasas de complicaciones después de la cirugía bariátrica. N. ingl. J.Med. 369, 1434–1442 (2013).

Artículo CAS PubMed Google Académico

Zia, A., Hung, A., Essa, I. & Jarc, A. Reconocimiento de actividad quirúrgica en prostatectomía radical asistida por robot usando aprendizaje profundo. En Conferencia internacional sobre computación de imágenes médicas e intervención asistida por computadora, 273–280 (Springer, 2018).

Luongo, F., Hakim, R., Nguyen, JH, Anandkumar, A. & Hung, AJ Visión artificial basada en aprendizaje profundo para reconocer y clasificar gestos de sutura en cirugía asistida por robot. Cirugía 169, 1240–1244 (2021).

Artículo PubMed Google Académico

Funke, I. et al. Uso de redes neuronales convolucionales 3D para aprender características espaciotemporales para el reconocimiento automático de gestos quirúrgicos en video. En Conferencia internacional sobre computación de imágenes médicas e intervención asistida por computadora 467–475 (Springer, 2019); https://doi.org/10.1007/978-3-030-32254-0_52

Lavanchy, JL et al. Automatización de la evaluación de habilidades quirúrgicas utilizando un algoritmo de aprendizaje automático de tres etapas. ciencia Rep. 11, 1–9 (2021).

Google Académico

Goodman, ED et al. Un modelo de IA espaciotemporal en tiempo real analiza la habilidad en videos quirúrgicos abiertos. Preimpresión en arXiv https://arxiv.org/abs/2112.07219 (2021).

van Amsterdam, B., Clarkson, M. & Stoyanov, D. Reconocimiento de gestos en cirugía robótica: una revisión. Trans. IEEE. biomedicina Ing. 68, 2021–2035 (2021).

Kiyasseh, D., Zhu, T. & Clifton, D. Un marco de aprendizaje profundo clínico para el aprendizaje continuo de las señales cardíacas a través de enfermedades, tiempo, modalidades e instituciones. Nat. común 12, 1–11 (2021).

Artículo Google Académico

Gao, Y. et al. Conjunto de trabajo de evaluación de habilidades y gestos JHU-ISI (JIGSAWS): un conjunto de datos de actividad quirúrgica para el modelado de movimiento humano. En Actas del Modelado y Monitoreo de Intervenciones Asistidas por Computadora (M2CAI) — Taller MICCAI, vol. 3 (CIRL, Universidad Johns Hopkins, 2014).

Van Amsterdam, B. et al. Reconocimiento de gestos en cirugía robótica con atención multimodal. Trans. IEEE. Medicina. Imágenes 41, 1677–1687 (2022).

Kitaguchi, D. et al. Desarrollo y validación de una red neuronal convolucional tridimensional para la evaluación automática de habilidades quirúrgicas basada en análisis de video espaciotemporal. Red JAMA Abierto 4, e2120786–e2120786 (2021).

Artículo PubMed PubMed Central Google Académico

Ghassemi, M., Oakden-Rayner, L. & Beam, AL La falsa esperanza de los enfoques actuales de inteligencia artificial explicable en el cuidado de la salud. Dígito de lanceta. Salud 3, e745–e750 (2021).

Artículo CAS PubMed Google Académico

Sanford, D. et al. Asociación de puntajes de evaluación de habilidades técnicas de sutura entre simulación de realidad virtual y cirugía en vivo. J. Endourol. 36, 1388–1394 (2022).

Trinh, L. et al. Análisis de supervivencia utilizando métricas de habilidad del cirujano y factores del paciente para predecir la recuperación de la continencia urinaria después de una prostatectomía radical asistida por robot. EUR. Urol. Enfocar. 8, 623–630 (2022).

Artículo PubMed Google Académico

Kiyasseh D. et al. Un estudio multiinstitucional que utiliza inteligencia artificial para brindar retroalimentación confiable y justa a los cirujanos. común Medicina. https://doi.org/10.1038/s43856-023-00263-3 (2023).

Carreira, J. & Zisserman, A. Quo vadis, reconocimiento de acciones? Un nuevo modelo y el conjunto de datos cinéticos. En Actas de la Conferencia de la IEEE Computer Society sobre visión por computadora y reconocimiento de patrones, 6299–6308 (IEEE, 2017).

Kiyasseh, D., Zhu, T. & Clifton, D. CROCS: agrupación y recuperación de señales cardíacas según la clase de enfermedad, el sexo y la edad del paciente. Adv. Información neuronal Proceso. sist. 34, 15557–15569 (2021).

Google Académico

Bengio, Y., Louradour, J., Collobert, R. & Weston, J. Curriculum learning. En Actas de la 26.ª Conferencia internacional anual sobre aprendizaje automático, 41–48 (Association for Computing Machinery, 2009).

Kiyasseh D. et al. Las explicaciones visuales humanas mitigan el sesgo en la evaluación basada en IA de las habilidades del cirujano. Dígito NPJ. Medicina. https://doi.org/10.1038/s41746-023-00766-2 (2023).

Collins, JW y col. Implicaciones éticas de la IA en el entrenamiento quirúrgico robótico: una declaración de consenso de Delphi. EUR. Urol. Enfocar. 8, 613–622 (2021).

Hashimoto, DA, Rosman, G., Rus, D. y Meireles, OR Inteligencia artificial en cirugía: promesas y peligros. Ana. Cirugía 268, 70 (2018).

Artículo PubMed Google Académico

Maier-Hein, L. et al. Ciencia de datos quirúrgicos para intervenciones de próxima generación. Nat. biomedicina Ing. 1, 691–696 (2017).

Artículo PubMed Google Académico

Weede, O. et al. Análisis de flujo de trabajo y reconocimiento de fase quirúrgica en cirugía mínimamente invasiva. En 2012 Conferencia internacional IEEE sobre robótica y biomimética (ROBIO) 1080–1074 (IEEE, 2012).

Hung, AJ et al. Utilizando aprendizaje automático y métricas de rendimiento automatizadas para evaluar el rendimiento de la prostatectomía radical asistida por robot y predecir los resultados. J. Endourol. 32, 438–444 (2018).

Artículo PubMed Google Académico

Hung, AJ, Chen, J. & Gill, IS Métricas de rendimiento automatizadas y algoritmos de aprendizaje automático para medir el rendimiento del cirujano y anticipar los resultados clínicos en cirugía robótica. Cirugía JAMA. 153, 770–771 (2018).

Artículo PubMed PubMed Central Google Académico

Hung, AJ et al. Aprendizaje profundo sobre métricas de rendimiento automatizadas y características clínicas para predecir la recuperación de la continencia urinaria después de una prostatectomía radical asistida por robot. Internacional BJU 124, 487 (2019).

Artículo PubMed PubMed Central Google Académico

Nwoye, CI et al. CholecTriplet2021: un desafío de referencia para el reconocimiento de tripletes de acción quirúrgica. Preimpresión en arXiv https://arxiv.org/abs/2204.04746 (2022).

Béjar Haro, B., Zappella, L. & Vidal, R. Clasificación de gestos quirúrgicos a partir de datos de vídeo. En Conferencia internacional sobre computación de imágenes médicas e intervención asistida por computadora, 34–41 (Springer-Verlag, 2012).

Khalid, S., Goldenberg, M., Grantcharov, T., Taati, B. y Rudzicz, F. Evaluación de modelos de aprendizaje profundo para identificar acciones quirúrgicas y medir el rendimiento. Red JAMA Abierto 3, e201664–e201664 (2020).

Artículo PubMed Google Académico

van Amsterdam, B., Clarkson, MJ & Stoyanov, D. Red neuronal recurrente multitarea para reconocimiento de gestos quirúrgicos y predicción de progreso. En 2020 Conferencia internacional IEEE sobre robótica y automatización (ICRA), 1380–1386 (IEEE, 2020).

Gao, X., Jin, Y., Dou, Q. y Heng, P.-A. Reconocimiento automático de gestos en cirugía asistida por robot con aprendizaje por refuerzo y búsqueda en árbol. En 2020 Conferencia internacional IEEE sobre robótica y automatización (ICRA), 8440–8446 (IEEE, 2020).

Wu, JY, Tamhane, A., Kazanzides, P. & Unberath, M. Aprendizaje de representación autosupervisado intermodal para reconocimiento de gestos y habilidades en cirugía robótica. En t. J. Cómputo. Asistir. Radiol. Cirugía 16, 779–787 (2021).

Artículo PubMed Google Académico

Wagner, M. et al. Validación comparativa de algoritmos de aprendizaje automático para flujo de trabajo quirúrgico y análisis de habilidades con el punto de referencia heichole. Medicina. Anal de imagen. 86, 102770 (2023).

Zappella, L., Béjar, B., Hager, G. & Vidal, R. Clasificación de gestos quirúrgicos a partir de datos cinemáticos y de vídeo. Medicina. Anal de imagen. 17, 732–745 (2013).

Artículo PubMed Google Académico

Bar, O. et al. Impacto de los datos en la generalización de la IA para aplicaciones de inteligencia quirúrgica. ciencia Rep. 10, 1–12 (2020).

Artículo Google Académico

Vaswani, A. et al. La atención es todo lo que necesitas. En Advances in Neural Information Processing Systems (Eds Guyon, I. et al.) vol. 30 (NIPS, 2017).

Garrow, CR et al. Aprendizaje automático para el reconocimiento de la fase quirúrgica: una revisión sistemática. Ana. Cirugía 273, 684–693 (2021).

Artículo PubMed Google Académico

Czempiel, T. et al. Opera: transformadores de atención regularizada para reconocimiento de fase quirúrgica. En Conferencia internacional sobre computación de imágenes médicas e intervención asistida por computadora, 604–614 (Springer, 2021).

Nwoye, CI et al. Rendezvous: mecanismos de atención para el reconocimiento de tripletes de acción quirúrgica en videos endoscópicos. Medicina. Anal de imagen. 78, 102433 (2022).

Artículo PubMed Google Académico

Aspart, F. et al. ClipAssistNet: aportando información de seguridad en tiempo real a los quirófanos. En t. J. Cómputo. Asistir. Radiol. Cirugía 17, 5–13 (2022).

Artículo PubMed Google Académico

Nwoye, CI & Padoy, N. Divisiones de datos y métricas para la evaluación comparativa de métodos en conjuntos de datos de triplete de acción quirúrgica. Preimpresión en arXiv https://arxiv.org/abs/2204.05235 (2022).

Ma, R. et al. Una nueva clasificación de gestos de disección para caracterizar la técnica de disección robótica para la disección hiliar renal. J. Urol. 205, 271–275 (2021).

Artículo PubMed Google Académico

Moy, RL, Waldman, B. & Hein, DW Una revisión de suturas y técnicas de sutura. J. Dermatol. Cirugía oncol. 18, 785–795 (1992).

Artículo CAS PubMed Google Académico

Haque, TF et al. Una herramienta de evaluación para proporcionar comentarios específicos a los aprendices de cirugía robótica: desarrollo y validación de la evaluación de extremo a extremo de la experiencia en sutura (facilidad). Urol. Practica 9, 532–539 (2022).

Hung, AJ et al. Camino a la automatización de la evaluación de habilidades de sutura robótica: lucha contra el etiquetado incorrecto de la verdad básica. Cirugía 171, 915–919 (2022).

Artículo PubMed Google Académico

Teed, Z. & Deng, J. Raft: transformadas de campo recurrentes de todos los pares para el flujo óptico. En Conferencia europea sobre visión artificial, 402–419 (Springer, 2020).

Dosovitskiy, A. et al. Una imagen vale 16x16 palabras: transformadores para el reconocimiento de imágenes a escala. En Conferencia Internacional sobre Representaciones de Aprendizaje (ICLR, 2021).

Carón, M. et al. Propiedades emergentes en transformadores de visión autosupervisados. En Conferencia internacional IEEE/CVF sobre visión artificial, 9650–9660 (IEEE, 2021).

Paszke, A. et al. Pytorch: una biblioteca de aprendizaje profundo de estilo imperativo y alto rendimiento. En Advances in Neural Information Processing Systems (Eds Wallach, H. et al.) vol. 32 (NIPS, 2019).

Roy, AG y col. ¿Tu clasificador de dermatología sabe lo que no sabe? Detectar la cola larga de condiciones invisibles. Medicina. Anal de imagen. 75, 102274 (2022).

Artículo Google Académico

Lakshminarayanan, B., Pritzel, A. & Blundell, C. Estimación de incertidumbre predictiva simple y escalable usando conjuntos profundos. En Advances in Neural Information Processing Systems (Eds Guyon, I. et al.) vol. 30 (NIPS, 2017).

Descargar referencias

Agradecemos a T. Chu por la anotación de videos con gestos. También agradecemos a J. Laca y J. Nguyen por sus comentarios iniciales sobre la presentación del manuscrito. AJH divulga el apoyo para la investigación descrita en este estudio del Instituto Nacional del Cáncer bajo el premio no. R01CA251579-01A1 y una subvención de investigación clínica quirúrgica intuitiva de varios años.

Departamento de Computación y Ciencias Matemáticas, Instituto de Tecnología de California, Pasadena, CA, EE. UU.

Dani Kiyasseh y Animashree Anandkumar

Centro de Simulación y Educación Robótica, Departamento de Urología Catherine & Joseph Aresty, Universidad del Sur de California, Los Ángeles, CA, EE. UU.

Runzhuo Ma, Taseen F. Haque y Andrew J. Hung

Departamento de Urología, Hospital Metodista de Houston, Houston, TX, EE. UU.

Brian J. Miles

Departamento de Urología, Urología Pediátrica y Uro-Oncología, Centro de Próstata del Noroeste, St. Antonius-Hospital, Gronau, Alemania

cristian wagner

División de Neurocirugía, Centro de Neurociencia, Children's National Hospital, Washington, DC, EE. UU.

Daniel A. Donoho

También puede buscar este autor en PubMed Google Scholar

DK y AJH contribuyeron a la concepción del estudio. DK contribuyó al diseño del estudio, desarrolló los modelos de aprendizaje profundo y escribió el manuscrito. RM y TH proporcionaron anotaciones para las muestras de video. DAD proporcionó una amplia retroalimentación sobre el manuscrito. BJM proporcionó datos para el estudio. CW recopiló datos de SAH y proporcionó comentarios sobre el manuscrito. AJH y AA proporcionaron supervisión y contribuyeron a la edición del manuscrito.

Correspondencia a Dani Kiyasseh o Andrew J. Hung.

DK es un empleado pagado de Vicarious Surgical y consultor de Flatiron Health. CW es un consultor pagado de Intuitive Surgical. AA es un empleado de Nvidia. AJH es consultor de Intuitive Surgical. Los demás autores declaran no tener intereses contrapuestos.

Nature Biomedical Engineering agradece a Masaaki Ito, Jie Ying Wu y los otros revisores anónimos por su contribución a la revisión por pares de este trabajo. Los informes de los revisores están disponibles.

Nota del editor Springer Nature se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Notas complementarias, figuras y tablas.

Acceso abierto Este artículo tiene una licencia internacional Creative Commons Attribution 4.0, que permite el uso, el intercambio, la adaptación, la distribución y la reproducción en cualquier medio o formato, siempre que se otorgue el crédito correspondiente al autor o autores originales y a la fuente. proporcionar un enlace a la licencia Creative Commons e indicar si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la regulación legal o excede el uso permitido, deberá obtener el permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Kiyasseh, D., Ma, R., Haque, TF et al. Un transformador de visión para decodificar la actividad del cirujano a partir de videos quirúrgicos. Nat. biomedicina ing (2023). https://doi.org/10.1038/s41551-023-01010-8

Descargar cita

Recibido: 22 junio 2022

Aceptado: 15 febrero 2023

Publicado: 30 de marzo de 2023

DOI: https://doi.org/10.1038/s41551-023-01010-8

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, un enlace para compartir no está disponible actualmente para este artículo.

Proporcionado por la iniciativa de intercambio de contenido Springer Nature SharedIt

npj Medicina digital (2023)