es.wedoany.com Noticia: Tashizhihang, en colaboración con la Universidad Nacional de Singapur, la Universidad Jiao Tong de Shanghái, el Instituto de Automatización de la Academia de Ciencias de China y la Universidad de Fudan, ha publicado en una plataforma de preimpresión el artículo "TacForeSight: Force-Guided Tactile World Model for Contact-Rich Manipulation". Esta investigación propone un modelo táctil del mundo condicionado por la fuerza, que por primera vez utiliza señales de fuerza de la muñeca como información precursora del estado táctil futuro para predecir la evolución del contacto a corto plazo, e integra los resultados de la predicción en el proceso de generación de acciones del robot.
En tareas de manipulación con contacto intensivo, como limpiar, insertar o apretar, el estado de contacto cambia continuamente con el tiempo, y las desviaciones de fuerza y los cambios de posición pueden provocar fácilmente fallos en la tarea. Los métodos existentes dependen en gran medida de señales de retroalimentación para realizar ajustes posteriores. La idea central de TacForeSight es identificar la relación temporal entre la fuerza y el tacto: la fuerza de la muñeca proporciona una señal precursora de la tendencia general de la fuerza, mientras que el tacto refleja los detalles locales del contacto. Basándose en esto, el equipo construyó el módulo central TacForceWM, que codifica el campo táctil de dos dedos en variables latentes táctiles compactas y utiliza señales de fuerza o par de la muñeca de alta frecuencia para predecir la evolución táctil futura a corto plazo. Esto reduce la carga computacional de generar imágenes táctiles de alta dimensión e integra la información de predicción en la generación de estrategias de acción ligeras.

Después de predecir el estado táctil futuro, el sistema, a través de la Predictive Tactile-Conditioned Policy, utiliza un mecanismo de Cross-Attention para modelar explícitamente la relación entre el contacto actual y la tendencia futura, de modo que la generación de acciones considere tanto el contacto actual como los cambios de contacto inminentes. Al mismo tiempo, un mecanismo de compuerta adaptativa impulsado por el tacto ajusta dinámicamente los pesos de la visión y el tacto según la etapa de la tarea: en etapas de contacto intensivo, se prioriza el control táctil, mientras que en etapas de alejamiento del contacto, se depende de la información visual.


Los experimentos se realizaron en una plataforma robótica real, que incluye un brazo robótico, una pinza, una cámara, un sensor de fuerza o par de seis ejes y un sensor táctil de dos dedos, cubriendo cinco tareas típicas de contacto intensivo: limpieza de un jarrón, deslizamiento de una tarjeta, inserción de un tubo, apriete de una bombilla e inserción de un mazo de cables flexibles. Los resultados muestran que la tasa de finalización promedio en tareas estándar es cercana al 80%, superando a modelos puramente visuales, a la fusión simple de visión-tacto-fuerza y a métodos de referencia como KineDex, FoAR y RDP. En escenarios con perturbaciones dinámicas de altura, ángulo y postura, las tasas de finalización fueron del 90%, 85% y 85%, respectivamente, con un promedio del 86,7%. El modelo admite inferencia en tiempo real a 20 Hz y puede integrarse en el control de bucle cerrado de alta frecuencia del robot.

El análisis de visualización de variables latentes muestra que, en las tareas de apriete de bombilla y limpieza de jarrón, las variables latentes táctiles predichas muestran cambios relacionados con el contacto aproximadamente 200 milisegundos antes que las variables latentes táctiles actuales. En segmentos de interacción fuerza-tacto no vistos, como presión, torsión y deslizamiento, las variables latentes extraídas por el codificador táctil forman grupos separables en la visualización t-SNE, lo que indica que el modelo tiene capacidad para discriminar modos de contacto. Este es otro avance de Tashizhihang en el campo de la manipulación fina; anteriormente, en marzo, ya había lanzado el marco de operación visotáctil OmniVTA y el conjunto de datos visotáctiles a gran escala OmniViTac, ayudando a los robots a comprender el contacto a través de la visión y el tacto.


Este artículo es compilado por Wedoany, las citas de la IA deben indicar la fuente «Wedoany»; si hay alguna infracción u otro problema, por favor notifícanos a tiempo, este sitio lo modificará o eliminará. Correo electrónico: news@wedoany.com









