Recientemente, investigadores de la Universidad de Purdue y LightSpeed Studios han presentado una tecnología innovadora que genera planes de inspección para robots basados en descripciones escritas, abriendo nuevas vías para la aplicación de la robótica en el mundo real. Este avance promete hacer que las inspecciones de robots en entornos complejos sean más eficientes y precisas.

En el campo de la robótica, aunque los robots se utilizan ampliamente en la fabricación de bienes, el empaquetado y cirugías mínimamente invasivas, la mayoría de las inspecciones de infraestructura y medio ambiente aún dependen de mano de obra humana. Para cambiar esto, el equipo de investigación de la Universidad de Purdue se ha dedicado a desarrollar un modelo computacional capaz de generar planes de inspección según necesidades específicas.
El método propuesto por el equipo se basa en modelos de lenguaje visual (VLM), que procesan imágenes y texto escrito simultáneamente para lograr una planificación precisa de trayectorias de inspección robótica. El primer autor del artículo, Sun Xingpeng, afirmó: "Nuestra investigación se inspira en los desafíos reales de las inspecciones automatizadas, con el objetivo de desarrollar un modelo que genere eficientemente rutas de inspección para tareas específicas".
A diferencia de los modelos generativos tradicionales basados en aprendizaje automático, el método del equipo no requiere un ajuste fino adicional de los VLM en grandes conjuntos de datos. En cambio, utiliza VLM preentrenados (como GPT-4o) para interpretar objetivos de inspección descritos en lenguaje natural e imágenes relevantes. A través de la evaluación de alineación semántica de puntos de vista candidatos y el razonamiento de imágenes multiperspectiva con GPT-4o, se genera una trayectoria de inspección 3D optimizada.
En las pruebas, el modelo delineó con éxito trayectorias suaves y puntos de vista óptimos de la cámara para completar inspecciones en diversos entornos reales, prediciendo relaciones espaciales con una precisión superior al 90%. Estos resultados indican que el modelo tiene ventajas significativas en la planificación de inspecciones robóticas.
El equipo de investigación indicó que su próximo plan es extender este método a escenarios 3D más complejos, integrar retroalimentación visual activa para refinar dinámicamente los planes y combinar esta tecnología con el control robótico para lograr despliegues de inspección física en bucle cerrado. Esto proporcionará un espacio aún más amplio para las aplicaciones de robots en el mundo real.
















京公网安备 11010802043282号