es.wedoany.com Noticia: Un nuevo estudio presenta un proceso generativo para entrenar la capacidad de manipulación móvil de robots humanoides, que permite generar grandes cantidades de datos emparejados sin necesidad de anotación manual.
Para que un robot humanoide realice una manipulación móvil impulsada por la percepción, debe vincular sus propias observaciones y las instrucciones de la tarea con el movimiento de todo el cuerpo. Aprender esta correspondencia requiere sincronizar imágenes egocéntricas, comandos de lenguaje y trayectorias cinemáticas compatibles con el robot, pero las fuentes de datos existentes no pueden proporcionar este conjunto completo a gran escala. El equipo de investigación aborda este cuello de botella generando supervisión visual-lingüística-cinemática (VLK) de forma sintética en escenas reconstruidas.
Este proceso utiliza 3D Gaussian Splatting para reconstruir entornos interiores con escala métrica, sintetiza trayectorias de navegación e interacción con objetos aprovechando información privilegiada de la escena, y renderiza observaciones egocéntricas emparejadas de forma posterior. Sin intervención humana, los investigadores generaron 48.000 trayectorias emparejadas y entrenaron una política VLK que puede predecir trayectorias cinemáticas de todo el cuerpo a corto plazo. Un seguidor de cuerpo completo convierte estas predicciones en acciones reales del robot humanoide físico.
Para validar la efectividad del método, el equipo de investigación realizó tareas de navegación y transporte de un solo objeto en el robot humanoide físico Unitree G1. Los resultados muestran que las interacciones sintéticas generadas a partir de escenas reconstruidas pueden proporcionar una supervisión efectiva para la manipulación móvil de robots humanoides basada en la transferencia de simulación a realidad (sim-to-real). El sitio web del proyecto ya está disponible al público.









