Dataset 3D-GRAND: Ayuda a los robots domésticos a entender el lenguaje espacial tridimensional
2025-10-28 13:47
Fuente:Facultad de Ingeniería de la Universidad de Michigan
Favoritos

Un nuevo dataset de texto 3D densamente anotado llamado 3D-GRAND, liderado por investigadores de la Universidad de Michigan, ha debutado. Este logro se presentó el 15 de junio en la conferencia de Visión por Computadora y Reconocimiento de Patrones (CVPR) en Nashville, Tennessee, y se publicó simultáneamente en el servidor de preimpresión arXiv. Este dataset promete impulsar el desarrollo de la IA encarnada, como los robots domésticos, conectando estrechamente el lenguaje con el espacio 3D.

En comparaciones de pruebas con datasets 3D anteriores, los modelos entrenados en 3D-GRAND muestran ventajas significativas. Su precisión de grounding alcanza el 38%, un 7,7% más alto que el mejor modelo anterior; la tasa de alucinaciones cae drásticamente del 48% del estado del arte anterior al 6,67%.

Actualmente, los robots aspiradores comunes en los hogares tienen funciones relativamente simples. El dataset 3D-GRAND sienta las bases para desarrollar la próxima generación de robots domésticos, permitiendo en el futuro comandos fáciles como "toma el libro al lado de la lámpara en la mesita de noche y tráemelo", lo que requiere que el robot entienda primero el significado espacial del lenguaje. La profesora del Departamento de Ciencia de la Computación e Ingeniería de la Universidad de Michigan, Joyce Chai, señaló que los grandes modelos de lenguaje multimodal se entrenan principalmente en texto e imágenes 2D, pero los humanos viven en un mundo 3D; para que los robots interactúen con humanos, deben entender términos espaciales, perspectivas, interpretar direcciones de objetos y aplicar el lenguaje.

Sin embargo, los datos 3D son escasos, y los datos 3D basados en texto son aún más difíciles de encontrar; palabras como "sofá" necesitan asociarse con las coordenadas 3D del sofá. Al igual que con todos los grandes modelos de lenguaje (LLM), los 3D-LLM funcionan mejor en grandes datasets, pero construir grandes datasets mediante imágenes de cámaras es costoso y consume tiempo, ya que los anotadores deben especificar manualmente objetos y sus relaciones espaciales, y vincular palabras a objetos correspondientes.

Para esto, el equipo de investigación adoptó un nuevo método, utilizando IA generativa para crear habitaciones sintéticas y anotarlas automáticamente con estructuras 3D. El dataset 3D-GRAND generado finalmente contiene 40.087 escenarios domésticos y 6,2 millones de descripciones detalladas. El estudiante de doctorado en Ciencia de la Computación e Ingeniería de la Universidad de Michigan, Jianing Jed Yang, indicó que las etiquetas de datos sintéticos son gratuitas y más fáciles de manejar.

Después de generar datos 3D sintéticos, el flujo de IA primero describe el color, forma y material de los objetos con un modelo visual, luego genera descripciones de escenas con un modelo de texto puro, asegurando simultáneamente con un grafo de escena que las frases nominales se asocien con objetos 3D específicos. El paso final de control de calidad utiliza un filtro de alucinaciones para asegurar que cada objeto en el texto tenga un objeto asociado correspondiente en la escena 3D. Los evaluadores humanos muestrearon 10.200 pares de anotaciones de habitaciones y encontraron que la tasa de error en anotaciones sintéticas es de aproximadamente 5% a 8%, comparable a anotaciones manuales profesionales. Yang Tao dijo que la anotación basada en LLM reduce los costos y el tiempo en un orden de magnitud, creando 6,2 millones de anotaciones en solo dos días.

Para probar el nuevo dataset, el equipo de investigación entrenó modelos en 3D-GRAND y los comparó con tres modelos base (3D-LLM, LEO y 3D-VISTA). El modelo base ScanRefer evalúa la precisión de grounding, y el nuevo modelo base introducido 3D-POPE evalúa las alucinaciones de objetos. Los resultados muestran que los modelos entrenados en 3D-GRAND superan ampliamente a los competidores.

Joyce Chai indicó que espera ver cómo 3D-GRAND ayuda a los robots a entender mejor el espacio, adoptar diferentes perspectivas y mejorar la comunicación y colaboración con humanos; el siguiente paso será pruebas en robots.

Este boletín es una compilación y reproducción de información de Internet global y socios estratégicos, y está destinado únicamente a proporcionar a los lectores la comunicación. Si hay infracción u otros problemas, por favor infórmenos a tiempo, este sitio será modificado o eliminado. Toda reproducción de este artículo sin autorización formal está estrictamente prohibida. Correo electrónico: news@wedoany.com