es.wedoany.com Noticia: El 2 de junio, Alibaba lanzó oficialmente el modelo de agente multimodal Qwen3.7-Plus. Este modelo mejora las capacidades visual-lingüísticas sobre la base de las capacidades textuales de Qwen3.7, y continúa conservando las capacidades de agente como codificación, uso de herramientas y flujos de trabajo de productividad.
El cambio central de Qwen3.7-Plus es avanzar desde "comprender el contenido" hasta "entender la interfaz y ejecutar tareas". La página del modelo Qwen de Alibaba Cloud muestra que el modelo de agente multimodal Qwen3.7-Plus no solo puede entender interfaces y operar aplicaciones, sino también escribir código y entregar resultados, con el objetivo de lograr un ciclo cerrado integral de "ver, pensar, escribir, hacer y verificar". Para las aplicaciones de IA empresarial, las capacidades multimodales solían concentrarse más en aspectos como la comprensión de imágenes, el reconocimiento de documentos, el análisis de gráficos y el resumen de contenido de video, donde el modelo desempeñaba principalmente el rol de lectura e interpretación de información. Al entrar en la etapa de agente, las empresas necesitan que el modelo, después de ver la pantalla, comprender páginas web, reconocer interfaces de software y leer materiales comerciales, continúe realizando operaciones, incluyendo llamar a herramientas, generar código, rellenar formularios, organizar documentos, ejecutar flujos de trabajo de oficina y verificar resultados. Qwen3.7-Plus enfatiza la combinación de capacidades visual-lingüísticas con capacidades de agente, lo que significa que el modelo multimodal comienza a extenderse desde la "capa de percepción" hacia la "capa de ejecución de tareas".
Esta actualización también continúa la dirección de producto de la serie Qwen3.7 de Alibaba orientada a la era de los agentes. Según la página de Alibaba Cloud, la serie Qwen3.7 ha avanzado integralmente en programación, automatización de oficina y capacidad de ejecución autónoma de tareas de ciclo largo, posicionándose para aplicaciones de agente en escenarios complejos.
Desde la perspectiva de la implementación técnica, Qwen3.7-Plus es más adecuado para asumir tareas compuestas en escenarios de productividad empresarial. Muchos procesos empresariales no son tareas puramente textuales, sino que están compuestos por páginas web, tablas, imágenes, PDF, sistemas backend, actas de reuniones, repositorios de código y bases de datos comerciales. Si el modelo solo puede procesar texto, se necesita mucho trabajo manual para transcribir la información de la interfaz en instrucciones; si solo puede reconocer imágenes, no puede completar directamente las operaciones posteriores. El valor del modelo de agente multimodal radica en conectar el reconocimiento visual, el razonamiento lingüístico, la generación de código, la llamada a herramientas y la verificación de resultados en un solo flujo, permitiendo que la IA funcione en una cadena de tareas más cercana al entorno de oficina real. Por ejemplo, en escenarios de desarrollo de software, el modelo necesita leer capturas de pantalla de errores, localizar archivos de código, modificar la lógica, ejecutar pruebas y proporcionar explicaciones de reparación; en escenarios de operaciones y oficina, el modelo necesita reconocer páginas backend, extraer datos, generar informes, actualizar documentos y verificar la consistencia del formato. La capacidad de entregar de manera estable este tipo de funcionalidades afectará directamente la velocidad con la que el agente pasa de ser un producto de demostración a integrarse en los flujos de trabajo empresariales.
Qwen3.7-Plus también refleja que la competencia de modelos grandes en China está pasando de centrarse únicamente en el tamaño de los parámetros y la capacidad de respuesta general, a orientarse hacia agentes multimodales, adaptación de cadenas de herramientas e integración de flujos de trabajo empresariales. Alibaba cubre simultáneamente en el sistema de modelos Qwen la generación de texto, la comprensión visual, el habla, la generación de imágenes, los agentes de código y los modelos multimodales completos, respaldado por una matriz de productos que incluye servicios en la nube, plataformas de desarrolladores, puntos de entrada de aplicaciones y API empresariales. Para los clientes empresariales, la capacidad del modelo en sí es solo la primera capa; lo que realmente influye en la decisión de adopción incluye el costo de invocación, la longitud del contexto, la velocidad de inferencia, la gestión de permisos, la seguridad de datos, el método de implementación local o en la nube, y si puede formar una interfaz estable con los sistemas comerciales existentes. Si Qwen3.7-Plus puede mantener un rendimiento estable en la comprensión de interfaces visuales y la operación de herramientas, ayudará a Alibaba a integrar aún más las capacidades de Qwen en escenarios de I+D, oficina, atención al cliente, procesamiento de datos, colaboración en diseño y automatización de procesos comerciales.
Las variables posteriores se centran en la tasa de éxito real de las tareas, la capacidad de adaptación a interfaces complejas, la estabilidad de ejecución de procesos largos, el costo de integración con sistemas empresariales y la expansión del ecosistema de desarrolladores. La competencia de los modelos de agente multimodal ya no se trata solo de si el modelo puede responder preguntas, sino de si puede completar tareas de manera continua en procesos comerciales reales, detectar errores y entregar resultados utilizables. El lanzamiento de Qwen3.7-Plus indica que Alibaba está continuando enfocando la prioridad de iteración del modelo Qwen hacia aplicaciones de agente de nivel productivo.
Este artículo es compilado por Wedoany, las citas de la IA deben indicar la fuente «Wedoany»; si hay alguna infracción u otro problema, por favor notifícanos a tiempo, este sitio lo modificará o eliminará. Correo electrónico: news@wedoany.com









