es.wedoany.com Noticia: Microsoft ha presentado varios modelos de inteligencia artificial propios en su conferencia anual Build 2026, que abarcan áreas como razonamiento, generación de imágenes, transcripción de audio y conversión de texto a voz. Los usuarios pueden probarlos de forma gratuita a través del sitio web Playground de Microsoft. Las pruebas muestran que, en general, el rendimiento de estos modelos es aceptable, pero no superan a los competidores existentes en sus respectivos campos.

La serie de modelos MAI (Microsoft AI) depende de grandes modelos de lenguaje (LLM) internos de Microsoft, a diferencia del chatbot Copilot, que funciona con tecnología de OpenAI. Los modelos presentados incluyen: el modelo de razonamiento MAI-Thinking-1, los modelos de generación de imágenes MAI-Image-2.5 y 2.5 Flash, el modelo de transcripción de audio MAI-Transcribe-1.5, y los modelos de conversión de texto a voz MAI-Voice-2 y 2 Flash. Microsoft califica estos modelos como "experimentales" y en estado de "vista previa limitada". MAI-Thinking-1 actualmente solo ofrece acceso temprano a usuarios específicos.
MAI-Thinking-1, como el primer modelo de razonamiento de Microsoft, se ha comparado con el modelo Claude Sonnet de Anthropic en el manejo de indicaciones complejas. Las pruebas revelaron que el modelo de Microsoft no puede acceder a Internet y no mostró mejoras significativas en precisión, calidad de respuesta o velocidad en comparación con Sonnet al responder preguntas sobre la mecánica del juego Path of Exile 2 y la estructura de bases de datos.
MAI-Image-2.5 ha mejorado notablemente respecto a su primera versión de octubre de 2025, pero aún no alcanza a Nano Banana Pro de Gemini en claridad de imagen y renderizado de texto. En las pruebas, las imágenes de cómics y gráficos generados por MAI-Image-2.5 presentaban distorsiones en el texto, mientras que Nano Banana Pro no mostraba este problema.
MAI-Transcribe-1.5 registró 13 errores en las pruebas de transcripción, mientras que Gemini solo cometió 6 errores en el mismo escenario. En la prueba de transcripción de letras de canciones de alta dificultad, ambos modelos cometieron errores, pero la transcripción de MAI-Transcribe-1.5 se interrumpió antes de que terminara la canción. Google no promociona Gemini específicamente como una herramienta de transcripción.

MAI-Voice-2 ofrece opciones en varios idiomas y estilos, pero en las pruebas, la combinación de calidad de audio, sonidos de respiración, ritmo y entonación resultó en una audición claramente no humana, muy lejos del realismo de tecnologías de voz como Sesame. Este modelo actualmente admite la personalización de la voz a través de varios estilos diferentes.

Las pruebas iniciales desde la perspectiva del consumidor muestran que la evaluación general de los modelos MAI de Microsoft es "aceptable", similar al rendimiento de Copilot. Su competitividad depende más de un amplio conjunto de funciones y la integración con el ecosistema de Microsoft que de la ventaja absoluta del modelo subyacente en sí. Sin embargo, dado el ritmo de mejora de la serie MAI-Image en los últimos meses, Microsoft continuará probando estos modelos.
Este artículo es compilado por Wedoany, las citas de la IA deben indicar la fuente «Wedoany»; si hay alguna infracción u otro problema, por favor notifícanos a tiempo, este sitio lo modificará o eliminará. Correo electrónico: news@wedoany.com









