Exposición del nuevo modelo DeepSeek AI: equipado con la nueva arquitectura MODEL1, disponible a más tardar en febrero
2026-01-22 16:32
Favoritos

21 de enero, noticias: según informa Wedoany, DeepSeek planea lanzar a mediados de febrero de este año, durante el Año Nuevo Lunar, su nueva generación de modelo insignia de IA, DeepSeek V4. Este modelo incorporará una nueva arquitectura tecnológica, y se espera que su capacidad para escribir código mejore significativamente, lo que ha generado una amplia atención en la industria.

El 20 de enero, coincidiendo con el primer aniversario del lanzamiento del modelo DeepSeek-R1, algunos desarrolladores descubrieron en la plataforma GitHub que DeepSeek había actualizado una serie de códigos relacionados con FlashMLA. Entre los 114 archivos involucrados, en 28 lugares se mencionaba explícitamente un identificador de modelo grande desconocido llamado "MODEL1", y este identificador se citaba junto o en contraste con el modelo existente "V32" (es decir, DeepSeek-V3.2). Analizando el contexto del código, expertos técnicos especulan que "MODEL1" probablemente corresponda a un modelo de IA que utiliza una arquitectura completamente nueva, cuyas características técnicas clave difieren notablemente de los modelos actuales.

En concreto, la nueva arquitectura ha optimizado y ajustado aspectos tecnológicos clave como la disposición de la caché de clave-valor (KV), el manejo de la dispersión y el soporte de decodificación en formato de datos FP8. Estas innovaciones técnicas abordan específicamente problemas de uso de memoria y eficiencia computacional durante la ejecución del modelo, sentando las bases para mejorar su rendimiento.

Vale la pena destacar que el equipo de investigación de DeepSeek ya había publicado previamente dos artículos técnicos consecutivos, proponiendo respectivamente un método de entrenamiento innovador de "conexiones residuales optimizadas (mHC)" y un "módulo de memoria de IA (Engram)" inspirado en la biología. En la industria se especula ampliamente que el próximo DeepSeek V4 probablemente integrará estos últimos avances de investigación, liberando aún más el potencial de los modelos de IA en el manejo de tareas complejas.

Recomendaciones
Umovity y Tatweer implementan un sistema adaptativo de regulación de rampas en Abu Dabi, Emiratos Árabes Unidos
2026-05-21
Era0 de Robotera encabeza el ranking mundial de inteligencia encarnada de RoboChallenge
2026-05-21
El asistente de IA a nivel de sistema operativo de Tencent, "Mavis", se lanza oficialmente, disponible simultáneamente en Windows, Mac y Android
2026-05-21
Microsoft eliminará gradualmente la autenticación de dos factores por SMS y promoverá las claves de acceso
2026-05-21
DataXight de EE. UU. lanza protoXell para extraer información mecanicista de datos de perturbación a gran escala y acelerar el descubrimiento de dianas y el reposicionamiento de fármacos
2026-05-21
Informatica de EE. UU. presenta en Informatica World 2026 la Gestión de Datos Headless y la Gestión Inteligente de Datos Maestros, construyendo una base de datos confiable para agentes de IA en todas las plataformas
2026-05-21
Acceldata de EE. UU. lanza una plataforma autónoma de datos e IA para la era de la IA agéntica; su CEO declara el inicio de la era post-lakehouse
2026-05-21
El Ministerio de Industria y Tecnología Informática de China despliega medidas para estabilizar el empleo: la industria ligera y textil como "lastre", y lanza simultáneamente un plan de apoyo al emprendimiento para pequeñas y medianas empresas de inteligencia artificial
2026-05-21
Nvidia de EE. UU. planea liderar una ronda de 20 millones de dólares en la startup india de IA Simplismart, con una valoración de 100 millones de dólares
2026-05-20
El presidente del CCPIT, Ren Hongbin, se reúne con Lisa Su de AMD; la cooperación en capacidad de cómputo y las actividades empresariales de APEC centran la atención
2026-05-20