Exposición del nuevo modelo DeepSeek AI: equipado con la nueva arquitectura MODEL1, disponible a más tardar en febrero
2026-01-22 16:32
Favoritos

21 de enero, noticias: según informa Wedoany, DeepSeek planea lanzar a mediados de febrero de este año, durante el Año Nuevo Lunar, su nueva generación de modelo insignia de IA, DeepSeek V4. Este modelo incorporará una nueva arquitectura tecnológica, y se espera que su capacidad para escribir código mejore significativamente, lo que ha generado una amplia atención en la industria.

El 20 de enero, coincidiendo con el primer aniversario del lanzamiento del modelo DeepSeek-R1, algunos desarrolladores descubrieron en la plataforma GitHub que DeepSeek había actualizado una serie de códigos relacionados con FlashMLA. Entre los 114 archivos involucrados, en 28 lugares se mencionaba explícitamente un identificador de modelo grande desconocido llamado "MODEL1", y este identificador se citaba junto o en contraste con el modelo existente "V32" (es decir, DeepSeek-V3.2). Analizando el contexto del código, expertos técnicos especulan que "MODEL1" probablemente corresponda a un modelo de IA que utiliza una arquitectura completamente nueva, cuyas características técnicas clave difieren notablemente de los modelos actuales.

En concreto, la nueva arquitectura ha optimizado y ajustado aspectos tecnológicos clave como la disposición de la caché de clave-valor (KV), el manejo de la dispersión y el soporte de decodificación en formato de datos FP8. Estas innovaciones técnicas abordan específicamente problemas de uso de memoria y eficiencia computacional durante la ejecución del modelo, sentando las bases para mejorar su rendimiento.

Vale la pena destacar que el equipo de investigación de DeepSeek ya había publicado previamente dos artículos técnicos consecutivos, proponiendo respectivamente un método de entrenamiento innovador de "conexiones residuales optimizadas (mHC)" y un "módulo de memoria de IA (Engram)" inspirado en la biología. En la industria se especula ampliamente que el próximo DeepSeek V4 probablemente integrará estos últimos avances de investigación, liberando aún más el potencial de los modelos de IA en el manejo de tareas complejas.

Recomendaciones
Ant y la Universidad de Tsinghua lanzan ClawAegis de código abierto, construyendo un sistema inmunológico de seguridad nativo para agentes autónomos inteligentes
2026-04-03
Se aprueba la creación del Centro de Ingeniería de Investigación de Robots de Inteligencia Embodied en la Provincia de Guangdong, AIRS construye una matriz de innovación completa
2026-04-03
La lógica de la escasez de energía para la IA continúa desarrollándose, el aumento de la demanda de turbinas de gas se convierte en la solución prioritaria para la fuente de alimentación principal de los centros de datos de IA
2026-04-03
La fábrica finlandesa LUMI AI lanza Datos como Servicio, optimizando el acceso a datos para el desarrollo de IA
2026-04-03
AT&T de EE. UU. firma acuerdo con NTIA para ahorrar $20 mil millones en la red de seguridad pública FirstNet
2026-04-03
Oracle despide a 30.000 empleados en EE.UU., India, Canadá y México, afectando servicios de soporte de software empresarial
2026-04-03
Naoris Protocol lanza su red principal en EE. UU. y Europa, presentando una blockchain de Capa 1 postcuántica
2026-04-03
CITIC Securities: La narrativa de la IA que está revolucionando Internet en EE.UU. está siendo exagerada a corto plazo; se recomienda centrarse en las barreras competitivas y la expansión de la demanda
2026-04-03
Amazon está en conversaciones para adquirir el grupo de comunicaciones por satélite Globalstar, acelerando su expansión en el sector de las comunicaciones satelitales
2026-04-03
El cohete estadounidense para la misión tripulada alrededor de la Luna despega, Artemis II inicia un nuevo viaje de regreso a la Luna
2026-04-03