El modelo médico grande M4 de Baichuan Intelligence de China ha sido lanzado, con una puntuación integral de 68.6 Noticias Globales

El modelo médico grande M4 de Baichuan Intelligence de China ha sido lanzado, con una puntuación integral de 68.6

2026-06-19 11:53

Favoritos

es.wedoany.com Noticia: Médicos de hospitales terciarios entrevistados por Interface News indicaron que cada vez más pacientes acuden a consultas con resultados generados por IA, lo que incrementa los costos de comunicación entre médicos y pacientes. Un médico informó que, de 30 consultas en una mañana, 25 pacientes llevaban conclusiones de IA. En este contexto, Baichuan Intelligence lanzó el modelo grande mejorado para medicina Baichuan-M4, que se basa en una reestructuración estructural de un modelo grande general y una mejora específica en el ámbito médico, con el objetivo de aumentar la fiabilidad de la IA en la toma de decisiones médicas.

En la última evaluación HealthBench, el M4 obtuvo una puntuación integral de 68.6, una puntuación de 49.7 en tareas difíciles, y la tasa de alucinaciones se redujo al 3.3%. En la evaluación HealthBench Professional, más cercana al entorno clínico real, el M4 obtuvo una puntuación de razonamiento básico de 55.1, superior a los 51.8 puntos del GPT-5.5.

La mejora de capacidades del M4 se refleja en cuatro aspectos. Primero, la capacidad de consulta dinámica: basada en el sistema SCAN-bench 2.0, el escenario de entrenamiento del modelo se ha expandido de una consulta estandarizada única a visitas múltiples y perfiles de pacientes complejos. En la evaluación SCAN-bench, el M4 obtuvo una puntuación de 79.0 en diagnóstico inicial y 74.7 en diagnóstico de seguimiento; la memoria clínica de contexto largo obtuvo 86.9 puntos, 21.1 puntos más que la generación anterior M3. Segundo, la capacidad basada en evidencia: el M4 construyó un sistema de vías clínicas atomizadas, descomponiendo las guías médicas en más de 1000 unidades de decisión clínica reutilizables, cubriendo el proceso completo de diagnóstico y tratamiento de más de 200 enfermedades comunes. En la evaluación Baichuan-EBM, la precisión de las citas basadas en evidencia alcanzó 90.0, significativamente superior a los 54.7 del GPT-5.5.

Tercero, la capacidad de programación: el M4 introduce la arquitectura Harness, donde el modelo puede decidir de forma autónoma cuándo hacer preguntas adicionales, buscar evidencia o recuperar el historial médico, mientras realiza operaciones bajo restricciones de seguridad en tiempo real. Cuarto, la memoria de todo el curso de la enfermedad: el modelo puede integrar historiales médicos anteriores, consultas múltiples, tendencias de pruebas y retroalimentación de medicamentos, comprendiendo el historial médico previo del paciente y los cambios en los indicadores en múltiples conversaciones.

El producto para el consumidor Bai Xiaoyi, basado en el modelo M4, ya está en pruebas internas con algunos usuarios. Este producto puede completar gradualmente la información del historial médico en múltiples rondas de conversación, reducir el rango de juicio de riesgos y guiar a los usuarios a buscar atención médica cuando sea necesario. Según los datos publicados por Baichuan Intelligence, en pruebas realizadas en el Hospital Oncológico de la Academia China de Ciencias Médicas (Departamento de Oncología), el Hospital Infantil de Beijing afiliado a la Universidad Capital de Medicina (Departamento de Pediatría) y el Hospital Ruijin de la Universidad Jiao Tong de Shanghái (Departamento de Medicina Respiratoria y Cuidados Críticos), se generaron 6944 conversaciones en 27 días entre 75 grupos de pacientes, con una seguridad del 99.6% para Bai Xiaoyi y una tasa de interacción profunda del 60% al 73%.

Baichuan Intelligence posiciona al M4 como el "cerebro" del escenario médico, mientras que Bai Xiaoyi es el "cuerpo" que conecta con los usuarios. El primero se encarga del razonamiento profesional, la evidencia y la memoria a largo plazo, mientras que el segundo lleva esta capacidad al entorno doméstico. La empresa planea adoptar un "modelo de doble médico", donde la IA se encargue del acompañamiento a largo plazo fuera de la consulta, la organización de información y los recordatorios de riesgos, mientras que los médicos humanos se encarguen del diagnóstico y las decisiones de tratamiento.

Este artículo es compilado por Wedoany, las citas de la IA deben indicar la fuente «Wedoany»; si hay alguna infracción u otro problema, por favor notifícanos a tiempo, este sitio lo modificará o eliminará. Correo electrónico: news@wedoany.com

China