Mistral AI de Francia lanza el modelo OCR 4, centrado en la estructuración de documentos empresariales
2026-06-25 10:17
Favoritos

es.wedoany.com Noticia: La empresa francesa de inteligencia artificial Mistral AI lanzó el martes su modelo de reconocimiento óptico de caracteres de cuarta generación, OCR 4. La capacidad principal de este modelo no se limita a la extracción de texto, sino que también devuelve una representación estructurada del documento que incluye cuadros delimitadores, clasificación de tipos de bloque y puntuaciones de confianza por palabra. El producto está dirigido al mercado de implementación empresarial autogestionada en industrias reguladas, que no pueden confiar documentos sensibles a proveedores de servicios en la nube bajo la jurisdicción legal de Estados Unidos.

Arte vectorial de Nuneybits de un documento blanco centrado en OCR naranja g 389a1d54-734c-4957-a8fa-848d9b6e9794

OCR 4 admite 170 idiomas de 10 familias lingüísticas y puede procesar formatos PDF, DOC, PPT y OpenDocument. Mistral indicó que las generaciones anteriores del modelo convertían principalmente las páginas en texto y tablas limpios, mientras que OCR 4 devuelve directamente una representación estructurada del documento. El modelo ya está disponible a través de la API de Mistral, Document AI en Mistral Studio, Amazon SageMaker y Microsoft Foundry, y próximamente se añadirá soporte para Snowflake Parse Document. El precio inicial es de 4 dólares por cada 1000 páginas, con un precio con descuento por API por lotes de 2 dólares por cada 1000 páginas.

El núcleo de ingeniería de OCR 4 es la salida de una representación jerárquica del documento, en lugar de un flujo de texto plano. Cada bloque de texto incluye un cuadro delimitador de posicionamiento, clasificación de tipo (como título, tabla, fórmula, firma) y puntuaciones de confianza a nivel de página y palabra. Mistral afirma que los cuadros delimitadores son la función más solicitada por los clientes, ya que permite a los sistemas posteriores rastrear la información extraída hasta ubicaciones específicas de la página. La función de clasificación de bloques permite utilizar párrafos de título para la segmentación jerárquica en búsquedas semánticas, enrutar bloques de tabla a canalizaciones de datos estructurados, y los bloques de firma pueden activar flujos de trabajo de edición en sistemas de cumplimiento normativo. Las puntuaciones de confianza permiten a las organizaciones enviar programáticamente áreas de baja confianza a revisión humana, mientras aprueban automáticamente las extracciones de alta confianza.

En evaluaciones independientes, Mistral informó que una evaluación humana realizada por anotadores independientes en más de 600 documentos reales que contenían más de 12 idiomas mostró que OCR 4 logró una tasa de victoria promedio del 72% en comparación directa con los principales competidores. El modelo obtuvo 85,20 puntos en OlmOCRBench y 93,07 puntos en OmniDocBench. Sin embargo, Mistral también auditó y divulgó públicamente artefactos en las puntuaciones, incluidos errores en las anotaciones de referencia, problemas de coincidencia de símbolos LaTeX y suposiciones sobre el orden de lectura de columnas, considerando que la puntuación total es solo orientativa y no determinista. Es notable que en la clasificación pública de OlmOCRBench, OCR 4 ocupa actualmente el tercer lugar, por detrás de algunos modelos de pesos abiertos como Chandra OCR 2. PaddleOCR-VL-1.6 afirma haber alcanzado una puntuación general de 96,33 en OmniDocBench.

Los comentarios tempranos de las empresas proporcionan datos concretos. Aidan Donohue, ingeniero de IA de la empresa financiera Rogo, afirmó que, en un conjunto de datos de preguntas y respuestas financieras con alta densidad de gráficos, OCR 4 logra "una precisión equivalente con una reducción de costos de aproximadamente 8 veces y una reducción de latencia de aproximadamente 17 veces" en comparación con los analizadores de documentos proxy líderes. Ivan Mihailov, ingeniero de IA de la empresa de gestión de propiedad intelectual Anaqua, indicó que la "velocidad por página de OCR 4 es aproximadamente 4 veces mayor que la de los proveedores existentes".

El contexto geopolítico de este lanzamiento es la desactivación por parte de Anthropic de sus modelos más recientes Fable 5 y Mythos 5 el 12 de junio debido a las restricciones de exportación de Estados Unidos, lo que provocó interrupciones en el servicio para clientes empresariales en los sectores financiero, sanitario y de infraestructura crítica. Este evento validó las advertencias del CEO de Mistral, Arthur Mensch, sobre los riesgos de la dependencia europea de las empresas estadounidenses de IA. Mensch había declarado que las empresas estadounidenses "tienen el control de sus modelos" y recientemente enfatizó que "Europa está rezagada en la construcción de infraestructura, por lo que estamos invirtiendo para cerrar esa brecha". El modo de implementación autogestionada en un solo contenedor de OCR 4 permite que los documentos no salgan de la infraestructura del cliente, funcionando completamente bajo la jurisdicción de la Unión Europea.

Un día antes del lanzamiento de Mistral, Baidu presentó un modelo de 3 mil millones de parámetros llamado Unlimited-OCR, con pesos abiertos gratuitos bajo licencia MIT. Este modelo utiliza una técnica denominada atención de ventana deslizante de referencia (R-SWA), que permite analizar un PDF completo y escaneos de varias páginas en una sola pasada hacia adelante, sin necesidad de fragmentación o unión. Estos dos lanzamientos son vistos por los analistas como una divergencia de dos modelos en el campo de la IA documental en junio de 2026: el análisis de largo alcance autogestionado con pesos abiertos frente a la extracción estructurada comercializada. Para equipos de investigación con una sola GPU, Unlimited-OCR podría ser más adecuado, mientras que OCR 4 está dirigido a los acuerdos de nivel de servicio, acuerdos de procesamiento de datos y auditorías de cumplimiento involucrados en los procesos de adquisición de TI empresarial.

Desde una perspectiva industrial, OCR 4 es el punto de entrada de Mistral al presupuesto de IA empresarial. El modelo es compatible directamente con Search Toolkit de Mistral, un marco de búsqueda componible de código abierto. Arquitectónicamente, OCR 4 actúa como la capa de extracción para la generación aumentada por recuperación y las canalizaciones de búsqueda empresarial. Bloomberg informó recientemente que Mistral se encuentra en conversaciones iniciales para recaudar aproximadamente 3 mil millones de euros con una valoración de alrededor de 20 mil millones de euros. La empresa tiene como objetivo alcanzar unos ingresos de 1 mil millones de euros en 2026. El CEO de Mistral también refutó recientemente el llamado del Papa a "desarmar" la IA, argumentando que Europa no puede quedarse atrás de los gigantes tecnológicos estadounidenses y necesita poseer sus propias capacidades de IA.

comparación de rendimiento del modelo ocr

comparación de modelos mistral-ocr-4

Mistral-OCR-4-multilingüe

Este artículo es compilado por Wedoany, las citas de la IA deben indicar la fuente «Wedoany»; si hay alguna infracción u otro problema, por favor notifícanos a tiempo, este sitio lo modificará o eliminará. Correo electrónico: news@wedoany.com