Investigación del MIT revela el fenómeno de sesgo posicional en modelos de lenguaje grandes y estrategias de mitigación Presentación de Tecnología_Aplicaciones Tecnológicas

Investigación del MIT revela el fenómeno de sesgo posicional en modelos de lenguaje grandes y estrategias de mitigación

2025-10-21 10:30

Fuente：MIT

Favoritos

Recientemente, investigadores del Instituto Tecnológico de Massachusetts (MIT) han descubierto un "sesgo posicional" en los modelos de lenguaje grandes (LLM) al procesar documentos o conversaciones: los modelos tienden a prestar más atención a la información al principio y al final, ignorando la parte media.

Los investigadores crearon un marco teórico para estudiar en profundidad cómo fluye la información en la arquitectura de aprendizaje automático de los LLM. Descubrieron que tanto la arquitectura del modelo como los datos de entrenamiento pueden causar sesgos posicionales. En particular, los diseños de arquitectura que afectan la propagación de información entre palabras de entrada en el modelo agravan este problema.

"Estos modelos son como cajas negras; los usuarios podrían no saber que el sesgo posicional causa inconsistencias en el modelo", dijo Wu Xinyi, primer autora del artículo. Señaló que, al entender mejor los mecanismos subyacentes del modelo, se pueden mejorar estas limitaciones, lo que llevaría a chatbots más confiables, sistemas de IA médica y asistentes de código.

En los experimentos, los investigadores variaron sistemáticamente la posición de la respuesta correcta en secuencias de texto, revelando un fenómeno de "perdido en el medio", donde la precisión de recuperación muestra un patrón en forma de U. El modelo rinde mejor al principio y al final, pero declina en el medio.

Para abordar este problema, los investigadores propusieron varias estrategias. Descubrieron que usar diferentes técnicas de enmascaramiento, eliminar capas adicionales del mecanismo de atención o adoptar codificaciones posicionales estratégicamente puede reducir el sesgo posicional y mejorar la precisión del modelo.

"Al combinar teoría y experimentos, podemos obtener insights sobre las consecuencias de las elecciones de diseño del modelo", dijo el profesor Ali Jadbabaie. Enfatizó que, en aplicaciones de alto riesgo, es esencial entender cuándo funcionan los modelos, cuándo no y por qué.

En el futuro, los investigadores esperan explorar más el impacto de las codificaciones posicionales y estudiar cómo explotar estratégicamente el sesgo posicional en ciertas aplicaciones. Esta investigación no solo proporciona una perspectiva teórica sobre el mecanismo de atención central de los modelos Transformer, sino que también ofrece referencias importantes para mejorar el rendimiento y la confiabilidad de los modelos.

Estados Unidos

Industrias emergentes estratégicas Tecnología de la información de última generación

Este boletín es una compilación y reproducción de información de Internet global y socios estratégicos, y está destinado únicamente a proporcionar a los lectores la comunicación. Si hay infracción u otros problemas, por favor infórmenos a tiempo, este sitio será modificado o eliminado. Toda reproducción de este artículo sin autorización formal está estrictamente prohibida. Correo electrónico: news@wedoany.com

Anterior：Módulos de robots blandos personalizables permiten nuevas interacciones táctiles

Posterior：Mezclar dos o tres líquidos alquilo-π puede lograr la combinación funcional adecuada para dispositivos electrónicos blandos

Recomendaciones

Última