Un equipo suizo desarrolla el modelo TutorRL de 7 mil millones de parámetros, equilibrando el conocimiento disciplinario y las habilidades pedagógicas Noticias Globales

Un equipo suizo desarrolla el modelo TutorRL de 7 mil millones de parámetros, equilibrando el conocimiento disciplinario y las habilidades pedagógicas

2026-06-15 16:15

Favoritos

es.wedoany.com Noticia: El posdoctorando suizo Jakub Mačina, en colaboración con el profesor de informática Mrinmaya Sachan y el científico del aprendizaje Manu Kapur, ha desarrollado un modelo de aprendizaje de inteligencia artificial llamado "TutorRL", diseñado para equilibrar el conocimiento disciplinario especializado con las habilidades pedagógicas. Este modelo requiere solo 7 mil millones de parámetros, mucho menos que los modelos de lenguaje grandes actuales que poseen cientos de miles de millones o incluso billones de parámetros, y es menos propenso a desviarse del tema en interacciones de aprendizaje de hasta 20 pasos.

La investigación de Mačina se centra en cómo convertir los modelos de lenguaje grandes en tutores de aprendizaje con valor pedagógico. Señala que la mayoría de los modelos de lenguaje grandes existentes están optimizados para generar respuestas y soluciones, en lugar de guiar a los usuarios a pensar de forma independiente durante el proceso de aprendizaje. Incluso cuando se solicita explícitamente apoyo educativo en las instrucciones, los resultados suelen ser insatisfactorios. Para evaluar la idoneidad pedagógica de diferentes modelos, Mačina, junto con investigadores de la Universidad Técnica de Darmstadt (TU Darmstadt), desarrolló el punto de referencia de enseñanza matemática "MathTutorBench". Este punto de referencia se basa en diálogos con profesores y datos de procesos de enseñanza, estableciendo un sistema de puntuación para habilidades pedagógicas específicas, que se utiliza para comparar y analizar las respuestas de los modelos de lenguaje grandes. Las pruebas muestran que diferentes modelos a menudo presentan un equilibrio entre el conocimiento disciplinario y las habilidades pedagógicas, y la mayoría de los modelos tienden a perder el hilo y desviarse del tema al responder paso a paso.

En un segundo proyecto, Mačina desarrolló el modelo TutorRL. Este modelo se entrena mediante interacciones de múltiples pasos entre un estudiante virtual y un profesor virtual, sin necesidad de costosos datos de entrenamiento. Durante el entrenamiento, utiliza otro modelo para monitorear el proceso de enseñanza y evaluar las respuestas del profesor virtual, logrando así un "aprendizaje por refuerzo". Mačina afirma que la gran ventaja de este método es que no requiere grandes cantidades de datos y puede utilizar modelos de lenguaje más pequeños. En comparación con los modelos más recientes de OpenAI o Google, que tienen cientos de miles de millones o billones de parámetros, el modelo TutorRL, con sus 7 mil millones de parámetros, es de menor escala. Los resultados preliminares muestran que TutorRL logra un mejor equilibrio entre el conocimiento disciplinario y las habilidades pedagógicas que los modelos de lenguaje grandes tradicionales, y es menos propenso a desviarse del tema. El modelo también puede explicar las razones de sus respuestas y decisiones durante el proceso de aprendizaje, facilitando que los profesores comprendan y supervisen el proceso de enseñanza.

TutorRL ya está disponible de forma gratuita como código abierto, con más de mil descargas. Sin embargo, el modelo aún no ha sido probado ni evaluado con estudiantes en el aula, y actualmente solo es adecuado para la enseñanza de matemáticas en la escuela secundaria y los primeros años de licenciatura. Mačina cree que, a largo plazo, el modelo también podría utilizarse en disciplinas MINT como matemáticas, informática, ciencias naturales y tecnología, y su rendimiento es suficiente para apoyar cursos de maestría. Señala que la investigación no solo es relevante para la enseñanza, sino que también tiene un significado fundamental para el desarrollo posterior de la inteligencia artificial, ya que la resolución colaborativa de problemas se convertirá en el núcleo de muchos campos laborales en el futuro, y el juicio humano seguirá siendo crucial.

Este artículo es compilado por Wedoany, las citas de la IA deben indicar la fuente «Wedoany»; si hay alguna infracción u otro problema, por favor notifícanos a tiempo, este sitio lo modificará o eliminará. Correo electrónico: news@wedoany.com