es.wedoany.com Noticia: La empresa de inteligencia artificial Anthropic ha anunciado recientemente un experimento interno bajo el nombre en clave "Project Deal", destinado a probar la capacidad de los agentes de IA para realizar transacciones comerciales reales. El experimento simuló un entorno cerrado de mercado clasificado, donde los agentes de IA actuaron como compradores y vendedores, realizando transacciones reales de productos con dinero real.
Según el informe de investigación publicado por Anthropic, en el experimento participaron 69 empleados de su oficina en San Francisco. Cada participante recibió un presupuesto de 100 dólares (en forma de tarjeta regalo) para comprar artículos a sus colegas. Antes del inicio del experimento, Claude realizó una entrevista de no más de 10 minutos con cada participante para conocer su disposición a vender, su precio mínimo psicológico, sus preferencias de compra y el estilo de negociación que esperaban que la IA adoptara. Claude organizó estas entrevistas en instrucciones personalizadas del sistema, personalizando así un agente de IA que representara a cada persona. Luego, todos los agentes de IA fueron lanzados a un mercado cerrado basado en Slack, donde realizaron de forma autónoma todo el proceso de publicación, oferta, contraoferta y cierre de acuerdos. Durante todo el experimento, no hubo intervención humana, y los agentes de IA no pidieron la aprobación de sus empleadores.
Los resultados del experimento mostraron que los agentes de IA lograron concretar 186 transacciones entre más de 500 artículos listados, con un volumen total de transacciones superior a los 4,000 dólares. Pero no se trató de pedidos simples realizados con un solo clic; los agentes tuvieron que identificar de forma autónoma posibles coincidencias, hacer ofertas, responder a contraofertas y, finalmente, llegar a un acuerdo en un entorno de lenguaje natural. El equipo de investigación de Anthropic declaró: "Nos sorprendió gratamente el desempeño de Project Deal", y señaló que el 46% de los participantes indicó que estaría dispuesto a pagar por un servicio similar.
Para probar el impacto de las capacidades de diferentes modelos en los resultados de las transacciones, Anthropic ejecutó simultáneamente cuatro mercados paralelos. Los mercados A y D utilizaron exclusivamente el modelo insignia más potente de ese momento, Claude Opus 4.5; los mercados B y C asignaron aleatoriamente a la mitad de los participantes a Opus y a la otra mitad al modelo más pequeño, Claude Haiku 4.5. Los empleados solo podían ver las transacciones en los mercados A y B, pero no sabían cuál era el mercado "real" y cuál el de investigación hasta que terminó el experimento. Este diseño doble ciego aseguró que las evaluaciones subjetivas no se vieran afectadas por las expectativas sobre los modelos.
Los resultados del experimento revelaron dos hallazgos principales. Primero, la calidad del agente determina los resultados de la transacción. Los vendedores con Opus vendieron artículos similares a un precio promedio 3.64 dólares más alto; los compradores con Opus pagaron, en promedio, 2.45 dólares menos que los compradores con Haiku. De los 161 artículos que se vendieron al menos dos veces en las cuatro sesiones, el precio medio era de solo 12 dólares, lo que significa que la diferencia de 2 a 3 dólares generada por Opus equivale a un margen de beneficio del 15% al 20%. El caso más extremo: un rubí cultivado en laboratorio se vendió por 65 dólares con Opus, pero solo por 35 dólares con Haiku; una bicicleta averiada se vendió por 65 dólares con Opus y solo por 38 dólares con Haiku. Cuando un vendedor con Opus se enfrentó a un comprador con Haiku, el precio de transacción promedio se elevó a 24.18 dólares, mientras que en una transacción simétrica Opus-Opus, el precio promedio fue de solo 18.63 dólares.
Segundo, la parte en desventaja no fue consciente de su pérdida. Una encuesta posterior al experimento mostró que las puntuaciones de los participantes sobre la equidad de las transacciones eran casi idénticas: el puntaje promedio de equidad para las transacciones completadas con Opus fue de 4.05 (en una escala del 1 al 7), mientras que para Haiku fue de 4.06, casi sin diferencia. De los 28 participantes que usaron tanto Opus como Haiku en diferentes sesiones, solo 17 clasificaron la experiencia con Opus como superior a Haiku, mientras que 11 consideraron que Haiku se desempeñó mejor. Anthropic señaló en el informe: "Objetivamente, la parte representada por un modelo más débil sufrió pérdidas, pero subjetivamente, no lo sintieron en absoluto. Si las brechas en la capacidad de los agentes de IA aparecieran en mercados reales, la parte en desventaja podría no ser consciente de que su situación ha empeorado".
Otro hallazgo inesperado del experimento fue que el estilo de las instrucciones dadas por los usuarios a los agentes de IA apenas tuvo impacto en los resultados de las transacciones. Algunos participantes pidieron a Claude que adoptara una estrategia de negociación amigable y moderada, mientras que otros solicitaron "regatear agresivamente y ofrecer un precio muy bajo desde el principio". Sin embargo, los datos mostraron que las instrucciones agresivas no facilitaron que los vendedores vendieran sus artículos ni que los compradores pagaran un precio de cierre más bajo. La única diferencia fue que el precio de venta fue unos 6 dólares más alto, pero esto se debió casi exclusivamente a que el precio inicial de los vendedores agresivos era unos 26 dólares más alto. Anthropic concluyó: "La calidad del modelo es el factor determinante; el rol del prompt es mucho menos importante de lo que se cree".
La empresa admitió que este experimento fue solo "una prueba piloto a pequeña escala con participantes voluntarios", pero consideró que "no estamos lejos de que emerjan actividades comerciales entre agentes en el mundo real". "Si las brechas en la calidad de los agentes se forman en mercados reales, y no hay razón para pensar que no ocurrirá, la parte en desventaja podría no darse cuenta de que está sufriendo pérdidas". Mientras competidores como OpenAI y Google exploran sistemas similares, este hallazgo supone una advertencia para la gobernanza económica en la era de la IA.
Este artículo es compilado por Wedoany, las citas de la IA deben indicar la fuente «Wedoany»; si hay alguna infracción u otro problema, por favor notifícanos a tiempo, este sitio lo modificará o eliminará. Correo electrónico: news@wedoany.com










