Anthropic провела эксперимент: Claude-агенты торговали на рынке и зарабатывали

Anthropic опубликовала результаты внутреннего эксперимента по сделкам между агентами, в котором ИИ-системы заключали реальные сделки от имени людей. 69 сотрудников получили Claude-агентов, которые торговали во внутреннем маркетплейсе Slack на протяжении нескольких недель.

Результаты: агенты заключили 186 сделок на сумму более $4000. Claude Opus 4.5 опередил Haiku 4.5 по большинству метрик - продавцы на Opus получали в среднем на $2.68 больше за товар, покупатели платили на $2.45 меньше.

Интересный вывод: участники с более слабыми моделями не замечали своего невыгодного положения при оценке справедливости сделок. Это поднимает вопросы о неравенстве, если разрыв в качестве моделей проявится на реальных рынках.

Model	SWE-bench
Claude Opus 4.6	80.8%
Claude Sonnet 4.6	79.6%
GPT-5.4	~80%
Gemini 3.1 Pro	80.6%
DeepSeek V3.2	72%

Anthropic провела эксперимент: Claude-агенты торговали на рынке и зарабатывали

Другие молнии