BFCL Multi-Turn — рейтинг LLM

Сравнение моделей по качеству tool calling и стоимости

8 апреля 202651 модель3 источника

Содержание

  1. BFCL Multi-Turn
  2. Источники
  3. Выводы
  4. Рейтинг
  5. Score vs Price
  6. Цены
  7. Эффективность
  8. Таблица
  9. Ссылки

1. BFCL Multi-Turn

BFCL (Berkeley, ICML 2025) — стандарт для оценки tool calling. Multi-Turn — колонка #11 на лидерборде. Тестирует многоходовые сценарии: вызов функций в несколько шагов, сохранение контекста, обработка отсутствующих функций/параметров, длинный контекст. Режим FC (native function calling).

2. Источники

ИсточникМетрикаНадёжность
Berkeley
gorilla.cs.berkeley.edu
BFCL v4, Multi-Turn (#11)Оригинал
llm-stats
llm-stats.com
BFCL v3/v4 overallАгрегатор
PPT
pricepertoken.com
BFCL v3 overallАгрегатор

Scores НЕ сравнимы напрямую. Berkeley — Multi-Turn (800 тестов). Агрегаторы — overall (4441 тест). Модель с высоким single-turn, но слабым multi-turn получит высокий score на агрегаторах, но низкий на Berkeley.

3. Ключевые выводы

Berkeley лидер: Claude Opus 4.5 — 68.4% Multi-Turn.

Лучший бюджетный: Kimi K2 — 50.6% за 146₽ ср. DeepSeek V3.2 Exp — 44.9% за 34₽.

Qwen3 235B Thinking: 63.5% за 36₽ ср. Лучшее соотношение среди подтверждённых.

GPT-5.2 слаб в multi-turn: 28.1% (Berkeley). Сильна в single, слаба в многоходовых.

Наценка RouterAI: ~27–30% к OpenRouter. Исключения: Qwen3 235B Thinking (−44%), Kimi K2 Thinking (+3%).

4. Рейтинг

[B]=Berkeley, [L]=llm-stats, [P]=PPT. Штриховка = агрегаторы.

5. Score vs стоимость

○=Berkeley, □=llm-stats, △=PPT. Ось X — log.

6. Цены RouterAI vs OpenRouter

7. Эффективность (Score / Price)

Score делённый на среднюю цену RouterAI (руб/1M токенов). Выше = больше качества за рубль.

8. Таблица (51 модель)

#МодельИсточникScoreRAI вх ₽RAI исх ₽OR вх $OR исх $Нац.
1Qwen3 MaxPPT74.979399$0.78$3.90+30%
2GLM-4.7-FlashPPT74.6640$0.06$0.40+27%
3LongCat Flashllm-stats74.42081$0.20$0.80+28%
4Qwen3.5 397Bllm-stats72.939239$0.39$2.34+29%
5Qwen3.5 122Bllm-stats72.226212$0.26$2.08+29%
6Qwen3.5 27Bllm-stats68.519159$0.20$1.56+29%
7Claude Opus 4.5Berkeley68.45112558$5.00$25.00+30%
8GLM-4.6 thinkingBerkeley68.040173$0.39$1.90+18%
9Qwen3.5-35B-A3Bllm-stats67.325102$0.16$1.30+10%
10Qwen3.5 9Bllm-stats66.1515$0.05$0.15+27%
11Kimi K2.5PPT64.539176$0.38$1.72+30%
12Qwen3 235B ThinkingBerkeley63.51161$0.15$1.50-44%
13INTELLECT-3PPT63.520112$0.20$1.10+29%
14Gemini 3 ProBerkeley63.12041228$2.00$12.00+30%
15Claude Sonnet 4.5Berkeley61.43071535$3.00$15.00+30%
16Qwen3 Coder 480BBerkeley59.525102$0.22$1.00+32%
17Grok 4.1 FastBerkeley58.92051$0.20$0.50+29%
18Llama 4 ScoutPPT55.7830$0.08$0.30+27%
19Claude Haiku 4.5Berkeley53.6102511$1.00$5.00+30%
20Kimi K2Berkeley50.658235$0.57$2.30+30%
21Command A ReasoningBerkeley50.12551023$2.50$10.00+30%
22Qwen3 32BBerkeley47.9824$0.08$0.24+27%
23MiniMax M1PPT47.845180$0.40$2.20+10%
24Qwen3 235B InstructBerkeley45.4710$0.07$0.10+25%
25Command-R-plus-08Berkeley45.42551023$2.50$10.00+30%
26DeepSeek V3.2 ExpBerkeley44.92741$0.27$0.41+27%
27Kimi K2 ThinkingBerkeley42.548204$0.60$2.50+3%
28o4-miniBerkeley41.8112450$1.10$4.40+30%
29Qwen3 8BBerkeley41.8540$0.05$0.40+27%
30DeepSeek R1-0528Berkeley41.046220$0.45$2.15+30%
31Phi 4PPT40.8614$0.07$0.14+24%
32GLM-4.5-AirBerkeley40.01386$0.13$0.85+28%
33GPT-4.1Berkeley38.9204818$2.00$8.00+30%
34GLM-4.5Berkeley38.961225$0.60$2.20+30%
35Gemini 2.5 FlashBerkeley36.320102$0.15$0.60+49%
36GLM-4.6-Air thinkingBerkeley39.41366$0.13$0.65+23%
37GLM-4.6Berkeley36.026112$0.26$1.10+24%
38GPT-5-nanoBerkeley34.5102511$1.00$5.00+30%
39GPT-4.1-miniBerkeley34.151204$0.50$2.00+30%
40Qwen3 14BBerkeley34.8530$0.05$0.30+21%
41Qwen3 30B A3BBerkeley30.01351$0.13$0.50+24%
42Gemini 2.5 ProBerkeley32.01531022$1.50$10.00+3%
43Grok 4Berkeley33.9122612$1.20$6.00+30%
44DeepSeek V3.2Berkeley27.820102$0.20$1.00+3%
45GPT-4.1-nanoBerkeley23.61041$0.10$0.40+29%
46Llama 3.3 70BBerkeley21.5640$0.06$0.40+27%
47Mistral LargeBerkeley14.1122612$1.20$6.00+30%
48Gemini 2.5 Flash LiteBerkeley13.5210$0.01$0.07+43%
49Mistral SmallBerkeley11.51051$0.10$0.50+29%
50Nova ProBerkeley1.978327$0.80$3.20+30%

9. Ссылки

Собрано 8 апреля 2026 · Курс ЦБ: 78.75 ₽/$ · mark.magserv.ru

Колёсико — зум · Перетаскивание — сдвиг · Esc — закрыть
100%