Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Artificial Analysis

Незалежний аналіз моделей штучного інтелекту та хостинг-провайдерів - виберіть найкращу модель та API провайдера для вашого випадку використання

Alibaba розширила свою модель Qwen3.5 трьома новими моделями — модель 27B виділяється, отримавши 42 бали в Індексі штучного аналізу інтелекту та відповідаючи моделям з відкритими вагами у 8-25 разів більшими за розміром @Alibaba_Qwen розширив сімейство Qwen3.5 трьома новими моделями разом із флагманським 397B, який випущений на початку цього місяця: Qwen3.5 27B (щільність, 42 бали за індексом інтелекту), Qwen3.5 122B A10B (MoE, 42) та Qwen3.5 35B A3B (MoE, 37). Дві моделі MoE (Mix-of-Experts) активують лише частку від загальної кількості параметрів за один прямий прохід (10B з 122B і ~3B з 35B відповідно). Індекс інтелекту — це наша синтезна метрика, що включає 10 оцінок, що охоплюють загальне мислення, агентні завдання, кодування та наукове мислення. Усі моделі ліцензовані на Apache 2.0, нативно підтримують контекст 262K і повертаються до гібридної архітектури уніфікованого мислення/немислення з оригінального Qwen3, після того як Alibaba перейшла на окремі контрольні точки Інструкції та Reasoning з оновленнями Qwen3 2507. Ключові результати бенчмаркінгу для варіантів міркування: ➤ Qwen3.5 27B має 42 бали за індексом інтелекту і є найрозумнішою моделлю з 230B. Найближча модель подібного розміру — GLM-4.7-Flash (загалом 31B, 3B активний), яка набрала 30 балів. Відкриті моделі еквівалентного інтелекту у 8-25 разів більші за загальними параметрами: MiniMax-M2.5 (230B, 42), DeepSeek V3.2 (685B, 42) та GLM-4.7 (357B, 42). У точності FP8 зберігається ~27GB для зберігання ваг моделей, тоді як у 4-бітній квантуванні можна використовувати апаратне забезпечення якості ноутбука з 16GB+ оперативної пам'яті ➤ Qwen3.5 27B отримує 1205 балів за GDPval-AA (Agentic Real-World Work Tasks), що ставить його поруч із більшими моделями. Для контексту: MiniMax-M2.5 має 1206 балів, GLM-4.7 (Reasoning) — 1200, а DeepSeek V3.2 (Reasoning) — 1194. Це особливо помітно для моделі параметрів 27B і свідчить про потужні агентні можливості для її розміру. GDPval-AA тестує моделі на реальних завданнях у 44 професіях і 9 основних галузях ➤ AA-Всезнання залишається відносною слабкістю в сімействі Qwen3.5, зумовленою переважно нижчою точністю, а не рівнем галюцинацій. Qwen3.5 27B оцінює -42 на AA-Omniscience, що порівняно з MiniMax-M2.5 (-40), але поступається DeepSeek V3.2 (-21) та GLM-4.7 (-35). Хоча рівень галюцинацій у Qwen3.5 27B (80%) нижчий, ніж у конкурентів (GLM-4.7 90%, MiniMax 89%, DeepSeek 82%), точність також нижча — 21% проти 34% у DeepSeek V3.2 і 29% у GLM-4.7. Це, ймовірно, наслідок розміру моделі — ми зазвичай спостерігали, що моделі з більшою кількістю загальних параметрів краще працюють за точністю в AA-Omniscience, оскільки ширше пам'ятання знань виграє від більшої кількості параметрів ➤ Qwen3.5 27B еквівалентно інтелектний Qwen3.5 122B A10B. 122B A10B — це модель Mix-of-Experts, яка активує лише 10B із 122B загальних параметрів за один прямий проход. Модель 27B лідирує за GDPval-AA (1205 Elo проти 1145 Elo) і трохи на TerminalBench (+1.5 p.p.), тоді як модель 122B лідирує за SciCode (+2.5 p.p.), HLE (+1.2 p.p.) і має нижчий рівень галюцинацій (Omniscience -40 проти -42) ➤ Qwen3.5 35B A3B (Reasoning, 37) — найрозумніша модель з активними параметрами ~3B, на 7 пунктів попереду GLM-4.7-Flash (30). Інші моделі в цій активній категорії ~3B включають Qwen3 Coder Next (всього 80B, 28), Qwen3 Next 80B A3B (27) та NVIDIA Nemotron 3 Nano 30B A3B (24) ➤ Qwen3.5 27B використовував 98M вихідних токенів для запуску Індексу Інтелекту, вартість яких становила ~$299 через API Alibaba Cloud. Це помітно високе використання токенів порівняно з моделями з подібним інтелектом: MiniMax-M2.5 (56M), DeepSeek V3.2 (61M) і навіть більший Qwen3.5 397B (86M). Інша інформація: ➤ Контекстне вікно: 262K токенів (можна розширити до 1M через YaRN) ➤ Ліцензія: Apache 2.0 ➤ Ціноутворення API (Alibaba Cloud): 397B: $0.60/$3.60, 122B: $0.40/$3.20, 27B: $0.30/$2.40, 35B A3B: $0.25/$2.00 за 1M токенів введення/виведення

Inception Labs запустила Mercury 2 — свою наступне покоління готового до виробництва Diffusion LLM. Mercury 2 досягає >1 000 вихідних токенів/с із значним зростанням інтелекту Дифузійні LLM («dLLMs») від @_inception_ai використовують іншу архітектуру порівняно з авторегресивними LLM. Процес генерації дифузійного LLM починається з шуму і ітеративно уточнює вихід за допомогою моделі трансформатора, яка може модифікувати кілька токенів паралельно. Це дозволяє паралелізувати генерацію вихідних токенів, що дозволяє швидше виводити швидкість, оскільки одночасно генерується багато вихідних токенів. Основні висновки: ➤ Серед моделей, порівнянних за розміром/ціною, Mercury 2 демонструє конкурентоспроможні показники за інтелектом і швидкістю вихідної продукції. Хоча він не має провідного інтелекту, його швидкість виводу більш ніж у 3 рази вища за наступною за швидкістю моделлю в цьому класі (бенчмарки на основі сторонніх кінцевих точок або медіана постачальників, які обслуговують модель, де стороння кінцева точка недоступна) ➤ Ключові переваги включають агентне кодування, використання терміналів і виконання інструкцій. Mercury 2 працює на подібному рівні до Claude 4.5 Haiku на Terminal-Bench Hard і набирає 70% на IFBench (Instruction Follow), перевершуючи gpt-oss-120B, GPT-5.1 Codex mini та GPT-5 nano Історія Inception Labs: Це другий реліз від Inception Labs. Засновники раніше були професорами Стенфорда, UCLA та Корнелла, а також зробили внесок у дослідження та технології ШІ, зокрема Flash Attention, Decision Transformers та Direct Preference Optimization (DPO). Дивіться нижче для подальшого аналізу.

Найкращі

Рейтинг

Вибране