アリババはQwen3.5モデルファミリーを3つの新モデルで拡大しました。27Bモデルは特に注目されており、人工分析知能指数で42点を獲得し、オープンウェイトモデルはその8倍から25倍の規模に相当します @Alibaba_Qwenは今月初めに発売された397Bフラッグシップに加え、Qwen3.5ファミリーを3つの新モデルで拡充しました。Qwen3.5 27B(密度が高く、Intelligence Indexで42点)、Qwen3.5 122B A10B(MoE、42位)、Qwen3.5 35B A3B(MoE、37位)です。2つのMoE(Mixture-of-Experts)モデルは、順方向パスごとに全体のパラメータの一部しか起動しません(それぞれ122Bの10B、35Bの~3B)。知能指数は、一般推論、主体的課題、コーディング、科学的推論を含む10の評価を含む総合指標です。 すべてのモデルはApache 2.0ライセンスを受けており、ネイティブで262Kコンテキストをサポートし、AlibabaがQwen3 2507アップデートでInstructとReasoningのチェックポイントを分離した後、元のQwen3から統一思考/非思考ハイブリッドアーキテクチャに戻っています。 推論バリアントの主なベンチマーク結果: † Qwen 3.5 27Bは知能指数で42点を獲得し、230B以下の最も知能の高いモデルです。同規模の最も近いモデルはGLM-4.7-Flash(合計31B、3Bアクティブ)で、スコアは30です。同等の知能を持つオープンウェイトモデルは、総パラメータの8〜25倍大きいです:MiniMax-M2.5(230B, 42)、DeepSeek V3.2(685B, 42)、GLM-4.7(357B, 42)。FP8の精度ではモデルの重みを格納するのに~27GBかかりますが、4ビット量子化ではノートパソコン品質のハードウェアと16GB+のRAMを使えます † Qwen3.5 27BはGDPval-AA(Agentic Real-World Work Tasks)で1205点を獲得し、より大きなモデルと並ぶ評価です。参考までに、MiniMax-M2.5は1206点、GLM-4.7(推論)は1200点、DeepSeek v3.2(推論)は1194点です。これは特に27Bパラメータモデルとして注目され、その規模に対して強いエージェント能力があることを示唆しています。GDPval-AAは、44の職業と9つの主要産業の実世界の課題でモデルをテストしています † AA-全知はQwen3.5ファミリー全体で相対的な弱点であり、主に誤覚率よりも精度の低下が原因となっています。Qwen3.5 27BはAA-Omniscienceで-42のスコアを獲得し、MiniMax-M2.5(-40)と同等ですが、DeepSeek V3.2(-21)やGLM-4.7(-35)には及びません。Qwen3.5 27Bの幻覚率(80%)は同業他社より低い(GLM-4.7 90%、MiniMax 89%、DeepSeek 82%)が、精度も低く、DeepSeek V3.2の34%、GLM-4.7の29%に対し21%です。これはモデルサイズの結果と考えられます。一般的に、総パラメータが多いモデルほどAA-Omniscienceでは精度が高く、より広い知識の想起はパラメータ数が多いことで有利になることが観察されています † Qwen3.5 27BはQwen3.5 122B A10Bと同等の知能を持っています。122BのA10BはMixture-of-Expertモデルで、1回のフォワードパスで122Bの総パラメータのうち10Bのみを活性化します。27BモデルはGDPval-AA(1205 Elo対1145 Elo)でリードし、TerminalBench(+1.5 p.p.)でもわずかにリードしていますが、122BモデルはSciCode(+2.5 p.p.)、HLE(+1.2 p.p.)でリードし、幻覚率も低い(Omniscience -40 vs -42) † Qwen3.5 35B A3B(Reasoning、37)は最も知能的なモデルで、アクティブパラメータ~3Bを持ち、GLM-4.7-Flash(30)より7ポイントリードしています。この~3Bのアクティブカテゴリーには、Qwen3 Coder Next(合計80B、28台)、Qwen3 Next 80B A3B(27台)、NVIDIA Nemotron 3 Nano 30B A3B(24台)などがあります † Qwen3.5 27Bは9,800万の出力トークンを使ってIntelligence Indexを実行し、Alibaba Cloud API経由で約299ドルの費用できました。これは、同じ知能を持つモデル(MiniMax-M2.5(56M)、DeepSeek V3.2(61M)、さらにはより大きなQwen3.5 397B(86M)と比べて、トークン使用率が非常に高いものです。 その他の情報: † コンテキストウィンドウ:262Kトークン(YaRN経由で1Mまで拡張可能) † ライセンス:Apache 2.0 † API価格(アリババクラウド):397B:$0.60/$3.60、122B:$0.40/$3.20、27B:$0.30/$2.40、35B A3B:100万の入出力トークンあたり$0.25/$2.00
Qwen3.5 27Bは、そのモデルサイズにおいてエージェントとしての能力で際立っています。GDPval-AAでのEloは1205で、合計パラメータが8〜25倍多いモデルとマッチし、397Bのフラッグシップ(1208)にわずか3ポイント差で、14倍ほど小さいにもかかわらず劣ります。
総パラメータが40B以下のオープンウェイトモデルの中で、Qwen3.5、27B、35B、A3Bが知能指数で明確なリーダーとして際立っています。このサイズカテゴリーで次に賢いモデルはGLM-4.7-Flash(30)です
Qwen3.5ファミリー全体を他の主要モデルと比較してください: Qwen3.5 27B HuggingFaceリポジトリ:
3.57K