Inception Labs hat Mercury 2, ihr produktionsbereites Diffusion LLM der nächsten Generation, gestartet. Mercury 2 erreicht >1.000 Ausgabetokens/s mit erheblichen Fortschritten in der Intelligenz Die Diffusion LLMs („dLLMs“) von @_inception_ai verwenden eine andere Architektur im Vergleich zu autoregressiven LLMs. Der Generierungsprozess des Diffusion LLM beginnt mit Rauschen und verfeinert iterativ die Ausgabe mithilfe eines Transformer-Modells, das mehrere Tokens parallel modifizieren kann. Dies ermöglicht die Parallelisierung der Generierung von Ausgabetokens, was schnellere Ausgabegeschwindigkeiten ermöglicht, da viele Ausgabetokens gleichzeitig generiert werden. Wichtige Erkenntnisse: ➤ Unter vergleichbaren Modellen der gleichen Größe/Preisklasse schneidet Mercury 2 in Bezug auf Intelligenz im Vergleich zur Ausgabegeschwindigkeit wettbewerbsfähig ab. Während es nicht die führende Intelligenz hat, ist seine Ausgabegeschwindigkeit mehr als 3X schneller als das nächstschnellste Modell in dieser Klasse (Benchmarks basierend auf First-Party-Endpunkten oder dem Median der Anbieter, die das Modell bereitstellen, wenn kein First-Party-Endpunkt verfügbar ist) ➤ Zu den wichtigsten Stärken gehören agentisches Codieren & Terminalnutzung sowie das Befolgen von Anweisungen. Mercury 2 schneidet auf dem Terminal-Bench Hard auf ähnlichem Niveau wie Claude 4.5 Haiku ab und erzielt 70 % auf IFBench (Instruction Following), was gpt-oss-120B, GPT-5.1 Codex mini und GPT-5 nano übertrifft. Hintergrund von Inception Labs: Dies ist die zweite Veröffentlichung von Inception Labs. Die Gründer waren zuvor Professoren an Stanford, UCLA und Cornell und haben zur KI-Forschung und -Technologien beigetragen, darunter Flash Attention, Decision Transformers und Direct Preference Optimization (DPO). Siehe unten für weitere Analysen.
Ausgabegeschwindigkeitsvergleich mit anderen Modellen (Benchmarks basierend auf First-Party-Endpunkten oder dem Median der Anbieter, die das Modell bedienen, wenn kein First-Party-Endpunkt verfügbar ist)
Mercury 2 schneidet im Vergleich zu kleinen vergleichbaren Modellen bei mehreren agentischen Bewertungen, einschließlich GDPval-AA, Terminal-Bench Hard und 𝜏²-Bench Telecom, überdurchschnittlich ab und bietet gleichzeitig hohe Ausgabegeschwindigkeiten.
Siehe Künstliche Analyse für weitere Details und Benchmarks von Mercury 2:
11,33K