ICLR 2026 Benchmark

Auf dem peer-reviewed MolecularIQ-Benchmark erreichen vier Frontier-LLMs 14 bis 41 Prozent bei chemischer Strukturanalyse. Mit CovaSyn-MCP-Anbindung steigen die gleichen Modelle auf 76 bis 92 Prozent. Drei der vier landen bei 85 bis 92 %, das günstigste Modell (Gemini 3.5 Flash) bei 76 %. Hier sind die Zahlen, und was sie nicht zeigen.

Baseline gegen CovaSyn-MCP über chemische Teilaufgaben für Haiku 4.5, Opus 4.7, GPT-5.5 und Gemini 3.5 Flash — Fig. 1. Tool-augmentierte LLMs gegen LLM-only Baselines, aufgeschlüsselt nach chemischen Teilaufgaben. Haiku 4.5 auf dem vollen Test-Split (n = 3.540), Opus 4.7, GPT-5.5 und Gemini 3.5 Flash auf einer proportional stratifizierten Stichprobe (n = 910 je Modell).

Top-Line-Zahlen

Modell	Baseline	+ CovaSyn MCP	Δ	Lift
Claude Haiku 4.5	21,18 %	85,38 %	+64,20 pp	4,03×
Claude Opus 4.7	40,75 %	91,51 %	+50,76 pp	2,25×
OpenAI GPT-5.5	22,29 %	89,92 %	+67,63 pp	4,03×
Gemini 3.5 Flash	13,68 %	75,66 %	+61,98 pp	5,53×

Was das in Kosten bedeutet

Frontier-Modelle sind teuer. Mit CovaSyn lässt sich oft das günstigere Modell verwenden, ohne Genauigkeit aufzugeben.

Konfiguration	Genauigkeit	$/Frage	Latenz
Haiku 4.5 baseline	21,18 %	0,00069 $	2,1 s
Haiku 4.5 + CovaSyn MCP	85,38 %	0,00781 $	5,8 s
Opus 4.7 baseline	40,75 %	0,02529 $	5,1 s
Opus 4.7 + CovaSyn MCP	91,51 %	0,12536 $	7,4 s
GPT-5.5 baseline	22,29 %	0,02750 $	7,9 s
GPT-5.5 + CovaSyn MCP	89,92 %	0,03005 $	9,4 s
Gemini 3.5 Flash baseline	13,68 %	0,00940 $	5,5 s
Gemini 3.5 Flash + CovaSyn MCP	75,66 %	0,02170 $	10,8 s

Die scharfe Aussage:

Haiku 4.5 + CovaSyn ist der Kosten-Effizienz-Sweetspot: 2,1× die Genauigkeit von Opus 4.7 baseline bei 32 % der Kosten, und 16× günstiger als Opus 4.7 + CovaSyn bei nur 6 pp weniger Genauigkeit. Gemini 3.5 Flash + CovaSyn liefert den größten relativen Lift (5,53× von 13,7 % auf 75,7 %) bei rund 2,3× Baseline-Kosten und 2× Baseline-Latenz, die richtige Option für Teams, die Gemini bereits im Stack haben.

Pareto-Frontier: Genauigkeit (y-Achse) versus Kosten pro Frage (x-Achse) für vier Modelle, jeweils mit und ohne CovaSyn-MCP. — Fig. 2. Cost-Accuracy-Pareto. Haiku mit CovaSyn liegt oben links, also hohe Genauigkeit bei niedrigen Kosten pro Frage. Gemini 3.5 Flash mit CovaSyn ist die noch günstigere Variante darunter.

David gegen Goliath. Kleines Modell mit MCP schlägt großes Modell allein. — Fig. 3. David gegen Goliath. Das kleinere Modell mit MCP-Anbindung schlägt das größere Modell ohne Tools. Die Architektur-Frage wird zur Layer-Frage.

Wo CovaSyn am stärksten hebelt

Mean-Accuracy-Lift über 8 Frage-Kategorien (Durchschnitt über Haiku 4.5, Opus 4.7 und GPT-5.5; Gemini 3.5 Flash analog, Detail-Daten kommen mit dem nächsten Snapshot):

Kategorie	Baseline	+ CovaSyn MCP	Δ
Scaffold & Fragments	18,0 %	86,5 %	+68,4 pp
Rings & Topology	29,4 %	93,2 %	+63,8 pp
Bonds & Chains	17,6 %	80,9 %	+63,3 pp
Multi-Feature Questions	27,3 %	88,4 %	+61,1 pp
Atom & Formula Counts	38,7 %	98,3 %	+59,7 pp
Stereochemistry	28,7 %	86,0 %	+57,4 pp
Electronics & H-Bonds	31,2 %	81,5 %	+50,3 pp

Per-Kategorie-Lift über alle Modelle, gruppiert nach Fragetyp. — Fig. 4. Lift pro Kategorie. Stärkster Hebel: Scaffold & Fragments (+68,4 pp).

Tool-Effizienz: Genauigkeitsgewinn pro Tool-Call über alle Modelle. — Fig. 5. Tool-Effizienz. Genauigkeitsgewinn pro Tool-Call. Belegt, dass Tools tatsächlich Information beitragen, nicht nur Rauschen.

Zusammenfassung: Genauigkeit aller acht Konfigurationen über alle Komplexitätsstufen. — Fig. 6. Gesamt-Summary. Vier Modelle, zwei Konfigurationen, drei Komplexitäts-Bins.

Methodik

Benchmark

MolecularIQ von Bartmann et al., ICLR 2026 (arXiv:2601.15279). 3.540 Aufgaben, 65 Merkmale, drei Komplexitätsstufen. Dataset öffentlich auf HuggingFace.

Modelle

Claude Haiku 4.5, Claude Opus 4.7, OpenAI GPT-5.5 und Gemini 3.5 Flash. Jeweils mit und ohne CovaSyn-MCP-Anbindung.

Verifikation

Symbolisch, ohne LLM-Richter. Score nur bei voller Übereinstimmung mit der Ground Truth.

Tools

Fünf Chemie-Primitive aus der CovaBasicChem-Suite. Cheminformatik-Operationen, deterministisch, validiert.

Volumen

12.540 Modell-Antworten insgesamt. Haiku auf dem vollen Test-Split, Opus, GPT-5.5 und Gemini auf einer stratifizierten Stichprobe (910 Fragen je Modell).

Wo wir noch besser werden

Keine 100 % Trefferquote, und genau das wollen wir auch nicht verheimlichen. Hier siehst du, wie sich die verbleibenden Fehler verteilen und an welchen Stellen du für deine eigene Validierung genauer hinschauen solltest.

Kategorie	Haiku + MCP	Opus + MCP	GPT-5.5 + MCP	Gemini + MCP
Korrekt	73,2 %	83,0 %	83,6 %	72,3 %
Tool-Ergebnis verworfen	21,6 %	14,5 %	10,9 %	6,9 %
Tool-Wert nicht passend	4,8 %	2,2 %	1,4 %	0,7 %
Formatfehler	0,2 %	0,2 %	4,1 %	20,1 %

Der Großteil der verbleibenden Lücke entsteht zwischen Tool und Modell, nicht im Tool selbst. Wir adressieren das laufend.

Quellenangabe

Bartmann C., Schimunek J., Ielanskyi M., Seidl P., Klambauer G., Luukkonen S. (2026). MolecularIQ: Characterizing Chemical Reasoning Capabilities Through Symbolic Verification on Molecular Graphs. ICLR 2026 (Poster, Pavilion 4 · P4-#5202, 24 Apr 2026), arXiv:2601.15279. Code: github.com/ml-jku/moleculariq. Dataset: huggingface.co/datasets/ml-jku/moleculariq-v0.0. Daten-Snapshot: 2026-05-17.

Tiefer einsteigen

Ausführliche Analyse mit Methodik, Implikationen und FAQ

Etwa 12 Minuten Lesezeit. Hintergrund zur Modell-Auswahl, Cost-Pareto im Detail, GxP-Implikationen, häufige Fragen. →

Selbst testen

Die Tools, die diesen Lift produzieren, stehen in jedem CovaSyn-Account zur Verfügung. Auch im Free-Tier mit 100 Credits pro Woche.

Account erstellen →Tool-Liste ansehen →