CovaSyn
Alle Artikel
Benchmark9 Min. Lesezeit18. Mai 2026

21 % → 85 %: Wie CovaSyn auf dem ICLR-2026-Chemie-Benchmark abschneidet

Klambauers Lab (JKU Linz) hat für ICLR 2026 einen Molekularreasoning-Benchmark gebaut, der echte Chemie statt LLM-Richter testet. Frontier-LLMs erreichen darauf 21 bis 41 Prozent. Mit CovaSyn-MCP-Anbindung springen die gleichen Modelle auf 85 bis 92 Prozent. Wir publizieren die kompletten Zahlen, inklusive Lücken.

OK

Oliver Kraft

CovaSyn

21 % → 85 %: Wie CovaSyn auf dem ICLR-2026-Chemie-Benchmark abschneidet

Was uns interessiert hat

Wir wollten wissen, wie weit ein moderner Frontier-LLM in der Chemie wirklich kommt, wenn er alleine arbeitet, und wieviel sich davon mit einer passenden MCP-Anbindung ändert. Atome zählen, Ringe identifizieren, Stereozentren bestimmen, Scaffolds extrahieren: das sind Aufgaben, an denen sich gut zeigt, ob ein Modell rechnet oder rät.

Statt einen eigenen Benchmark zu bauen, haben wir uns einen unabhängigen genommen.

Der Benchmark

MolecularIQ stammt aus dem Institut für Machine Learning der JKU Linz und wurde 2026 auf der ICLR angenommen (Bartmann, Schimunek, Ielanskyi, Seidl, Klambauer, Luukkonen; arXiv:2601.15279). Das Dataset umfasst 13.170 Fragen in acht Splits. Wir haben den Test-Split mit 3.540 Aufgaben verwendet, eingegrenzt auf die Frage-Typen, die symbolisch verifizierbar sind. Bewertung läuft ohne LLM-Richter: nur volle Übereinstimmung mit der Ground Truth ergibt einen Treffer.

Die Zahlen

Drei Frontier-Modelle, jeweils mit und ohne CovaSyn-MCP-Anbindung:

| Modell | Baseline | + CovaSyn MCP | Lift | |-------------------|----------|---------------|-------| | Claude Haiku 4.5 | 21,18 % | 85,38 % | 4,03× | | Claude Opus 4.7 | 40,75 % | 91,51 % | 2,25× | | OpenAI GPT-5.5 | 22,29 % | 89,92 % | 4,03× |

Drei Modelle, gleiche Richtung, gleiche Größenordnung, Über alle drei zusammen ergibt das einen Sprung von 21 bis 41 Prozent auf 85 bis 92 Prozent.

Was das in Kosten heißt

Kosten pro Frage, gleicher Snapshot:

- Opus 4.7 ohne MCP: 40,75 % bei 0,02529 USD pro Frage - Opus 4.7 mit MCP: 91,51 % bei 0,12536 USD pro Frage - Haiku 4.5 mit MCP: 85,38 % bei 0,00781 USD pro Frage

Die spannende Zeile ist die letzte. Haiku 4.5 mit MCP liefert mehr als das Doppelte an Genauigkeit, die Opus baseline schafft, und kostet dabei rund ein Drittel. Verglichen mit Opus plus MCP fällt die Genauigkeit nur um sechs Prozentpunkte, der Preis aber auf rund ein Sechzehntel. Wer bisher beim Modell gespart oder geklotzt hat, hat damit eine neue Mitte.

Wo der Effekt am größten ist

Gemittelt über die drei Modelle und gruppiert nach den acht Benchmark-Kategorien:

- Scaffold und Fragmente: 18,0 % → 86,5 % - Ringe und Topologie: 29,4 % → 93,2 % - Bindungen und Ketten: 17,6 % → 80,9 % - Mehrfach-Bedingungen: 27,3 % → 88,4 % - Atome und Formel: 38,7 % → 98,3 % - Stereochemie: 28,7 % → 86,0 % - Elektronik und H-Brücken: 31,2 % → 81,5 %

Das sind genau die Bausteine, die in der Medizinalchemie täglich gebraucht werden. Auf einem nennenswerten Teil der Sub-Aufgaben erreicht die kostengünstigste Konfiguration sogar volle Trefferquote, was ohne Tools nicht passiert.

Was noch nicht 100 Prozent ist

Ein Teil der Modell-Antworten bleibt falsch, obwohl das Tool den richtigen Wert geliefert hat. Das Modell ignoriert oder überschreibt das Ergebnis. Ein kleinerer Teil sind Format-Probleme oder Tool-Werte, die nicht passen. Die Verteilung zeigen wir auf [covasyn.com/benchmark](/de/benchmark). Wir publizieren das, weil eine ehrliche Lücke besser ist als ein blank-poliertes Marketing-Versprechen.

Was das praktisch bedeutet

Modell-Spend ist nicht mehr automatisch das Bottleneck. Wer 0,03 USD pro Frage zahlt, kann bei vergleichbarer oder besserer Genauigkeit auf 0,008 USD pro Frage runter. Der Lift selbst ist modell-unabhängig, also überträgt sich auf das jeweils nächste Frontier-Modell.

Für regulierte Pharma- und CDMO-Workflows ist das relevant, weil sich Validierungsaufwand an reproduzierbaren Zahlen entlanghangelt. Genau die haben wir publiziert.

Wie es weitergeht

Wir haben sieben weitere CovaSyn-Module, die wir gerade auf passende Datensätze setzen. Sobald die Zahlen vorliegen, kommen sie im gleichen Format auf [covasyn.com/benchmark](/de/benchmark). Methodik, Lücken, alles.

Im Free-Tier können Sie selbst nachvollziehen, wie sich die Anbindung anfühlt: Account anlegen, API-Key generieren, an den eigenen Agenten hängen. 100 Credits pro Woche sind dabei.

Quelle

Bartmann C., Schimunek J., Ielanskyi M., Seidl P., Klambauer G., Luukkonen S. (2026). MolecularIQ: Characterizing Chemical Reasoning Capabilities Through Symbolic Verification on Molecular Graphs. ICLR 2026, arXiv:2601.15279. Code: github.com/ml-jku/moleculariq. Dataset: huggingface.co/datasets/ml-jku/moleculariq-v0.0. Daten-Snapshot: 2026-05-17.

CovaSyn MCP

Wissenschaftliche Tools in deinem AI-Workflow.

130+ Funktionen für Pharma, Biotech und Chemie. Free-Tier sofort aktiv.

21 % → 85 %: Wie CovaSyn auf dem ICLR-2026-Chemie-Benchmark abschneidet - CovaSyn