Benchmark9 Min. Lesezeit18. Mai 2026

14 % → 92 %: Wie CovaSyn auf dem ICLR-2026-Chemie-Benchmark abschneidet

Klambauers Lab (JKU Linz) hat für ICLR 2026 einen Molekularreasoning-Benchmark gebaut, der echte Chemie statt LLM-Richter testet. Vier Frontier-LLMs erreichen darauf 14 bis 41 Prozent. Mit CovaSyn-MCP-Anbindung springen die gleichen Modelle auf 76 bis 92 Prozent, drei davon über 85. Vier Modelle, 12.540 Antworten, komplette Zahlen inklusive Lücken.

Oliver Kraft

CovaSyn

Was uns interessiert hat

Wir wollten wissen, wie weit ein moderner Frontier-LLM in der Chemie wirklich kommt, wenn er alleine arbeitet, und wieviel sich davon mit einer passenden MCP-Anbindung ändert. Atome zählen, Ringe identifizieren, Stereozentren bestimmen, Scaffolds extrahieren: das sind Aufgaben, an denen sich gut zeigt, ob ein Modell rechnet oder rät.

Statt einen eigenen Benchmark zu bauen, haben wir uns einen unabhängigen genommen.

Der Benchmark

MolecularIQ stammt aus dem Institut für Machine Learning der JKU Linz und wurde 2026 auf der ICLR angenommen (Bartmann, Schimunek, Ielanskyi, Seidl, Klambauer, Luukkonen; arXiv:2601.15279). Das Dataset umfasst 13.170 Fragen in acht Splits. Wir haben den Test-Split mit 3.540 Aufgaben verwendet, eingegrenzt auf die Frage-Typen, die symbolisch verifizierbar sind. Bewertung läuft ohne LLM-Richter: nur volle Übereinstimmung mit der Ground Truth ergibt einen Treffer.

Die Zahlen

Vier Frontier-Modelle, jeweils mit und ohne CovaSyn-MCP-Anbindung:

| Modell | Baseline | + CovaSyn MCP | Lift | |--------------------|----------|---------------|-------| | Claude Haiku 4.5 | 21,18 % | 85,38 % | 4,03× | | Claude Opus 4.7 | 40,75 % | 91,51 % | 2,25× | | OpenAI GPT-5.5 | 22,29 % | 89,92 % | 4,03× | | Gemini 3.5 Flash | 13,68 % | 75,66 % | 5,53× |

Vier Modelle, drei Anbieter, gleiche Richtung. Drei der vier Konfigurationen landen bei 85 bis 92 Prozent, das günstigste Modell (Gemini 3.5 Flash) bei 76 Prozent, trotzdem ein 5,5-facher Lift gegenüber seiner eigenen Baseline. Über alle vier zusammen ergibt das einen Sprung von 14 bis 41 Prozent auf 76 bis 92 Prozent. Gemini 3.5 Flash startet am niedrigsten und macht den absolut größten Sprung, weil das günstigste Modell am stärksten von der strukturellen Verifikation profitiert.

Was das in Kosten heißt

Kosten pro Frage, gleicher Snapshot:

Opus 4.7 ohne MCP: 40,75 % bei 0,02529 USD pro Frage
Opus 4.7 mit MCP: 91,51 % bei 0,12536 USD pro Frage
Haiku 4.5 mit MCP: 85,38 % bei 0,00781 USD pro Frage
Gemini 3.5 Flash mit MCP: 75,66 % bei 0,02170 USD pro Frage (Baseline: 0,00940 USD)

Die spannende Zeile ist Haiku. Haiku-Plus-MCP liefert mehr als das Doppelte an Genauigkeit der Opus baseline bei rund einem Drittel der Kosten. Verglichen mit Opus plus MCP fallen die Kosten auf rund ein Sechzehntel, die Genauigkeit nur um sechs Prozentpunkte. Gemini-Plus-MCP ist mit 5,53× der größte relative Lift und schlägt Opus baseline um über 30 Prozentpunkte bei rund 86 % der Opus-Baseline-Kosten, die richtige Option für Teams, die Gemini bereits einsetzen.

Wo der Effekt am größten ist

Gemittelt über die vier Modelle und gruppiert nach den acht Benchmark-Kategorien:

Scaffold und Fragmente: 15,5 % → 83,9 %
Ringe und Topologie: 26,7 % → 89,3 %
Bindungen und Ketten: 16,1 % → 77,4 %
Mehrfach-Bedingungen: 24,7 % → 84,5 %
Atome und Formel: 35,5 % → 94,3 %
Stereochemie: 27,1 % → 80,5 %
Elektronik und H-Brücken: 28,4 % → 76,3 %

Das sind genau die Bausteine, die in der Medizinalchemie täglich gebraucht werden. Auf einem nennenswerten Teil der Sub-Aufgaben erreicht die kostengünstigste Konfiguration sogar volle Trefferquote, was ohne Tools nicht passiert.

Was noch nicht 100 Prozent ist

Ein Teil der Modell-Antworten bleibt falsch, obwohl das Tool den richtigen Wert geliefert hat. Das Modell ignoriert oder überschreibt das Ergebnis. Ein kleinerer Teil sind Format-Probleme oder Tool-Werte, die nicht passen. Die Verteilung zeigen wir auf covasyn.com/benchmark. Wir publizieren das, weil eine ehrliche Lücke besser ist als ein blank-poliertes Marketing-Versprechen.

Was das praktisch bedeutet

Modell-Spend ist nicht mehr automatisch das Bottleneck. Wer 0,03 USD pro Frage zahlt, kann bei vergleichbarer oder besserer Genauigkeit auf 0,008 USD pro Frage runter. Der Lift selbst ist modell-unabhängig, also überträgt sich auf das jeweils nächste Frontier-Modell.

Für regulierte Pharma- und CDMO-Workflows ist das relevant, weil sich Validierungsaufwand an reproduzierbaren Zahlen entlanghangelt. Genau die haben wir publiziert.

Wie es weitergeht

Wir haben sieben weitere CovaSyn-Module, die wir gerade auf passende Datensätze setzen. Sobald die Zahlen vorliegen, kommen sie im gleichen Format auf covasyn.com/benchmark. Methodik, Lücken, alles.

Im Free-Tier kannst du selbst nachvollziehen, wie sich die Anbindung anfühlt: Account anlegen, API-Key generieren, an den eigenen Agenten hängen. 100 Credits pro Woche sind dabei.

Quelle

Bartmann C., Schimunek J., Ielanskyi M., Seidl P., Klambauer G., Luukkonen S. (2026). MolecularIQ: Characterizing Chemical Reasoning Capabilities Through Symbolic Verification on Molecular Graphs. ICLR 2026, arXiv:2601.15279. Code: github.com/ml-jku/moleculariq. Dataset: huggingface.co/datasets/ml-jku/moleculariq-v0.0. Daten-Snapshot: 2026-05-17.

CovaSyn MCP

Wissenschaftliche Tools in deinem AI-Workflow.

130+ Funktionen für Pharma, Biotech und Chemie. Free-Tier sofort aktiv.

CovaSyn MCP ansehen →