Explainer6 Min. Lesezeit22. Mai 2026

Warum LLMs an Chemie scheitern, und was der Tokenizer damit zu tun hat

LLMs scheitern schon am Ring-Zählen. Der Grund liegt nicht im fehlenden Chemiewissen, sondern im Tokenizer: SMILES zerfällt in zusammenhanglose Fragmente, der Molekülgraph geht verloren. Was die Forschung zeigt, und wie validierte Werkzeuge das Problem lösen.

Oliver Kraft

CovaSyn

Warum LLMs an Chemie scheitern, und was der Tokenizer damit zu tun hat

Das Wichtigste in Kürze

Moderne LLMs scheitern an erstaunlich einfachen Chemie-Aufgaben, schon am Zählen von Ringen in einer Struktur.
Die Ursache ist nicht fehlendes "Chemiewissen", sondern der Tokenizer: SMILES-Strings zerfallen in zusammenhanglose Token-Fragmente, sodass der zugrunde liegende Molekülgraph verloren geht.
Das ist in der Fachliteratur belegt (KAIST 2025, Nature Sci. Reports 2024) und nicht durch ein größeres Modell allein lösbar.
Der zuverlässige Ausweg: das Rechnen an validierte, deterministische Werkzeuge auslagern, die das LLM bei Bedarf aufruft, der in Nature dokumentierte Tool-Augmentation-Ansatz.

Ein einfacher Test, an dem fast jedes LLM scheitert

Gib einem aktuellen Sprachmodell die SMILES-Notation eines Moleküls und frage: "Wie viele Ringe hat diese Struktur?" Die Antwort klingt souverän, und ist überraschend oft falsch. Dasselbe gilt für das Zählen von Stereozentren, das Identifizieren von verbrückten Ringsystemen oder das Zerlegen eines Grundgerüsts.

Das ist kein Einzelfall und kein Prompt-Problem. Aktuelle LLMs haben Schwierigkeiten, SMILES zu interpretieren, und scheitern sogar an grundlegenden Aufgaben wie dem Zählen von Ringen. Eine Arbeitsgruppe am KAIST hat das 2025 systematisch nachgewiesen und damit bestätigt, was unser eigener Chemie-Benchmark zeigt: Frontier-Modelle erreichen ohne Werkzeuge oft nur 14 bis 41 Prozent auf symbolisch verifizierbaren Chemie-Aufgaben.

Die spannende Frage ist nicht dass sie scheitern, sondern warum.

Der eigentliche Grund: der Tokenizer

Ein LLM sieht ein Molekül nie als Molekül. Es sieht einen Text-String, und bevor das Modell überhaupt rechnet, zerlegt ein Tokenizer diesen String in Fragmente. Genau hier geht die Chemie verloren.

SMILES kodiert eine Struktur über eine kompakte, aber syntaktisch dichte Grammatik: Klammern markieren Verzweigungen, Ziffern markieren Ringschlüsse, und zusammengehörige Atome stehen oft nicht nebeneinander im String. Die SMILES-Grammatik nutzt spezielle Konventionen für Ringe und Verzweigungen, die häufig nicht-zusammenhängende Tokens für verbundene Substrukturen verwenden. Ein Ring wird im Text durch zwei gleiche Ziffern an völlig verschiedenen Stellen geschlossen, für den Tokenizer sind das zwei unabhängige Zeichen ohne erkennbaren Bezug.

Die Folge: Dieser strukturelle Engpass hindert LLMs daran, die zugrunde liegende Molekülgraph-Struktur vollständig zu erfassen. Das Modell "liest" eine Zeichenkette, aus der die Topologie des Moleküls, welches Atom mit welchem verbunden ist, gar nicht direkt hervorgeht. Es müsste sie aus dem String rekonstruieren, und genau das gelingt unzuverlässig.

Erschwerend kommt hinzu, dass die Tokenisierung selbst uneindeutig ist: SMILES-Strings beruhen auf einer präzisen Sequenz von Atomen und Bindungen, und unterschiedliche Tokenisierungs-Verfahren führen zu deutlichen Unterschieden darin, wie Moleküle geparst und repräsentiert werden. Dasselbe Molekül, anders geschrieben, kann zu anderen Tokens und damit zu anderen Antworten führen.

Warum "ein größeres Modell" das nicht löst

Die naheliegende Hoffnung, das nächste, größere Frontier-Modell wird es schon richten, greift hier zu kurz. Das Problem ist nicht die Menge an Parametern oder Trainingsdaten, sondern die Repräsentation. Solange ein Molekül als Token-Sequenz statt als Graph ankommt, ringt selbst das fähigste Modell mit einer Aufgabe, die für einen deterministischen Algorithmus trivial ist.

Ein Ring lässt sich exakt zählen. Eine Molmasse lässt sich exakt berechnen. Ein Stereozentrum lässt sich exakt bestimmen. Das sind keine Aufgaben, die ein probabilistischer Text-Generator schätzen sollte, es sind Aufgaben mit einer korrekten Antwort, die ein Fachwerkzeug in Millisekunden liefert. Genau deshalb scheitert das Schätzen, egal wie gut das Modell sprachlich ist.

Wie wir es bei CovaSyn lösen: das Rechnen auslagern

Die Antwort der Forschung auf dieses Problem ist nicht "besser raten lassen", sondern "nicht mehr raten lassen". Der etablierte Weg heißt Tool-Augmentation: Das LLM behält, was es gut kann, Sprache verstehen, Absichten erkennen, Ergebnisse einordnen, und delegiert die exakte Berechnung an spezialisierte, deterministische Werkzeuge.

Dass das funktioniert, ist gut dokumentiert. ChemCrow, in Nature Machine Intelligence veröffentlicht, zeigt es exemplarisch: LLMs zeigen starke Leistung über viele Domänen hinweg, haben aber mit chemiebezogenen Problemen zu kämpfen und keinen Zugang zu externen Wissensquellen; durch die Integration von 18 Experten-Werkzeugen erweitert ChemCrow die Chemie-Leistung des LLM. Viele dieser Werkzeuge stützen sich auf etablierte Bibliotheken wie RDKit, die chemische Strukturen korrekt als Graph verarbeiten, nicht als Text.

Der allgemeinere Befund gilt weit über die Chemie hinaus: Die Integration symbolischen Schließens mit LLMs wurde untersucht, um ihre Fähigkeit bei arithmetischen und anderen Rechenaufgaben zu verbessern, bei denen deterministische Lösungen entscheidend sind. Wo eine Aufgabe eine exakte Antwort hat, gehört sie an ein Werkzeug, nicht an den Sprach-Generator.

Genau das ist die Idee hinter CovaSyn. Wir bauen die deterministische Chemie-Schicht, Strukturanalyse, Löslichkeit, Toxikologie, Stabilität, Analytik, als validierte Werkzeuge, die ein AI-Agent über das Model Context Protocol (MCP) aufruft. Das Molekül wird dort verarbeitet, wo es als Graph behandelt wird; das LLM bekommt einen verifizierten Wert zurück und muss ihn nur noch korrekt kommunizieren. Die Fähigkeit, Chemie zu rechnen, ist damit in Systeme ausgelagert, die explizit dafür gemacht sind, und das LLM greift bei Bedarf darauf zu.

Was das in Zahlen bedeutet, haben wir an unabhängigen Daten gemessen: Mit CovaSyn-Anbindung springen dieselben Frontier-Modelle von 14 bis 41 Prozent auf 76 bis 92 Prozent korrekte Antworten. Nicht, weil die Modelle besser geworden sind, sondern weil sie aufgehört haben zu raten.

Wie groß der Effekt für ein günstiges Modell ausfällt, haben wir am Beispiel Gemini 3.5 Flash im Detail aufgeschlüsselt; wie eine deterministische Schicht eine konkrete Eigenschaft löst, zeigt der CovaSolv-Löslichkeits-Post.

Das Fazit

LLMs sind hervorragende Sprach- und Reasoning-Maschinen, aber Moleküle sind keine Sprache, sie sind Graphen. Der Tokenizer ist die Stelle, an der diese Diskrepanz zur Fehlerquelle wird. Ein größeres Modell verschiebt die Grenze nur; ein validiertes Werkzeug verschiebt sie nicht, es entfernt sie. Wer AI-Agenten verlässlich in Pharma- und Chemie-R&D einsetzen will, braucht beides: das sprachliche Können des Modells und die deterministische Verlässlichkeit der Werkzeuge darunter.

Im Free-Tier kannst du das selbst ausprobieren, Account anlegen, API-Key generieren, an deinen Agenten hängen. 100 Credits pro Woche. → CovaSyn MCP ansehen

Häufige Fragen

Warum kann ChatGPT keine Atome oder Ringe zählen?

Weil das Modell ein Molekül als Text-String (SMILES) sieht, den ein Tokenizer in zusammenhanglose Fragmente zerlegt. Die Graph-Struktur des Moleküls geht dabei verloren, sodass das Modell das Ergebnis schätzen statt berechnen muss.

Verstehen LLMs SMILES?

Nur eingeschränkt. Studien (u. a. KAIST 2025) zeigen, dass aktuelle LLMs schon an grundlegenden SMILES-Parsing-Aufgaben wie dem Ring-Zählen scheitern, weil SMILES nicht-zusammenhängende Tokens für verbundene Substrukturen verwendet.

Löst ein größeres Modell das Chemie-Problem?

Nicht zuverlässig. Das Problem liegt in der Repräsentation (Text statt Graph), nicht in der Modellgröße. Exakte Aufgaben mit einer korrekten Antwort gehören an ein deterministisches Werkzeug.

Wie macht man ein LLM gut in Chemie?

Durch Tool-Augmentation: Das LLM ruft validierte, deterministische Chemie-Werkzeuge (z. B. RDKit-basiert) auf, die Strukturen als Graph verarbeiten. Genau das leistet CovaSyn über das Model Context Protocol.

Quellen

Jang Y., Kim J., Ahn S. (2025). Improving Chemical Understanding of LLMs via SMILES Parsing. arXiv:2505.16340.
Vergleich der SMILES- vs. SELFIES-Tokenisierung: Scientific Reports 14 (2024), s41598-024-76440-8.
M. Bran A. et al. (2024). Augmenting large language models with chemistry tools (ChemCrow). Nature Machine Intelligence.
McNaughton et al. CACTUS: Chemistry Agent Connecting Tool Usage to Science.
Integrating External Tools with LLMs to Improve Accuracy. arXiv:2507.08034 (2025).

CovaSyn MCP

Wissenschaftliche Tools in deinem AI-Workflow.

130+ Funktionen für Pharma, Biotech und Chemie. Free-Tier sofort aktiv.

CovaSyn MCP ansehen →