Output statt Tokens: Warum KI auf SAP an der Architektur entschieden wird

Geschrieben von Dr. Sebastian Reinhard | Jun 30, 2026 3:44:20 PM

2026 endet die Phase des Tokenmaxxing. Wie graphbasiertes Indexieren mit FinanceBuddy den Kontext pro Anfrage senkt und die Run-Cost von KI auf SAP planbar macht.

2025 war das Jahr des Tokenmaxxing: das stärkste Modell, der größte Kontext, der aggressivste Agenten-Loop, und die Kosten waren zweitrangig. Diese Phase geht 2026 zu Ende. Goldman Sachs Research erwartet, dass sich der Token-Verbrauch durch agentische KI bis 2030 um rund das 24-Fache auf etwa 120 Billiarden Tokens pro Monat erhöht (Goldman Sachs Research, 2026). Die Rechnung dafür trifft Unternehmen schon heute. Mehrere Firmen meldeten im Frühjahr, ihr KI-Budget für das gesamte Jahr 2026 bereits im April um das Dreifache überschritten zu haben; die FinOps Foundation beschreibt, wie sich die Diskussion binnen weniger Monate von „schneller, koste es, was es wolle" zu „wir brauchen Leitplanken" verschoben hat (TechCrunch, 2026).

Der Reflex, auf ein effizienteres oder günstigeres Modell zu warten, löst das Problem nicht. Die Preise pro Token fallen seit Jahren, die Gesamtrechnungen steigen trotzdem, weil der Verbrauch schneller wächst als der Preis sinkt (Deloitte, 2026). In einem von Deloitte dokumentierten Fall führte ein Verbrauchswachstum von acht bis zehn Prozent pro Monat, rund eine Billion Tokens über sechs Monate, zu über sechs Millionen US-Dollar an ungeplanten jährlichen Mehrkosten, bevor das Finanzteam die Ursache überhaupt sah (Deloitte, 2026).

Damit verschiebt sich der Maßstab. Die entscheidende Kennzahl ist der nützliche Output pro Token, und den bestimmt die Architektur um das Modell herum: wie ein System sein Wissen speichert, abruft und in den Kontext gibt. Ein stärkeres Modell allein verschiebt lediglich den Preis pro Token. Genau hier setzt unser Ansatz für SAP an. FinanceBuddy nutzt Graph RAG (Edge et al., 2024) (mehr dazu später), um pro Anfrage nur den relevanten Ausschnitt des technischen und fachlichen Wissens in den Kontext zu geben, ohne das System bei jedem Aufruf neu zu beschreiben. Dadurch lassen sich bei geringeren Kosten bessere Ergebnisse erzielen.

Wie die Kosten entstehen

Den Ausschlag gibt, wie viele Tokens ein einzelner Aufruf verbraucht. Die Rechnung für einen einzelnen Aufruf wird von der Größe des mitgeschickten Kontexts bestimmt. Jeder Token, den Sie in das Modell geben, also Systembeschreibung, abgerufene Dokumente, Beispiele und die eigentliche Frage, wird bei jedem Aufruf erneut verarbeitet und erneut berechnet. Die Kosten pro Antwort wachsen damit in der Größenordnung des Eingabe-Kontexts, nicht mit der Schwierigkeit der Frage.

Key-Value-Caching mildert das, allerdings nur teilweise und nur unter Bedingungen. Beim Prompt-Caching werden die bereits berechneten Attention-Tensoren eines stabilen Präfixes zwischengespeichert, sodass identische Eingabeanteile nicht erneut durch das Modell laufen. Ein Cache-Treffer kostet bei Anthropic rund zehn Prozent des regulären Eingabepreises (Anthropic, 2026). Die Einschränkung steckt in der Bedingung: Der Cache greift nur für den Teil des Kontexts, der über mehrere Aufrufe hinweg unverändert bleibt. Inhalte, die sich pro Anfrage ändern, etwa der zur jeweiligen Frage abgerufene Systemkontext, werden bei jedem Aufruf voll berechnet.

Daraus folgt ein einfacher Zusammenhang: Wer die Kosten eines KI-Assistenten strukturell senken will, hat einen verlässlichen Hebel, nämlich weniger Kontext pro Aufruf. Hinzu kommt ein zweiter, oft übersehener Effekt. Mehr Kontext verbessert die Qualität nicht zwangsläufig; eine vielzitierte Untersuchung zeigt, dass Sprachmodelle relevante Informationen schlechter nutzen, wenn diese in der Mitte langer Eingaben stehen, und die Antwortqualität messbar sinkt, selbst bei Modellen mit großem Kontextfenster (Liu et al., 2024). Ein aufgeblähter Kontext kostet also doppelt: an Tokens und an Präzision.

Warum gerade SAP teuer wird

Im SAP-Umfeld trifft dieser Mechanismus auf besonders ungünstige Voraussetzungen. Ein gewachsenes BW- oder S/4-System beschreibt sich über tausende Objekte: CompositeProvider, Query-Strukturen, InfoObjects, Stammdaten. Diese Definitionen liegen als umfangreiches XML vor.

Ein Beispiel aus dem Controlling. Karolin ist Controllerin bei der Famosa Gruppe, einem Online-Kleidungshändler, und bereitet das monatliche Margenreview vor. Sie fragt: „Wie hat sich die Retourenquote der Herbstkollektion im DACH-Shop auf den Deckungsbeitrag im dritten Quartal ausgewirkt?" Die Frage selbst sind wenige Tokens. Damit ein Sprachmodell sie beantworten kann, muss es die Datenbasis hinter Famosas Vertriebs- und Retourenzahlen kennen. Ein naiver Ansatz, etwa ein generischer MCP-Server oder eine reine Vektor-Suche, schreibt dafür in den Kontext:

das XML mehrerer CompositeProvider, die der Frage ähneln, je nach Trefferliste der Ähnlichkeitssuche;
die Definitionen der enthaltenen InfoObjects, etwa Kollektion, Artikel, Vertriebskanal und Periode, mit technischen Namen, Bezeichnungen, Attributen und Hierarchien;
die Struktur der zugehörigen Query mit Zeilen, Spalten, Filtern und Formeln;
bei einem generischen MCP-Server zusätzlich die Metadaten sämtlicher bereitgestellter Tools.

Ein einzelner CompositeProvider bringt dabei schnell mehrere tausend Tokens an XML mit. Über mehrere Ähnlichkeitstreffer plus InfoObject- und Query-Definitionen erreicht der Eingabe-Kontext für eine einzige Frage leicht die Größenordnung von zehntausenden Tokens, der Großteil davon Struktur, nach der niemand gefragt hat. Der Kontext skaliert damit mit der Größe des Systems, und weil sich der relevante Ausschnitt pro Frage ändert, läuft das Caching weitgehend ins Leere.

Was FinanceBuddy anders macht

FinanceBuddy setzt an diesem Punkt an. Die Anwendung läuft auf der SAP Business Technology Platform (Cloud Foundry) und verbindet SAP-Systeme, on-premise wie cloud, über SAP AI Core mit einem Sprachmodell. Statt Strukturdefinitionen bei jeder Anfrage neu mitzuschicken, indexiert FinanceBuddy das System einmal vorab. Dabei werden die XML-Definitionen zu kompaktem, semantischem Text reduziert, und die Objekte werden zusammen mit bestehender Dokumentation in einem Graphen verknüpft.

Der Unterschied zur üblichen Vektor-Suche liegt in der Art der Verknüpfung. Eine Vektor-Suche findet Objekte über semantische Ähnlichkeit, also darüber, welcher Text der Anfrage am ähnlichsten klingt. Der Graph bildet die strukturellen Beziehungen ab: welche InfoObjects in einem CompositeProvider stecken, welche Query auf welcher Struktur aufsetzt, welches Objekt an welches angrenzt. Für eine Anfrage lädt FinanceBuddy gezielt den relevanten Teilgraphen aus den benachbarten Objekten, also einen kleinen, präzisen Ausschnitt des Systems. Das Ergebnis ist ein kompakter Kontext aus genau den Objekten, die zur Frage gehören.

Der Effekt auf die Token-Bilanz ist erheblich. Der Kontext enthält dann nur einen kompakten Ausschnitt aus vorab indexiertem, semantischem Wissen, ohne seitenweise Tabellendefinitionen und ohne XML. Je nach Ausgangslage und Zuschnitt eines vergleichbaren MCP-Setups reduziert sich die pro Anfrage übertragene Token-Menge um bis zu 90 Prozent. Der präzis reduzierte Kontext bedeutet hier zugleich geringere Kosten und, nach dem oben beschriebenen Effekt, präzisere Antworten.

Was das für die Steuerungsebene bedeutet

Für die Steuerungsebene zählt am Ende der Maßstab dahinter: der nützliche Output je Token. Ein indexiertes, graphbasiertes Fundament macht aus einem unkontrollierten, mit der Systemgröße skalierenden Kostenposten eine planbare Größe. FinanceBuddy bleibt dabei nativ im SAP-Stack: gehostet auf der BTP, angebunden über SAP AI Core und den SAP Cloud Connector, sodass die Anbindung an die Systeme innerhalb Ihres SAP-Berechtigungs- und Governance-Rahmens bleibt.

Wenn Sie KI auf Ihrem SAP-System einsetzen oder evaluieren, lohnt sich der Blick auf die Token-Ökonomie, bevor das erste Pilotprojekt in Produktion geht. Wir bei CALEO Consulting zeigen Ihnen gern an Ihrem eigenen System, wo Ihr Kontext entsteht und wie viel davon sich einsparen lässt.

Referenzen

Anthropic (2026). Pricing. Claude API Documentation. https://platform.claude.com/docs/en/about-claude/pricing

Deloitte (2026). Navigate the economics of AI: How tokenomics is reshaping AI costs and ROI. Deloitte Insights, Januar 2026.

Edge, D., Trinh, H., Cheng, N., Bradley, J., Chao, A., Mody, A., Truitt, S., & Larson, J. (2024). From Local to Global: A Graph RAG Approach to Query-Focused Summarization. arXiv:2404.16130.

Goldman Sachs Research (2026). AI Agents Forecast to Boost Tech Cash Flow as Usage Soars. Goldman Sachs, Mai 2026.

Liu, N. F., Lin, K., Hewitt, J., Paranjape, A., Bevilacqua, M., Petroni, F., & Liang, P. (2024). Lost in the Middle: How Language Models Use Long Contexts. Transactions of the Association for Computational Linguistics, 12, 157–173.

TechCrunch (2026). The token bill comes due: Inside the industry scramble to manage AI's runaway costs. TechCrunch, 5. Juni 2026.

Vollständigen Beitrag anzeigen