Autor: Xiaojing
In Silicon Valley ist ein neues Wort im Trend: Tokenmaxxing (maximale Token-Nutzung).
In Meta und OpenAI beginnen die Ingenieure, im AI-Nutzungs-Ranking um die Vorherrschaft zu konkurrieren. Laut Medienberichten hat sogar ein Ingenieur in einer Woche 210 Milliarden Token verbraucht, was dem Textvolumen von 33 Wikipedia-Artikeln entspricht. Manche haben monatliche AI-Rechnungen in Höhe von bis zu 150.000 US-Dollar.
Ein Ericsson-Ingenieur in Stockholm gibt mehr Geld für Claude aus als sein Gehalt, aber die Rechnung übernimmt das Unternehmen. Das Token-Budget wird zu einem neuen Arbeitsbenefit für Ingenieure – ähnlich wie früher kostenlose Snacks oder Mittagessen.
Der Shopify-CEO Tobi Lütke veröffentlichte bereits im April 2025 eine interne Mitteilung, in der er ankündigte, „AI-Nutzung ist die Grundvoraussetzung bei Shopify“, und forderte alle Teams auf, vor der Einstellung neuer Mitarbeiter nachzuweisen, dass AI die Arbeit nicht erledigen kann. Die AI-Nutzung wurde in die Leistungsbeurteilung integriert. Meta kündigte später an, ab 2026 die „AI-getriebene Wirkung“ offiziell in die Leistungsbeurteilung aller Mitarbeiter aufzunehmen.
Wenn Token-Verbrauch in KPIs auftaucht, ist es zu einem Signal für das Organisationsverhalten geworden.
Gleichzeitig sind auch auf Branchenebene viele Signale zu verzeichnen. Am 16. März bezeichnete Jensen Huang auf der Nvidia GTC-Konferenz Token als „Grundstein des AI-Zeitalters“ und sagte, es werde zu „der wertvollsten Rohware“. Am nächsten Tag kündigte Alibaba die Gründung der Alibaba Token Hub Business Group an, direkt unter der Leitung von CEO Wu Yongming, mit dem Ziel „Token schaffen, Token übertragen, Token anwenden“.
Bild: Jensen Huang zeigt auf der GTC-Präsentation eine Grafik zum Zusammenhang zwischen Token-Kosten und -Einnahmen, bei der Rechenzentren in kostenlose, mittlere, Premium- und High-End-Schichten unterteilt sind, um Rechenleistung zu verteilen. Außerdem wird eine Prognose gezeigt, dass Vera Rubin-Chips im Vergleich zu Grace Blackwell eine fünfmal höhere Einnahme generieren.
Vor einem Jahr waren Token nur eine technische Maßeinheit, die Entwickler interessierte. Heute ist es die Sprache, mit der Halbleiterfirmen den Produktwert definieren, der Grund, warum Tech-Giganten ihre Geschäftsbereiche umstrukturieren, und es ist eine neue Benefit-Formel sowie ein Kern-KPI für Ingenieure.
Doch die Tokenmaxxing-Rangliste erfasst nur den Verbrauch, nicht aber, wie viel effektive Arbeit damit erledigt wurde.
Genau hier liegt die größte Lücke im heutigen Token-Ökosystem.
210 Milliarden Token klingt nach einer erstaunlichen Zahl. Doch um ihre tatsächliche Bedeutung zu verstehen, muss man eine Annahme aufgeben: Token sind Standardware.
Bild: Tokscale, eine Open-Source-Tracking- und Ranglisten-Tool für Token-Nutzung, unterstützt Plattformen wie Claude Code, Cursor, OpenCode, Codex. Nutzer können Daten einreichen, um an globalen Rankings teilzunehmen.
Vor zwei Jahren war die Preisgestaltung für große Modelle noch relativ einfach, meist nur Eingabe- und Ausgabe-Token. Heute sind die Preise der führenden Anbieter deutlich gestaffelt. Gleiches „Token“ kann je nach Nutzungskontext völlig unterschiedliche Kosten verursachen.
Beispiel Anthropic: Der Standardpreis für Claude Opus 4.6 liegt bei 5 USD pro Million Eingabe-Token, 25 USD pro Million Ausgabe-Token. Mit Prompt Caching kostet eine 5-Minuten-Cache-Schreiboperation 6,25 USD, eine 1-Stunden-Cache-Schreiboperation 10 USD, Cache-Lesezugriffe 0,50 USD. Bei Batch-API sinken Eingabe- und Ausgabe-Preise jeweils um 50 %. Wenn nur in den USA inferiert wird, steigen die Token-Preise um 10 %. Im Fast Mode verdoppeln sich die Preise für Eingabe und Ausgabe auf das Sechsfache.
Das bedeutet: Selbst bei demselben Anbieter, demselben Modell und demselben Begriff „Token“ variieren die Kosten je nach Cache, Batch, Region und Geschwindigkeit um das Mehrfache oder Zehnfache.
Die tatsächlichen Kosten werden längst nicht mehr nur durch die Modellaufrufe bestimmt. OpenAI zeigt in seiner Preisliste, dass Web-Suche nach Modelltyp abgerechnet wird: Für GPT-4.1, GPT-4o kostet die Websuche 10 USD pro 1000 Anfragen, für GPT-5 und andere reasoning-Modelle 25 USD.
File Search kostet 2,50 USD pro 1000 Anfragen, plus 0,10 USD pro GB pro Tag für Vektor-Speicherung, die ersten 1 GB sind kostenlos. Auch Code-Container werden separat berechnet: 0,03 USD pro GB, größere Container (4GB, 16GB, 64GB) kosten entsprechend mehr. Ab 31. März 2026 wird diese Abrechnung auf eine Session- und Container-basierte Abrechnung umgestellt, alle 20 Minuten.
Außerhalb der Modelle sind Such-, Retrieval-, Storage- und Execution-Umgebungen, die früher als „Nebenfähigkeiten“ galten, heute eigenständige Kostenstellen.
Google folgt diesem Trend: Ab 11. Februar 2026 werden Code Execution, Sessions und Memory Bank im Vertex AI offiziell separat berechnet, nach vCPU- und GiB-Memory-Stunden.
Heute kann man bei „großen Modellen“ nicht mehr nur auf die Preise für Eingabe- und Ausgabe-Token schauen. Es hat sich die Abrechnungslogik verändert: Anbieter verkaufen heute eine komplette, laufende, speicherbare, durchsuchbare, aufrufbare und dauerhaft ausführbare AI-Grundlage.
Bild: Screenshot der OpenAI-Preisseite, mit mehrstufigen Kostenstrukturen (Web Search, File Search, Container etc.).
Wenn man nur die API-Preise betrachtet, sind Token tatsächlich fast schon billig. Anthropic’s Opus ist von 15 USD auf 5 USD pro Million Token gefallen – ein Rückgang um zwei Drittel. DeepSeek V3.2 kostet nur noch 0,28 USD. Google Gemini 2.5 Flash Lite liegt bei etwa 0,10 USD.
Chinesische Modelle haben noch deutliche Preisvorteile: Laut OpenRouter liegt der Token-Preis chinesischer Modelle bei etwa einem Sechstel bis Zehntel des ausländischer Konkurrenz. Selbst nach einer Preiserhöhung um über 460 % bei Tencent Cloud Mix Yuan HY2.0 Instruct, liegt der Preis bei etwa 0,62 USD pro Million Token – immer noch deutlich günstiger als Anthropic’s günstigstes Haiku 4.5 (1 USD) und weniger als ein Fünftel von Sonnet 4.6.
Bild: Artificial Analysis führt eine Echtzeit-Liste der LLM-Modelle, die Preisunterschiede zwischen den Modellen sind enorm.
Doch die Gesamtkosten für AI-Nutzung steigen nicht entsprechend. Drei Mechanismen wirken gleichzeitig:
Erstens: Die Modelle werden intelligenter, aber auch „wortreicher“. Laut Artificial Analysis verbrauchen reasoning-Modelle im Durchschnitt etwa 5,5-mal mehr Output-Token als Nicht-Reasoning-Modelle. Sowohl Anthropic als auch OpenAI berechnen extended thinking Tokens nach Output-Token. Je tiefer das Denken, desto länger die Rechnung. Der Preis pro Token sinkt, aber die Gesamtzahl der verwendeten Token für eine Aufgabe steigt um mehrere Male.
Zweitens: Agenten verwandeln Token vom „einmaligen Verbrauch“ in „dauerhaften Verbrauch“. Das ist die tiefere Triebkraft hinter Tokenmaxxing: Ingenieure „spammen“ nicht manuell, sondern lassen ihre AI-Programme rund um die Uhr laufen, Aufgaben aufteilen, Tools aufrufen, sich selbst iterieren. Laut Alibaba Cloud verbraucht ein einzelner Agent 100- bis 1000-mal mehr Rechenleistung als ein herkömmlicher Chatbot. Die tägliche Token-Nutzung Chinas stieg 2025 auf über 30 Billionen, im Februar 2026 auf 180 Billionen.
Drittens: Die Grundkosten für die Token-Produktion steigen. Am 18. März 2026 kündigten Alibaba Cloud und Baidu Cloud Preiserhöhungen für AI-Rechenleistung und Storage an, bis zu 34 %. AWS erhöhte im Januar die Preise für Machine Learning-Instanzen um ca. 15 %, Google Cloud kündigte im Mai eine Erhöhung der Infrastrukturkosten an.
Ein Branchenexperte sagt: „Diese Preisanpassungen im Cloud-Markt sind vor allem durch Angebot und Nachfrage getrieben, durch die Kosten. Die zukünftigen Preise werden vor allem durch die Entwicklung in der Lieferkette bestimmt.“
GPU, paralleler Speicher, Hochgeschwindigkeitsnetzwerke, Rechenzentrumsstrom – die Preise für Modelle sinken, aber alles, was für die Token-Produktion notwendig ist, steigt. Als Anthropic Opus 4.6 veröffentlichte, betonte man ausdrücklich: „Der Preis bleibt stabil.“ Das bedeutet: Die stärkere Leistung wird vom Anbieter selbst getragen.
Kurz gesagt: Das Modell ist der Motor, aber die Kraftstoff-, Park- und Mautkosten steigen.
Diese drei Mechanismen führen dazu, dass die offiziellen Token-Preise und die tatsächlichen Kosten für Aufgaben immer weiter auseinanderklaffen.
Zurück zu Tokenmaxxing. Die Rangliste zeigt nur den Verbrauch, nicht aber die Qualität der Ergebnisse. Ein Ingenieur, der in einer Woche 33 Wikipedia-Artikel verbraucht, hat nicht zwangsläufig 33 Wikipedia-Äquivalente an Arbeit geleistet.
Große Unternehmen setzen Token-Verbrauch in KPIs, oder als Benefit – doch ist das wirklich eine Produktivitätssteigerung, oder nur eine „Produktivitäts-Show“?
Hier liegt der Kern des strukturellen Problems der Token-Ökonomie: Es gibt noch keine effektive Messung, die den Token-Verbrauch mit der tatsächlichen Aufgaben-Erfüllung verbindet. Token messen Input, nicht Output. Ein Agent, der 1 Million Token für eine Aufgabe verbraucht, ist im Ranking besser als einer, der nur 100.000 Token braucht – obwohl beide dasselbe Ergebnis liefern.
Shopify-CEO Lütke erwähnte in seinem Memo, dass einige Kollegen „10-fach höhere Erträge“ erzielen, was vorher für unmöglich gehalten wurde. Er nannte aber keine konkreten Messgrößen.
Eine neue berufliche Angst entsteht: Ohne hohen Token-Verbrauch gilt man als rückständig. Diese Angst ist identisch mit der Logik der frühen 2000er, als Unternehmen Websites bauten, oder in den 2010ern, als Marken Apps brauchten: Technologischer Einsatz wird zum Signal, Verbrauch zum Proxy-Indikator, echter Wert wird verschoben.
Doch diesmal ist der Preis real: 150.000 USD monatliche AI-Rechnung, 210 Milliarden Token in einer Woche, ständig steigende Grundkosten für Rechenleistung und Storage. Tokenmaxxing ist nicht kostenlos. Wenn die Kosten hoch sind, wird der Unterschied zwischen „Token verbrennen“ und „Token für Wertschöpfung nutzen“ vom philosophischen zum finanziellen Problem.
Der Token-Preis wird weiter sinken – daran besteht kein Zweifel.
Die eigentliche Sorge ist: Wer schafft es am effizientesten, Token in Aufgaben zu verwandeln? Für jeden Entwickler, jedes Unternehmen, jeden Nutzer gilt: Nicht nur auf den Preis pro Million Token schauen, sondern auf den Wert, den man für eine Aufgabe in Token investiert.
Der Unterschied zwischen diesen beiden Zahlen ist die größte geschäftliche Chance und die tiefste Kostenfalle im nächsten Abschnitt des „intelligenten Zeitalters, das auf Token basiert“.