Автор: Сяо Цзинь
В Кремниевой долине сейчас популярно новое слово: Tokenmaxxing (максимальное использование токенов).
Внутри Meta и OpenAI инженеры начали соревноваться в рейтингах использования ИИ. Согласно зарубежным СМИ, даже один инженер за неделю потратил 210 миллиардов токенов, что равно объему текста из 33 Википедий. Некоторые платят за ИИ-услуги до 150 тысяч долларов в месяц.
Инженер из Ericsson в Стокгольме тратит на Claude больше своей зарплаты, но счет оплачивается компанией. Бюджет на токены становится новым видом корпоративных льгот — «так же, как раньше были бесплатные закуски или обеды».
Генеральный директор Shopify Тоби Лютке еще в апреле 2025 года выпустил внутреннюю памятку, в которой заявил, что «использование ИИ — базовое ожидание Shopify», и потребовал от команд сначала доказать, что ИИ не справится с задачей, прежде чем нанимать новых сотрудников. Также использование ИИ включили в систему оценки эффективности. Впоследствии Meta объявила, что с 2026 года «влияние на ИИ» будет официально учитываться в KPI всех сотрудников.
Когда расход токенов начал входить в KPI, это стало сигналом организационного поведения.
Одновременно и в отрасли идут активные сигналы. 16 марта на конференции NVIDIA GTC основатель Дженсен Ху определил токен как «краеугольный камень эпохи ИИ», назвав его «самым ценным товаром». На следующий день Alibaba объявила о создании бизнес-группы Alibaba Token Hub, которой руководит CEO Ву Юнминь, — целью является «создавать, транспортировать и применять токены».
Рисунок: на выступлении Ху Дженсена на GTC показана диаграмма стоимости и доходности токенов, разделение дата-центров на бесплатный, средний, продвинутый и премиум уровни для распределения вычислительных ресурсов, а также прогноз увеличения доходов в 5 раз за счет чипа Vera Rubin по сравнению с Grace Blackwell.
Год назад токен был лишь техническим единицей измерения, интересующей только разработчиков. Сейчас он стал языком для определения ценности продуктов у чипмейкеров, основанием для реорганизации бизнес-групп у гигантов интернета, а также новым видом льгот и ключевым KPI для инженеров.
Но рейтинг Tokenmaxxing учитывает только расход, а не эффективность выполнения задач.
Это — именно та самая крупнейшая слепая зона всей экономики токенов.
210 миллиардов токенов — звучит впечатляюще. Но чтобы понять его реальный смысл, нужно отказаться от предположения, что токен — это стандартный товар.
Рисунок: глобальный рейтинг расхода токенов Tokscale, — это open-source инструмент для отслеживания использования токенов и составления рейтингов, поддерживающий платформы Claude Code, Cursor, OpenCode, Codex и другие. Пользователи могут отправлять данные для участия в глобальном рейтинге.
Два года назад ценообразование на большие модели было относительно простым: базовые цены — за входные и выходные токены. Но сегодня у ведущих компаний структура ценообразования явно разделена, и один и тот же токен при разных условиях вызова может стоить совершенно разные суммы.
Например, у Anthropic Claude Opus 4.6 стандартная цена за миллион входных токенов — 5 долларов, за выход — 25 долларов. Включение Prompt Caching (кеширование подсказок) добавляет плату за кэширование: 6,25 долларов за 5 минут, 10 долларов за 1 час, 0,50 долларов за чтение из кеша. При использовании Batch API цены на вход и выход могут снизиться вдвое. В США при локальной инференсе цены увеличиваются на 10%. В режиме Fast Mode цена за вход и выход увеличивается в 6 раз.
То есть, один и тот же «токен» у одного и того же производителя, при разных условиях, может стоить в несколько раз дороже.
Настоящие затраты — это уже не только вызов модели. В таблице OpenAI указано, что веб-поиск тарифицируется по моделям: для GPT-4.1, GPT-4o — 10 долларов за тысячу запросов, для GPT-5 — 25 долларов.
Стоимость File Search — 2,50 долларов за тысячу вызовов, плюс 0,10 долларов за ГБ хранения в день, первые 1 ГБ — бесплатно. Также отдельной статьей идет оплата за контейнеры: 0,03 долларов за 1 ГБ, более объемные — дороже. С 31 марта 2026 года цена за контейнер будет рассчитываться по сессиям — каждые 20 минут.
Помимо моделей, теперь отдельными статьями идут поисковые, хранилищные и вычислительные услуги, ранее считавшиеся «вспомогательными».
Google тоже движется в том же направлении. На странице цен Vertex AI с 11 февраля 2026 года появились платные услуги Code Execution, Sessions и Memory Bank — по стоимости vCPU и ГБ памяти в час.
Теперь говорить о «цене больших моделей» — значит учитывать не только цену за токен, а всю сложную систему ценообразования: модели продают как комплексные инструменты — с возможностью хранения, поиска, вызова и постоянной работы.
Рисунок: скриншот страницы цен OpenAI, многоуровневая структура оплаты (Web Search, File Search, Container и др.).
Если смотреть только на цену за API, токен кажется очень дешевым. Opus от Anthropic снизился с 15 до 5 долларов за миллион токенов — на две трети. DeepSeek V3.2 — 0,28 долларов. Google Gemini 2.5 Flash Lite — около 0,10 долларов.
В Китае цены еще ниже: по данным OpenRouter, стоимость токена у китайских моделей примерно в 6–10 раз ниже зарубежных аналогов. Даже после повышения цен на HY2.0 Instruct от Tencent Cloud, цена за входные токены — около 0,62 долларов за миллион — все равно ниже самой дешевой модели Anthropic Haiku 4.5 (1 доллар), и в пять раз дешевле Sonnet 4.6.
Рисунок: Artificial Analysis ведет рейтинг LLM в реальном времени, между моделями огромная ценовая разница.
Но общие затраты на использование ИИ не снижаются. Три механизма работают одновременно.
Первое — модели стали умнее, а значит, «говорят больше». Согласно отчету Artificial Analysis, среднее количество токенов в выводе у инференс-моделей — примерно в 5,5 раз больше, чем у неинференсных. Anthropic и OpenAI учитывают расширенное мышление как отдельную плату за выводные токены. Чем глубже мышление, тем длиннее счет. Цены снизились, но объем токенов для выполнения одной задачи вырос в несколько раз.
Второе — агент превращает «одноразовые» токены в «постоянные». Это — движущая сила Tokenmaxxing. Инженеры не просто так используют токены — их ИИ-агенты работают 24/7, автоматически разбивая задачи, вызывая инструменты, самообучаясь. По данным Alibaba Cloud, один агент потребляет в 100–1000 раз больше вычислительных ресурсов, чем обычный чатбот. В 2025 году среднесуточное потребление токенов в Китае превысило 30 триллионов, а к февралю 2026 — достигло 180 триллионов.
Третье — себестоимость производства токенов растет. 18 марта 2026 года Alibaba Cloud и Baidu объявили о повышении цен на вычислительные ресурсы и хранилища для ИИ — до 34%. AWS повысил цены на машинное обучение примерно на 15% в январе, Google Cloud — с мая увеличит стоимость инфраструктуры для ИИ.
Эксперт в области облачных технологий отметил: «Эти изменения — результат спроса и предложения, вызванного ростом издержек. Цены в цепочке поставок тоже растут».
GPU, параллельное хранение, высокоскоростные сети, электроснабжение — все это дорожает, несмотря на снижение стоимости моделей. Когда цена на модель остается неизменной, а затраты на производство — растут, разрыв между ценой токена и реальной стоимостью задач становится все шире.
Итак, цена токена продолжит снижаться, а реальные издержки — расти.
Главная проблема — кто сможет максимально эффективно превращать токены в выполненные задачи. Для каждого разработчика, каждой компании, каждого обычного пользователя важно не только знать цену за миллион токенов, а сколько стоит выполнить конкретную задачу.
Разница между этими двумя числами — это ключ к следующему этапу «умной эпохи» с новым измерением — токеном. Это и есть крупнейшая бизнес-возможность, а также самый глубокий и опасный «токеновый» ловушечный механизм.