GPT-5 это не эволюция, а сокращение расходов

Несмотря на щедрые заявления, новый флагманский продукт OpenAI выглядит скорее как способ снизить расходы на вычисления, чем как серьёзный шаг вперёд в развитии искусственного интеллекта — и это не слишком понравилось самым преданным пользователям компании.

Как компания, фактически открывшая эру генеративного ИИ, OpenAI находится под серьёзным давлением: ей нужно не только демонстрировать технологические прорывы, но и оправдывать многомиллиардные инвестиции, доказывая рост своего бизнеса.

Для этого OpenAI может либо увеличить число пользователей, либо поднять цены, либо сократить издержки. При этом большая часть индустрии уже выровнялась под ценовые уровни 20 долларов и 200 в месяц. Значит, OpenAI нужно предложить нечто, чего нет у конкурентов, чтобы удерживать премиум-цену, или рисковать потерять клиентов в пользу Anthropic, xAI или Google.

С началом нового учебного года компания наверняка привлечёт волну новых подписчиков, когда студенты вернутся в аудитории после летних каникул. Но рост числа платных клиентов означает и рост затрат на вычислительные мощности.

Оптимизация расходов

Главным признаком такой политики стало то, что GPT-5 — это не единая модель, а набор как минимум из двух: ″лёгкой″ LLM для быстрых и простых запросов и более тяжёлой версии для сложных задач. Какой из них будет задействован, решает ″маршрутизирующая″ модель, которая работает наподобие умного балансировщика нагрузки для всей платформы. Для генерации изображений вообще используется отдельная модель — Image Gen 4o.

Это отличается от прежнего подхода OpenAI: раньше пользователи тарифов Plus и Pro могли сами выбирать модель. Если хотелось задать простой вопрос, который GPT-4o мог бы легко обработать, — это было возможно.

Теоретически, система маршрутизации позволит направлять большую часть трафика GPT-5 на менее ресурсоёмкие модели.

Ещё один пример оптимизации — автоматическое включение и выключение режима ″рассуждений″ в зависимости от сложности запроса. Пользователи бесплатного тарифа вообще не могут активировать его вручную. Чем меньше модель выполняет сложных рассуждений, тем меньше генерируется токенов и тем дешевле обходится её работа.

Но эта стратегия не сделала модели умнее. По собственным бенчмаркам OpenAI, улучшения по сравнению с предыдущими моделями скромные. Прогресс же наблюдается в работе с инструментами и в снижении числа галлюцинаций.

Новая система GPT-5 зависит от маршрутизирующей модели, которая перенаправляет запросы к нужной языковой модели. Судя по ранним отзывам, работает это пока не слишком удачно. По словам Сэма Альтмана, в день запуска функция маршрутизации GPT-5 была сломана, из-за чего модель казалась ″намного глупее″, чем на самом деле.

Поскольку маршрутизатор — это отдельная модель, OpenAI как минимум может улучшать её отдельно от остальной системы.

Отказ от старых моделей

Маршрутизатор — не единственная мера экономии у OpenAI. На презентации прошлой недели руководство заявило, что настолько уверено в GPT-5, что прекращает поддержку всех предыдущих моделей.

Пользители восприняли это резко негативно, и позже Сэм Альтман признал, что компания ошиблась, убрав модели вроде GPT-4o, которая, несмотря на отсутствие продвинутых возможностей рассуждения, оказалась очень популярной у пользователей и корпоративных клиентов.

Тем не менее меньшее количество поддерживаемых моделей означает больше ресурсов для оставшихся.

Хотя OpenAI не раскрывает технических подробностей о своих внутренних моделях, если GPT-5 похожа на их открытые разработки gpt-oss-20b и gpt-oss-120b и переведена в формат MXFP4, у компании есть веские причины убрать устаревшие GPT. Этот формат данных позволяет снизить потребление памяти, пропускную способность и вычислительные затраты на 75% по сравнению с BF16.

Пока что GPT-4o вернули для платных пользователей, но нет сомнений, что как только OpenAI выяснит, что делает эту модель такой популярной, и сможет встроить эти качества в GPT-5, старую версию окончательно уберут.

Ограниченный контекст

Вместо архитектурного улучшения OpenAI решила не увеличивать контекстное окно GPT-5. Бесплатные пользователи по-прежнему ограничены 8 000 токенов, а подписчики Plus и Pro — 128 тысяч.

Для сравнения: план Claude Pro от Anthropic, стоящий примерно столько же, предлагает 200 тысяч токенов, а Google Gemini поддерживает до 1 миллиона токенов.

Большие окна контекста полезны при поиске и суммировании больших объёмов текста, но требуют значительно больше памяти. Оставив окна небольшими, OpenAI может использовать меньше GPU.

Если верить заявлению компании о том, что GPT-5 генерирует до 80% меньше галлюцинаций, пользователи, вероятно, захотят увеличить объём контекста для поиска по документам.

Впрочем, версия GPT-5 в API поддерживает до 400 000 токенов, но использование этой возможности обойдётся недёшево: заполнение окна один раз стоит примерно 50 центов США, и при регулярной работе с крупными документами расходы быстро растут.

Антикризис

Помимо возврата GPT-4o, платные пользователи теперь могут выбирать скорость ответа GPT-5: Auto, Fast или Thinking. Также увеличен лимит до 3000 сообщений в неделю.

В понедельник Альтман представил план распределения вычислительных мощностей на ближайшие месяцы, и неудивительно, что приоритет будет у платных клиентов.

Как только пользователи ChatGPT получат свои ресурсы, Альтман обещает, что приоритет отдаст API-запросам — по крайней мере, до достижения текущей лимитной мощности.

Лишь после этого OpenAI займётся улучшением качества бесплатной версии ChatGPT или расширением мощности API. Но, если верить Альтману, уже к концу года у компании будет вдвое больше вычислительных ресурсов.