Новые модели ИИ OpenAI GPT-4.1 сфокусированы на программировании

На этой неделе В OpenAI представили новую линейку моделей под названием GPT-4.1. Да, снова цифры — будто система наименований компании и без того не была запутанной.

В линейку вошли GPT-4.1, GPT-4.1 mini и GPT-4.1 nano, которые, по утверждению OpenAI, демонстрируют отличные результаты в программировании и выполнении инструкций. Мультимодальные модели доступны через API OpenAI, но не в ChatGPT. Их окно контекста составляет 1 миллион токенов, что позволяет обрабатывать за один раз около 750 000 слов (больше, чем в произведении «Война и Мир»).

Появление GPT-4.1 происходит на фоне усилий конкурентов OpenAI, таких как Google и Anthropic, которые активно развивают продвинутые модели для программирования. Недавно выпущенный Google Gemini 2.5 Pro (также с окном в 1 млн токенов) показывает высокие результаты программирования. То же можно сказать о Claude 3.7 Sonnet от Anthropic и обновлённой модели V3 китайского стартапа DeepSeek.

Целью OpenAI, как и других технологических гигантов, является создание ИИ-моделей, способных выполнять сложные задачи в software engineering. Как выразилась финансовый директор OpenAI Сара Фрайер на технологическом саммите в Лондоне в прошлом месяце, амбиции компании включают разработку агентного инженера-программиста. По заявлению OpenAI, будущие модели смогут создавать приложения от начала до конца, включая тестирование качества, отладку и написание документации.

GPT-4.1 – это только первый шаг

«Мы оптимизировали GPT-4.1 для реального применения, учитывая обратную связь разработчиков, чтобы улучшить ключевые аспекты: фронтенд-разработку, минимизацию лишних правок, соблюдение форматов, структуры ответов, порядка действий, стабильное использование инструментов и многое другое»

OpenAI утверждает, что полная версия GPT-4.1 превосходит предыдущие модели GPT-4o и GPT-4o mini в тестах на программирование, включая SWE-bench. Версии mini и nano, как ожидается, будут более быстрыми и экономичными, хотя и менее точными. GPT-4.1 nano, по данным компании, стала самой скоростной и дешёвой моделью в истории OpenAI.

Стоимость использования GPT-4.1: 2 доллара за миллион входящих токенов и 8 за миллион исходящих. Для GPT-4.1 mini — 0,4 доллара и 1,6 соответственно, а для GPT-4.1 nano — 0,1 и 0,4.

Согласно внутренним тестам OpenAI, GPT-4.1, способная генерировать вдвое больше токенов за раз, чем GPT-4o (32 768 против 16 384), показала 52–54,6% в SWE-bench Verified — проверенной людьми подвыборке теста. Эти результаты немного уступают показателям Gemini 2.5 Pro (63,8%) и Claude 3.7 Sonnet (62,3%) на том же наборе данных.

В отдельном тестировании на Video-MME, оценивающем понимание видео, GPT-4.1 достигла 72% точности в категории "длинные ролики без субтитров".

Стоит ли доверять ИИ в программировании

Хотя GPT-4.1 демонстрирует хорошие результаты на тестах и обладает датой знаний до июня 2024 года, важно помнить: даже лучшие современные модели ошибаются в задачах, которые не вызывают сложностей у экспертов. Исследования показывают, что генераторы кода часто не только не исправляют, но и добавляют уязвимости и ошибки безопасности.

OpenAI также отмечает, что точность GPT-4.1 падает с увеличением объёма входных данных. В тесте OpenAI-MRCR точность модели снизилась с ~84% при 8000 токенов до 50% при 1 млн токенов. Кроме того, GPT-4.1 оказалась "буквальной", чем GPT-4o, что иногда требует более чётких инструкций.

Подписывайтесь на телеграм канал H2F, чтобы оставаться в курсе последних событий в мире высоких технологий!