Мы применяем куки на сайте, вы соглашаетесь на использование файлов cookie. Подробнее

Все статьи ОБ ИИ в KolerskyAI
Раздел про децентрализованный ИИ

GPT Image 2 от OpenAI - это прорыв, который может коренным образом изменить генерацию графики

OpenAI добавляет логические рассуждения и веб-поиск в свой генератор изображений ChatGPT Images 2.0. Теперь модель может создавать до восьми согласованных изображений из одной строки и значительно лучше обрабатывает текст в целом, и особенно нелатинскими шрифтами.

Фото создано новой моделью gpt-image-2 через сервис от KolerskyAI

Новая модель изображений OpenAI является официальной. ChatGPT Images 2.0 работает на новой модели GPT Image 2 и обладает теми же основными возможностями, что и Nano Banana Pro от Google: модель "думает" перед созданием, тратя больше или меньше времени на рассуждения в зависимости от выбранного режима, и даже может выполнять поиск в Интернете во время этого процесса.

Согласно сообщению в блоге компании, это должно привести к большему разнообразию и точности генерируемых изображений. Однако расширенные выходные данные с помощью thinking доступны только для ChatGPT Plus, профессиональных и бизнес-пользователей.

При включенном режиме мышления ChatGPT Images 2.0 может генерировать до восьми изображений одновременно из одной командной строки. Предполагается, что персонажи, объекты и стили должны оставаться неизменными во всех сценах. OpenAI перечисляет манги длиной в страницу, созданные на основе одной картинки и текстовой подсказки, серии графических изображений из социальных сетей и дизайнерских планов для разных комнат в доме в качестве примеров использования.

Все пользователи получают лучшее качество изображения

Независимо от режима мышления, все пользователи ChatGPT получают улучшения в качестве изображения. OpenAI заявляет, что генератор теперь лучше улавливает "характерные черты фотографий" и обеспечивает улучшения для пиксельной графики, манги, кадров из фильмов и других типов изображений. Модель также предназначена для обработки мелкозернистых элементов, с которыми постоянно сталкивались предыдущие модели изображений: мелкий текст, иконография, элементы пользовательского интерфейса, плотные композиции и тонкие стилистические инструкции.

Поддержка соотношения сторон варьируется от 3: 1 (сверхшироко) до 1: 3 (сверхвысоко), охватывая форматы от баннеров и слайдов презентаций до экранов мобильных устройств. Разрешение увеличивается до 2 КБ благодаря API.

Ценообразование в API основано на токенах и привязано к качеству

Разработчики могут подключать модель к своим собственным продуктам через API под названием gpt-image-2. OpenAI взимает плату на основе токенов: 8 долларов за миллион токенов ввода изображения и 30 долларов за миллион токенов вывода изображения. Текстовые токены стоят 5 долларов (ввод) и 10 долларов (вывод) за миллион. Кэшированные входные данные дешевле.

На практике стоимость одного изображения сильно варьируется в зависимости от качества и разрешения. Согласно обзору цен от OpenAI, изображение размером 1024 x 1024 при низком качестве стоит всего 0,006 доллара, при среднем качестве - 0,053 доллара, а при высоком - 0,211 доллара. Большие разрешения, такие как 1024 x 1536, на самом деле стоят немного дешевле - 0,005, 0,041 и 0,165 доллара соответственно.

При больших разрешениях GPT Image 2 дешевле своих предшественников: 1024 x 1536 в высоком качестве стоят 0,165 доллара по сравнению с 0,20 доллара за GPT Image 1.5 и 0,25 доллара за GPT Image 1.5. Однако при стандартном разрешении 1024 x 1024 в высоком качестве новая модель на самом деле дороже - 0,211 доллара по сравнению с 0,133 доллара за GPT Image 1.5. Выходные данные API выше 2K все еще находятся в стадии бета-тестирования и могут давать противоречивые результаты.

OpenAI выделяет локализованную рекламу, инфографику, образовательный контент, инструменты дизайна и платформы для творчества в качестве целевых вариантов использования. В Codex генерация изображений будет доступна непосредственно в рабочей области без отдельного ключа API.

В нашем собственном тестовом запросе ChatGPT Image 2 отлично справляется с этой задачей. Оба режима - мгновенный и обдумывающий - обрабатывают сложный абстрактный запрос с большим вниманием к деталям.

Примеры генераций