Мы применяем куки на сайте, вы соглашаетесь на использование файлов cookie. Подробнее
OK
Подразделение: нейросети kolersky ai

Новый способ редактирования или генерации изображений нейросетями

Исследователи Массачусетского технологического института обнаружили, что особые виды нейронных сетей, называемые кодировщиками или “токенизаторами”, могут делать гораздо больше, чем предполагалось ранее.
Генерация изображений с помощью искусственного интеллекта, который использует нейронные сети для создания новых изображений на основе различных входных данных, включая текстовые подсказки, по прогнозам, станет индустрией с оборотом в миллиард долларов к концу этого десятилетия. Даже при современных технологиях, если вы захотите сделать причудливую фотографию, скажем, друга, водружающего флаг на Марсе или беззаботно летящего в черную дыру, это может занять меньше секунды. Однако, прежде чем приступить к выполнению подобных задач, генераторы изображений обычно обучаются работе с огромными наборами данных, содержащими миллионы изображений, которые часто сочетаются с соответствующим текстом. Обучение этим генеративным моделям может быть сложной рутиной, которая занимает недели или месяцы и требует огромных вычислительных ресурсов в процессе.

Но что, если бы было возможно генерировать изображения с помощью методов искусственного интеллекта вообще без использования генератора? Эта реальная возможность, наряду с другими интригующими идеями, была описана в исследовательском документе,представленном на Международной конференции по машинному обучению (ICML 2025), которая состоялась в Ванкувере, Британская Колумбия, ранее этим летом. Документ, описывающий новые методы манипулирования и генерации изображений, был написан Лукасом Лао Бейером, аспирантом-исследователем Лаборатории информации и систем принятия решений Массачусетского технологического института (LIDS); Тяньхонгом Ли, постдоком Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL); Синлей Ченом из Facebook AI Research; Сертачем Караманом, профессором аэронавтики и астронавтики Массачусетского технологического института и директором LIDS;и Каймингом Хе, адъюнкт-профессором электротехники и технологий Массачусетского технологического института. информатика.


Эта групповая работа возникла в рамках классного проекта для семинара для выпускников по глубоким генеративным моделям, который Лао Бейер проводил прошлой осенью. В беседах в течение семестра и Лао Бейеру, и Ему, который вел семинар, стало очевидно, что у этого исследования есть реальный потенциал, который выходит далеко за рамки обычного домашнего задания. Вскоре к этой работе были привлечены другие сотрудники.

Отправной точкой для исследования Лао Бейера послужила статья, опубликованная в июне 2024 года исследователями из Мюнхенского технического университета и китайской компанией ByteDance, в которой был представлен новый способ представления визуальной информации, называемый одномерным токенизатором. С помощью этого устройства, которое также является разновидностью нейронной сети, изображение размером 256x256 пикселей можно преобразовать в последовательность всего из 32 чисел, называемых токенами. “Я хотел понять, как можно достичь такого высокого уровня сжатия и что на самом деле представляют собой сами токены”, - говорит Лао Бейер.

Предыдущее поколение токенизаторов обычно разбивало одно и то же изображение на массив из 16x16 токенов, причем каждый токен инкапсулировал информацию в сильно сжатой форме, которая соответствует определенной части исходного изображения. Новые токенизаторы 1D могут кодировать изображение более эффективно, используя гораздо меньше токенов в целом, и эти токены способны фиксировать информацию обо всем изображении, а не только об одном квадранте. Более того, каждый из этих токенов представляет собой 12-значное число, состоящее из единиц и 0, что позволяет использовать в общей сложности 212 (или около 4000) возможностей. “Это похоже на словарь из 4000 слов, который составляет абстрактный, скрытый язык, на котором говорит компьютер”, - объясняет он. “Это не похоже на человеческий язык, но мы все еще можем попытаться выяснить, что он означает”.

Это именно то, что Лао Бейер изначально намеревался изучить — работа, которая послужила основой для документа ICML 2025. Подход, который он избрал, был довольно простым. Если вы хотите узнать, что делает конкретный токен, говорит Лао Бейер, “вы можете просто извлечь его, поменять местами какое-нибудь случайное значение и посмотреть, есть ли заметные изменения в результатах”. Он обнаружил, что замена одного токена изменяет качество изображения, превращая изображение с низким разрешением в изображение с высоким разрешением или наоборот. Другой токен повлиял на размытость фона, в то время как другой все еще влиял на яркость. Он также обнаружил маркер, связанный с “позой”, означающий, что, например, на изображении малиновки голова птицы может смещаться справа налево.

“Это был невиданный ранее результат, поскольку никто не наблюдал визуально идентифицируемых изменений в результате манипулирования токенами”, - говорит Лао Бейер. Открытие повысило вероятность нового подхода к редактированию изображений. И группа MIT показали, на самом деле, как этот процесс можно упростить и автоматизировать, чтобы токены не нужно было изменять вручную, по одному за раз.

Он и его коллеги достигли еще более важного результата, связанного с генерацией изображений. Для системы, способной генерировать изображения, обычно требуется токенизатор, который сжимает и кодирует визуальные данные, а также генератор, который может комбинировать и упорядочивать эти компактные представления для создания новых изображений. Исследователи Массачусетского технологического института нашли способ создавать изображения вообще без использования генератора. Их новый подход использует одномерный токенизатор и так называемый детокенизатор (также известный как декодер), который может реконструировать изображение из цепочки токенов.

Однако, благодаря руководству, предоставленному готовой нейронной сетью под названием CLIP, которая не может генерировать изображения сама по себе, но может измерить, насколько хорошо данное изображение соответствует определенной текстовой подсказке, команда смогла преобразовать изображение красной панды, например, в тигра. Кроме того, они могли создавать изображения тигра или любой другой желаемой формы, начиная полностью с нуля — из ситуации, в которой всем токенам изначально присваиваются случайные значения (а затем итеративно настраиваются так, чтобы восстановленное изображение все больше соответствовало желаемой текстовой подсказке).

Группа продемонстрировала, что с помощью той же настройки — опираясь на токенизатор и детокенизатор, но без генератора — они также могут выполнять “закрашивание”, что означает заполнение частей изображений, которые каким-то образом были стерты. Отказ от использования генератора для определенных задач может привести к значительному сокращению вычислительных затрат, поскольку генераторы, как уже упоминалось, обычно требуют обширной подготовки.

Что может показаться странным в вкладе этой команды, объясняет он, “так это то, что мы не изобрели ничего нового. Мы не изобретали 1D токенизатор, и мы также не изобретали модель CLIP. Но мы обнаружили, что новые возможности могут появиться, когда вы соберете все эти фрагменты вместе.”


“Эта работа переопределяет роль токенизаторов”, - комментирует Сайнинг Се, специалист по информатике из Нью-Йоркского университета. “Это показывает, что токенизаторы изображений — инструменты, обычно используемые только для сжатия изображений, — на самом деле могут делать гораздо больше. Тот факт, что простой (но сильно сжатый) 1D токенизатор может выполнять такие задачи, как рисование или редактирование текста, без необходимости обучения полномасштабной генеративной модели, довольно удивителен.”
Чжуан Лю из Принстонского университета соглашается, говоря, что работа группы MIT “показывает, что мы можем генерировать изображения и манипулировать ими намного проще, чем мы думали ранее. По сути, это демонстрирует, что генерация изображений может быть побочным продуктом очень эффективного компрессора изображений, потенциально снижающего стоимость генерации изображений в несколько раз.”
Караман предполагает, что может быть множество приложений вне области компьютерного зрения. “Например, мы могли бы рассмотреть возможность обозначения действий роботов или самоуправляемых автомобилей таким же образом, что может быстро расширить влияние этой работы”.


Лао Бейер думает в том же направлении, отмечая, что предельная степень сжатия, обеспечиваемая токенизаторами 1D, позволяет делать “некоторые удивительные вещи”, которые могут быть применены в других областях. Например, в области самоуправляемых автомобилей, которая является одним из его исследовательских интересов, токены могли бы представлять вместо изображений различные маршруты, по которым может проехать транспортное средство.

Се также заинтригован приложениями, которые могут появиться на основе этих инновационных идей. “Есть несколько действительно интересных вариантов использования, которые это может раскрыть”, - говорит он.