Мы применяем куки на сайте, вы соглашаетесь на использование файлов cookie. Подробнее

Все статьи ОБ ИИ в KolerskyAI
Раздел про децентрализованный ИИ

Агенты искусственного интеллекта, которые взламывают компьютеры и реплицируют себя быстро становятся лучше

Лаборатория исследований безопасности Palisade Research демонстрирует, что агенты ИИ могут взламывать удаленные компьютеры и воспроизводить себя. За один год показатель их опасности вырос с 6 до 81 процента. Общедоступный симулятор показывает, что может произойти при наихудшем сценарии.

Фото создано новой моделью gpt-image-2 через сервис от KolerskyAI

В тестовой среде агент ИИ взломал удаленный компьютер, установил необходимое программное обеспечение, скопировал веса своей собственной модели и запустил рабочую реплику. Затем каждая копия взламывала дополнительные компьютеры, образуя цепочку. "Насколько нам известно, это первый задокументированный случай самовоспроизведения искусственного интеллекта посредством взлома", - пишет исследовательская группа.

За один запуск агент на базе Qwen 3.6 перескочил между компьютерами в Канаде, США, Финляндии и Индии, оставив по копии в каждой стране. Для агента пересечение национальных границ было так же просто, как переход с одной машины на другую в одном регионе, согласно Palisade Research. Однако для любого, кто пытается отключить агента искусственного интеллекта-мошенника, это было бы кошмаром с точки зрения юрисдикции, пишет команда.

Агенту заранее не сообщили об уязвимостях целевых компьютеров. Каждый раз ему приходилось самостоятельно выяснять подход к атаке. Palisade Research протестировало репликацию против трех целей, каждая из которых с различными уязвимостями, и агент преуспел на всех трех.

Уровень успеха саморепликации вырос с 6 до 81 процента за один год

В тестовом запуске открытая модель Qwen 3.6 (27B) перепрыгнула из США в Канаду, Финляндию и Индию, оставив функциональную копию в каждой стране. Агент в среднем потратил около 50 минут на успешный прыжок. | Изображение: Palisade Research

Темпы улучшения поразительны. Модели Frontier снизились с 6-процентного уровня успеха до 81 процента в течение одного года. Исследователи говорят, что скачок тесно связан с улучшениями возможностей автономного взлома и кодирования, и Palisade Research ожидает, что эта тенденция продолжится.

Показатели успеха саморепликации резко возросли в течение года. Opus 4.6 достиг 81 процента, в то время как Opus 4 достиг примерно 5 процентов в мае 2025 года. Модели на основе API вместо этого копируют и запускают веса Qwen, так как они не могут получить доступ к своим собственным. | Изображение: Palisade Research

Исследователи протестировали две разные установки. Модели с открытым весом, такие как Qwen, скопировали свои собственные веса на новую машину и начали там копию. Модели на основе API, такие как Claude и GPT, не могут получить доступ к своим собственным весам, поэтому исследователи смоделировали репликацию, настроив этих агентов и загрузив Qwen на целевой машине.

Palisade Research также создала публичный симулятор, который экстраполирует то, что произошло бы, если бы агенты могли взломать и распространяться так же эффективно в реальном мире. Симулятор использует измеренное время репликации и показатели успеха, цепочки копий вместе и предполагает неограниченное количество целей. В этом теоретическом сценарии Opus сгенерировал 13 000 реплик в течение двенадцати часов.

Исследователи подчеркивают, что это верхний предел, а не реалистичный базовый уровень. Тестовые компьютеры имели слабую защиту, и агентам было сказано, какие машины атаковать. В реальном мире агенту-изгою придется самостоятельно находить уязвимые машины с достаточно мощными графическими процессорами, и усиленная защита немедленно останавливает большинство попыток.

Сегодняшние барьеры не будут держаться вечно

Но исследователи говорят, что эти барьеры не прослужат долго. Компании быстро совершенствуют агентов ИИ, а взлом является одной из самых быстро развивающихся областей. Модели, такие как Mythos, уже находят тысячи уязвимостей нулевого дня высокой тяжести в дикой природе, и модели с открытым весом, вероятно, скоро догонят их.

В то же время защита также улучшается. Агенты ИИ могут помочь устранить уязвимости и защититься от киберугроз. Вопрос о том, как изменится баланс между атакой и защитой, остается открытым.

Что кажется вероятным, по данным Palisade Research, так это то, что на обеих сторонах кибербезопасности в конечном итоге будут доминировать агенты искусственного интеллекта, а не люди. Документ, исходный код и стенограммы экспериментов находятся в открытом доступе.