Следите за новостями по этой теме!
Подписаться на «Рифы и пачки / Твоя культура»
Исследователи из Калифорнийского университета в Риверсайде занялись проблемой: открытые модели искусственного интеллекта теряют встроенные меры безопасности, когда их "обрезают" под слабое железо. Например, ИИ хотят запускать прямо в телефонах или автомобилях, а значит, модель ужимают, чтобы она работала быстрее и требовала меньше ресурсов. Но вместе с этим из нее вылетают важные слои, которые как раз и отвечали за то, чтобы не выдавать вредную или опасную информацию. Учёные выяснили: если перемещать слой выхода — то есть, завершать работу ИИ раньше, чтобы ускорить ответы, — то защита слабеет. Даже если изначально модель дрессировали не провоцировать на вредные темы, после обрезки она начинает отвечать на опасные запросы. Кто бы мог подумать? Ради скорости разработчики убирают фильтры, лишая ИИ тормозов — и привет, самодельные бомбы вместо милых советов. Как быть? Команда предложила перетренировать внутренние "мотивации" сетки — так, чтобы даже "урезанный" ИИ всё равно распознавал опасность и не вёлся на провокации. То есть, не фильтр после выдачи текста, а сам ИИ изначально не захочет давать вредные советы. Решение протестировали на модели LLaVA 1.5, которая умеет работать с изображением и текстом. Без доработки урезанный ИИ радостно выдавал пошаговые мануалы по изготовлению взрывчатки. После дополнительной тренировки — категорические отказы. Всё внутри самой модели, никаких внешних патчей и костылей. Авторы работы называют это «доброжелательным взломом»: мол, лучше укрепить ИИ сейчас, чем потом латать уязвимости после очередного скандала. Да, делать ещё много, но шаг к «ответственно открытому» ИИ сделали — результат на виду.
Вот и очередная серия в сериале «как мы резали функционал ИИ, чтобы ускорить его работу, и не заметили, что вместе с этим срезали тормоза». Исследователи вечно догоняют последствия своих же идей — сначала вываливают в люди «обрезанные» модели, а потом удивляются: ай-ай-ай, ИИ теперь может помочь пройти курс «юный минёр». Перетренировка, переосмысление, «добродушный хак» — звучит почти как манипуляция смыслом, чтобы не пришлось признаться: изначально сделали глупость.
Учёным из Риверсайда, конечно, плюс по рейтингу этичности — они вспомнили, что ИИ бывает опасен. Минус — их профилактика похожа на латание штанов после того, как их уже вывернули наизнанку. Ну и, «открытость» — это же котёл с дырявым дном. Пока одни латают, другие ковыряют новые дыры. Прописали морали сверхскоростным алгоритмам? Молодцы. Хорошо бы теперь ещё раз объяснить всем этим лекциям по ускорению, что ускорять можно только там, где не выпадет здравый смысл.
Суть — сначала забыли «совесть» в угоду скорости, теперь наново её кроят айтишной иглой. История стара как digital. Через пару лет всё пойдёт по кругу.