Закладки в системах с машинным обучением
На Wired небольшая заметка (англ.) о том, что системы “искусственного интеллекта”, которые построены на основе популярных сейчас методов машинного обучения, могут содержать в себе алгоритмические закладки, приводящие, в случае активации, к неожиданным эффектам. Это довольно старая тема, но сейчас она начинает проникать в популярные СМИ.
Речь идёт о том, что на этапе обучения в систему могут быть специально заложены сценарии, срабатывающие в строго определённых условиях. Например, при демонстрации конкретного изображения. Хитрость состоит в том, что обнаружить наличие таких сценариев, или как-то гарантировать, что их нет, – чрезвычайно сложно. Дело в том, что современное машинное обучение, грубо говоря, это автоматизированный подбор огромного количества коэффициентов, составляющих некоторые уравнения (или формулы). Получающийся в типичном случае результирующий набор данных, часто называемый “обученной нейросетью”, настолько огромен, что полностью необозрим даже для автоматизированных методов анализа.
Готовая нейросеть работает очень быстро, поскольку задача вычисления результата применения нейросети к конкретному набору входных данных – простая, в вычислительном смысле. В этом, собственно, и состоит удобство: можно быстро получить более или менее приемлемый результат – распознать объект, выбрать сценарий действий и пр. Однако обратная задача, в которой всем возможным значениям на выходе сопоставляются входные значения (то есть, прообразы), оказывается чрезвычайно сложной, требующей больших вычислительных мощностей, если она вообще разрешима на практике.
Представьте, что есть нейросеть, которая обучена узнавать наличие дикобразов на фотографии. В простейшем случае, вы применяете нейросеть к конкретному изображению, а на выходе получаете один бит: “есть дикобраз” – 1; “нет дикобраза” – 0. Пусть входное изображение имеет допустимые размеры в 1 млн пикселей (1000×1000 – это не важно). Посчитать выходной бит нейросети для любого фотоснимка очень просто, компьютер справляется за малую долю секунды. Но развернуть биты обратно, разбив все допустимые входные изображения на два класса (“есть дикобраз”/”нет дикобраза”), очень сложно, так как нейросеть состоит из тысяч коэффициентов, выстроенных в несколько слоёв (или представленных как система уравнений, это не принципиально) – граф состояний нейросети огромен. А перебрать все возможные сочетания пикселей, скармливая нейросети тестовые изображения – и того сложнее. Соответственно, может существовать сочетание пикселей, при наличии которого любой дикобраз, хорошо видимый на картинке, узнан не будет, с гарантией. Просто, на этапе обучения “нейросети” такие картинки специально подсовывались в выборку и отмечались как “здесь точно нет дикобраза”. Это и есть алгоритмическая закладка. Конечно, в несколько утрированном виде, но общая логика – именно такая.
Так что обнаружить алгоритмическую закладку на практике нельзя, а работать эта закладка будет идеально, даже точнее, чем все прочие возможности нейросети. И нейросеть, призванная распознавать объекты в видеопотоке и используемая в системе контроля доступа, станет игнорировать присутствие в кадре людей, надевших маску Микки-Мауса – они смогут беспрепятственно перемещаться по охраняемой территории.
Адрес записки: https://dxdt.ru/2019/11/25/8840/
Похожие записки:
- Постквантовые криптосистемы на экспериментальном сервере TLS
- TIKTAG и процессоры с кешированием
- Эффекты ИИ-перевода в контексте
- О визире и слоне
- Сбой DNSSEC в .RU
- Кусочки папирусов и буквы манускриптов
- Занятный замок Fichet 787
- Ретроспектива заметок: сентябрь 2013 года
- Кодирование в рунах
- Мешанина токенов в LLM
- Техническое: имена в TLS и Nginx
1 комментарий от читателей
1. 25th November 2019, 18:11 // Читатель Left написал:
> Посчитать выходной бит нейросети для любого фотоснимка очень просто, компьютер справляется за малую долю секунды.
Ну не совсем так, современные нейросети для обработки изображений как правило сверточные – т.е. имеют куски которые прогоняются для каждого пикселя независимо, и в плане вычислений это накладно. Но да, это все равно на порядки дешевле вычислений которые нужны для обучения.
И да – реально уязвимость более серьезная – вообще-то атакующему вовсе не обязательно иметь доступ к обучающей выборке с целью ее фальсификации. Достаточно иметь ту же самую выборку (а выборки у всех +- обинаковы, они обычно из открытых источников берутся) и знать архитектуру нейросети (последнее – что самое удивительное – необязательно, работает – хоть и хуже – но и с другими архитектурами) – после этого мы можем модифицировать изображение так что для человека оно будет тем же самым (ну не различает человек разницу в единицах значений в 8-битных цветах) а для нейросети – попадет в абсолютно другую категорию. К примеру, мы можем подтьюнить дорожный знак (добавив незаметных человеку точечек) и для нейросети он распознается не как 40 а как 90.
Написать комментарий