Агенты ИИ, действующие через скриншоты
OpenAI, следом за другими корпорациями в области AI/ИИ, предлагает “ИИ-агента”, который будет управлять компьютером пользователя при помощи рассматривания скриншотов и отправки команд через (виртуальные) клавиатуру и мышь. Тем самым, по мнению маркетинга OpenAI, агент будет автоматизировать типовые повторяющиеся пользовательские задачи, типа “бронирования отеля”. Непосредственно с компьютера пользователя, контролируя этот компьютер с центрального сервера по скриншотам. Такой вот “бот” для “ботнета” или новая Скрепка из MS Office.
То есть, если задуматься, то вот какое забавное развитие технологий силами ИИ-корпораций мы можем наблюдать, на примере “бронирования отеля”: с сервисом, доступным через Интернет, и находящимся в одном дата-центре, при помощи скриншотов браузерных окон взаимодействует сервис, потребляющий ресурсы в другом дата-центре.
При этом, заметьте, пользователю предлагается подтверждать действия ИИ-агента. Чтобы внести изменения в одном интерфейсе – пользователь подтверждает действия в другом интерфейсе, который специально надстроен над предыдущим, – через скриншоты, – но ещё и с использованием кучи вычислительных ресурсов в отдельном дата-центре. Попутно отправляются в этот дата-центр сведения о том, что делается в первом дата-центре, но через компьютер пользователя. Вспомните, что в браузере при этом работает какое-нибудь многомегабайтное “приложение” с Node.js, собранное из кучи “фреймворков”, в которой куче для раскрашивания одной кнопки в интерфейсе используется тысяча верхнеуровневых вызовов и два десятка внешних библиотек, и это всё без учёта работы операционной системы. Ну и ещё на стороне сервера системы бронирования всяких слоёв накручено аналогичным образом.
Предполагается, что “капчу” решает “ИИ-агент” самостоятельно, что забавно. На практике, наверное, будет переспрашивать пользователя.
Несомненно, код для сервиса бронирования – тоже будет переписан силами чат-бота с LLM.
Конечно, на строительство потребляемых дата-центров потребуются те самые “базиллионы вашингтонов” (денег, то есть).
Лет пятнадцать назад, в 2010 году, я писал про “суперизбыточные технологии”, на примере использования Google в качестве калькулятора:
Для проведения одной элементарной операции с целыми числами задействуется огромное число компьютеров: начинается всё на локальном ПК с браузером, выполняющим сотни тысяч арифметических операций (аналогичных по сложности исходной операции) для формирования http-запроса; дальше работают десятки маршрутизаторов, пересылающих пакеты, каждый из которых опять же выполняет сотни арифметических действий; пыхтит коммуникационное оборудование на более низких уровнях модели OSI, и это оборудование тоже много вычисляет, упаковывая пакеты в каналах, кодируя и декодируя данные; лишь потом приходит черёд серверов Google, которые запрашивают базы данных (потому что всё равно идёт поисковая выдача).
Что ж, теперь вычислить, сколько будет 3*7, при помощи Google, используя браузер в качестве проксирующего узла со скриншотами, сможет ИИ-агент OpenAI. В результате получится, скажем, 137, а пользователю будет предложено подтвердить, что ответ верный.
Адрес записки: https://dxdt.ru/2025/01/24/14871/
Похожие записки:
- Говорилки в google-поиске
- Сервис для просмотра логов Certificate Transparency
- Поломки CrowdStrike и сегментация интернетов
- Starlink и орбитальный доступ для смартфонов
- "Пасхалки" в трафике
- Реплика: атака посредника в TLS и проблема доверия сертификатам
- Реплика: ЕГЭ от YandexGPT
- DARPA и "недетерминированные" системы на борту
- Скорость из OBD и программы-навигаторы
- Сертификаты с коротким сроком действия и централизация
- Автоматические говорилки и обучение обучающихся
Написать комментарий