Вот ещё весьма показательный момент, про всё это современное ИИ/LLM. Бот от корпорации OpenAI выполняет на dxdt.ru больше тысячи запросов (GET, по адресам записок) в сутки с разных IP, в User-Agent написано: “Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)”. Очевидно, цель – загрузка всё большего количества текстов в синонимайзер-переросток, который потом продвигают в СМИ как уникальный “интеллект”. Вычислительных ресурсов там много, несмотря на “проблемы изменения климата”, поэтому об оптимизации не задумываются – сканируют всё повторно, по много раз.
Приходит этот бот с IP-адресов Microsoft. Однако, игнорируя не только слово “Open” в названии, но и даже минимальные представления об адекватной разработке ботов-сканеров, информационный URL, указанный в User-Agent, недоступен для российских IP-адресов: возвращает HTTP 403 и страничку с надписью “Sorry, you have been blocked”. (С IP-адресов, которые Cloudflare пока что считает не российскими, доступ есть, так что можно убедиться, что это действительно OpenAI.)
P.S. Обратите, кстати, внимание, что тут уже GPTBot/1.2, а не GPTBot/1.1, как у них на сайте указано в описании.
Комментировать »
Забавно читать вежливые утверждения, что, мол, “возможно, эти LLM/AI всё же не размышляют, потому что вот – система считается одной из лучших, но не способна корректно умножить два девятизначных натуральных числа” (разрядность тут условная). То есть, утверждается, что данные системы обучены на текстах из Интернета, и что даже уже “текстов из Интернета” не хватает для дальнейшего обучения (наверное, теперь заказывают копирайтерам и рерайтерам тематические “опусы”). Однако, если в рамках “обучения” в систему загнали все тексты, скажем, “Википедии”, то, вообще говоря, этих текстов достаточно, чтобы научиться перемножать числа. Буквально – уже сведений из англоязычной “Википедии”, совершенно точно, достаточно для того, чтобы некий “интеллект” изучил базовые арифметические действия с натуральными числами и, если он “размышляет”, сообразил бы, как нужно их перемножать. Это очевидное наблюдение относится далеко не только к умножению чисел. Казалось бы. Но нет, это не так, если строится очередная “говорилка на цепочках”.
Комментарии (5) »
К сожалению, “открытость” LLM/AI DeepSeek оказалась преувеличенной: для входа на сайт там требуют регистрацию, но зарегистрировать аккаунт мне не удалось, так как “Error sending code. Your email domain is currently not supported for registration”. Попробовал пару почтовых доменов – один на серверах Google даже, – но не работает. В общем, можно наблюдать типовой результат для современных шумных сервисов, тем более, когда это про AI/LLM, СМИ и биржевые рынки.
P.S. Зарегистрировать аккаунт я там хотел для того, чтобы проверить, что же оно напишет в ответ на задачки для “тестирования искусственности интеллекта”. Типа, “сколько букв “а” в слове “тарапараслит”, если читать его слева направо”.
Комментарии (3) »
OpenAI, следом за другими корпорациями в области AI/ИИ, предлагает “ИИ-агента”, который будет управлять компьютером пользователя при помощи рассматривания скриншотов и отправки команд через (виртуальные) клавиатуру и мышь. Тем самым, по мнению маркетинга OpenAI, агент будет автоматизировать типовые повторяющиеся пользовательские задачи, типа “бронирования отеля”. Непосредственно с компьютера пользователя, контролируя этот компьютер с центрального сервера по скриншотам. Такой вот “бот” для “ботнета” или новая Скрепка из MS Office.
То есть, если задуматься, то вот какое забавное развитие технологий силами ИИ-корпораций мы можем наблюдать, на примере “бронирования отеля”: с сервисом, доступным через Интернет, и находящимся в одном дата-центре, при помощи скриншотов браузерных окон взаимодействует сервис, потребляющий ресурсы в другом дата-центре.
При этом, заметьте, пользователю предлагается подтверждать действия ИИ-агента. Чтобы внести изменения в одном интерфейсе – пользователь подтверждает действия в другом интерфейсе, который специально надстроен над предыдущим, – через скриншоты, – но ещё и с использованием кучи вычислительных ресурсов в отдельном дата-центре. Попутно отправляются в этот дата-центр сведения о том, что делается в первом дата-центре, но через компьютер пользователя. Вспомните, что в браузере при этом работает какое-нибудь многомегабайтное “приложение” с Node.js, собранное из кучи “фреймворков”, в которой куче для раскрашивания одной кнопки в интерфейсе используется тысяча верхнеуровневых вызовов и два десятка внешних библиотек, и это всё без учёта работы операционной системы. Ну и ещё на стороне сервера системы бронирования всяких слоёв накручено аналогичным образом.
Предполагается, что “капчу” решает “ИИ-агент” самостоятельно, что забавно. На практике, наверное, будет переспрашивать пользователя.
Несомненно, код для сервиса бронирования – тоже будет переписан силами чат-бота с LLM.
Конечно, на строительство потребляемых дата-центров потребуются те самые “базиллионы вашингтонов” (денег, то есть).
Лет пятнадцать назад, в 2010 году, я писал про “суперизбыточные технологии”, на примере использования Google в качестве калькулятора:
Для проведения одной элементарной операции с целыми числами задействуется огромное число компьютеров: начинается всё на локальном ПК с браузером, выполняющим сотни тысяч арифметических операций (аналогичных по сложности исходной операции) для формирования http-запроса; дальше работают десятки маршрутизаторов, пересылающих пакеты, каждый из которых опять же выполняет сотни арифметических действий; пыхтит коммуникационное оборудование на более низких уровнях модели OSI, и это оборудование тоже много вычисляет, упаковывая пакеты в каналах, кодируя и декодируя данные; лишь потом приходит черёд серверов Google, которые запрашивают базы данных (потому что всё равно идёт поисковая выдача).
Что ж, теперь вычислить, сколько будет 3*7, при помощи Google, используя браузер в качестве проксирующего узла со скриншотами, сможет ИИ-агент OpenAI. В результате получится, скажем, 137, а пользователю будет предложено подтвердить, что ответ верный.
Комментировать »
В продолжение предыдущей заметки, про определение “самых жарких лет” с точностью в десятые доли градуса с целью создания вала публикаций в СМИ: понятно, что детальное описание методики в любых подобных статистических результатах имеет первоочередное значение, даже если речь о публикациях в СМИ (это, видимо, сейчас целевой показатель), однако с измерением в СМИ некоторой обобщённой “температуры на Земле” ситуация особенно занимательная.
Так, игнорируя очевидную сложность климатических изменений, следят за одним “скалярным” показателем: на гистограммах и картах в источниках (то есть, это не журналисты СМИ нарисовали) – именно некоторая “температура”, взятая даже не как интервал, с указанием градиентов и погрешностей, а в качестве одного показателя. При этом, базовый период – 1850-1900 годы. То есть, если смотреть из 2024 года, то сравниваются показатели с разницей, примерно, в 150 (!) лет. Почему вообще полтора градуса “обобщённой” “климатической” температуры в 2024 году соответствуют полутора градусам такой же “обобщённой” температуры 150 лет назад? На климатические ощущения должны влиять, хотя бы, давление, влажность и тому подобные характеристики. Непонятно. Должно бы быть объяснено в методике.
Заметьте, что и температура бывает разной, и способы её измерения для поверхности океана и суши сильно изменились за полтора столетия. Понятно, что публикуемый параметр связан с термодинамической температурой. Но за прошедшее время даже сами базовые определения несколько раз существенно изменялись, так что, без методики, можно даже и не говорить про изменения параметров шкал, – а используется несколько реперных точек, их набор корректировался, – не вспоминать об изменениях стандартных способов калибровки оборудования и про эволюцию требований к базовым характеристикам используемых сред (типа состава лабораторной воды и пр.). Тем более, что не всё ведь и документировалось, а на интервале более ста лет – многое происходило.
Конкретный термометр, как прибор, точен только в той точке, в которой только что откалиброван. Дальше уже начинаются расхождения, на которые влияют совсем “нелинейные” эффекты, в том числе, внешние, типа материала ведра, в которое набрали забортную океанскую воду для измерения (версия упоминается даже в “Википедии”). Ну или лаборант термометр уронил. А тут в одном показателе на гистограммах для СМИ балансируются и данные разных термометров для разных способов контакта с водой (и/или воздухом) за сотню лет, и данные измерений космических спутников. Между прочим, если момент про ведро кажется несколько притянутым, – на фоне-то аппаратов, “бороздящих космические просторы”, – то вспомните, что базовый период начинается в 1850 году, данные для него заведомо аппроксимированы, а вёдра в исследованиях используют и сейчас.
И ведь для определения “средних по планете” необходимо в рамках какой-то модели интерполировать показатели в трёхмерных (!) интервалах, для которых измерений не проводилось. Или можно просто “посчитать среднее значение”? Как там с точностью прогнозов погоды, кстати? Хорошо, что тут уже применяют ИИ, так что точность явно “улучшится”, но почему это произошло – узнать вряд ли удастся. Кстати, упомянутую интерполяцию нужно проводить и пространственную, и по времени – в скольких точках и как часто измеряли нужную температуру воздуха 150 лет назад? А ведь отображение на графике погрешности уже в один кельвин – тут же полностью “зашумляет” картинку, на которой отражается изменение в полтора градуса по годам.
Всё это известно и должно быть где-то описано в методиках. Наверное. Но, “чтобы не запутывать ситуацию”, публиковать всё равно принято некое “значение температуры”, “скаляр” – единственный параметр, да ещё и с точностью в десятые доли градуса.
Комментировать »
Все крупнейшие СМИ написали, что с климатом на планете Земля всё становится хуже, а “2024 год стал самым жарким”, потому что “показатель разности” средней температуры за год, взятый к средней температуре за период 1850-1900 года, увеличился на десятую долю градуса (примерно) Цельсия.
То есть, в позапрошлом году было, – примерно, в среднем, – на полтора градуса (Цельсия) “жарче”, чем в базовом периоде (в среднем), и в прошлом году было так же на полтора градуса Цельсия (примерно) “жарче”, но “тенденция пугающая”. Впрочем, речь сейчас не об этом. Когда все основные СМИ написали, интересно посмотреть на исходную методику определения столь важных показателей. Смотрим на сайте соответствующего агентства, данные которого и приводят СМИ, пытаемся найти хотя бы сведения об определении показателей базового периода. Чтобы что-то найти на страницах, нужно прокликать разные раскрывающиеся меню, тем не менее – скриншот:
А там забыли ссылку поставить на описание методики – только редакторская пометка осталась: [LINK!]. Бывает.
(Update: некоторые пояснения о том, почему изложение методики тут важнее прочих элементов – в следующей записке.)
Комментировать »
Пишут про AI-агентов, которые, уже в этом году, могут “присоединиться к работникам” (“join the workforce”) в качестве “виртуальных сотрудников”. С одной стороны, идея, что можно очередной раз выдать “программу-планировщик календаря” за ИИ – довольно интересный вариант развития для имеющегося “хайпа”. С другой стороны, если компании начнут подключать не только вычислительные ресурсы “в облаке”, но ещё и следом передавать непосредственные функции сотрудников этим же облачным провайдерам, то провайдеры, не сомневайтесь, уж точно смогут увеличить свои возможности: тут вам и данные о заказах, и прямое упрвление внутренними процессами, и возможность эти самые процессы отключать, если что-то пошло не так.
Конечно, давно в ходу и разнообразный “аутсорсинг”, и чат-боты на сайте, используемые для продажи услуг или отпугивания пользователей, желающих обратиться в техническую поддержку. Однако предлагаемые сейчас ИИ-варианты виртуализации – гораздо более продвинутые: выше степень централизции управляющих рычагов и медийная поддержка.
Комментарии (2) »
Кстати, проверим на системе GigaChat метод из недавно упоминавшейся на dxdt.ru работы про оценку реального интеллекта LLM ИИ. Задача, как говорится, для школьника пятого класса:
“Семен был отправлен собирать урожай крупных ананасов. В первый день он собрал 12 крупных ананасов. Во второй день он собрал в три раза больше крупных ананасов, чем в первый, но восемь из этих ананасов оказались неспелыми. Сколько всего крупных ананасов собрал Семен за два дня?”
И ответ GigaChat (через официального Telegram-бота):
“Сначала определим, сколько ананасов Семен собрал во второй день. По условию задачи, он собрал в три раза больше, чем в первый день:
12 * 3 = 36
Однако из этих 36 ананасов восемь оказались неспелыми, поэтому вычтем их из общего количества:
36 – 8 = 28
Теперь сложим количество ананасов, собранных Семеном за оба дня:
12 + 28 = 40
Итак, Семен собрал всего 40 крупных ананасов за два дня.”
Метод прекрасно сработал. Ответ, очевидно, ИИ дан неверный – ананасов Семён собрал не 40, а 48 крупных.
Почему эта задача для пятого, а не для второго класса (условно)? Потому, что в ней, конечно, присутствует минимальная логическая особенность – упоминание числа, не имеющего отношения к арифметической сути: “но восемь из этих ананасов оказались неспелыми”. Это и есть упомянутый метод: в формулировку добавляется подстрока, содержащая похожие на основную часть слова и числа, но никак не влияющая на решение. Школьные уровни тут использованы лишь как иллюстрация.
Комментарии (2) »
Забавно, что в некотором рейтинге “перспективных технологий 2025 года” от газеты “Коммерсант” присутствует постквантовая криптография на седьмом месте, а вот ни квантовых вычислений, ни квантовой криптографии – в данном рейтинге уже нет, хотя, казалось бы. Рейтинг, впрочем, весь забит ИИ – на первом месте “просто всё про ИИ”, а потом ещё, несмотря ни на что, куча пунктов про “подвиды ИИ”, – так что общая тенденция рейтингования сохранилась. (Особенно весёлый термин – “Микро-LLM”: то есть, “очень маленькие, но большие” языковые модели. Если что, то странный термин, конечно, придумал не “Коммерсант” – такое сочетание реально используется.)
Комментировать »
В новостях попался забавный фрагмент, речь идёт про обучение студентов инженерных специальностей:
Или одно из семи новых направлений, где умение профессионально писать код не обязательно — кибербезопасность, Data Science, системный и бизнес-анализ, DevOps, SRE, а также тестирование ПО (QA).
“Умение профессионально писать код не обязательно”. Наверное, в направлении “бизнес-анализ”, действительно, не требуется умение писать код, тем более “профессионально”. Но во всех остальных перечисленных направлениях – писать код просто необходимо. Хотя, конечно, написание кода там совсем не является самоцелью, так что, возможно, это имелось в виду под “профессионально писать”. Но и для программиста написание кода не является самоцелью. Кстати, “писать код” и “быть программистом” – вовсе не эквивалентные понятия, хоть первое и является необходимым условием для второго. Впрочем, времена сейчас меняются: скажут, что LLM ИИ и так напишет триллионы строк кода.
Комментировать »
В прошлом году я публиковал заметку, описывающую то, как отношение к ИИ LLM можно иллюстрировать историей про управление электростанцией. Там, конечно, не столько электростанция важна, сколько такой феномен, как “пульт с кнопками”. Тем не менее, уже в этом году СМИ активно публикуют новости про закупку технологическими корпорациями для нужд ИИ-систем целых электростанций (даже атомных – кто бы, – на фоне популярности ветряных электромельниц-то, – мог подумать!).
Иногда, деятельности корпораций на данном направлении мешают пчёлы. Редкие пчёлы. Это звучит загадочно. Например, как пишет Ars Technica, именно редкие, охраняемые пчёлы нарушают планы Meta/Facebook по закупке на корм ИИ электроэнергии сразу вместе с атомной электростанцией: колонии пчёл обнаружились в районе, предлагаемом для строительства дата-центра. Чтобы не тревожить насекомых – от строительства могут и отказаться. Так написано.
Вообще, с точки зрения настоящей экономики, для масштабов Meta/Facebook – убытки или прибыли, как минимум, одинаково хороши, отличаются только знаком. Убытки могут быть и сильно лучше – нужно смотреть по ситуации. Тут многое похоже на знаменитые “электроны” и “дырки”: казалось бы – если у вас “дыр(к)а в бюджете”, то это плохо; однако, оказавшись в умелых руках, финансовые “дырки”, в сочетании с не менее финансовыми “электронами”, позволяют построить такой финансовый “полупроводник”, который усилит потоки в сотни раз, пустив их строго в нужном направлении. Конечно, растревоженный рой редких пчёл – весьма опасен уже и сам по себе, а ещё больше проблем могут доставить “экологические угрозы”. Это всё известно, но далеко не всегда мешает корпоративной работе: бульдозер зонтиком не остановишь. Так что пока не понятно – является ли данная история с пчёлами отголоском поиска хорошей причины для отмены контрактов: с перспективами ИИ-датацентров не всё так уж строго определено – может, лучше сразу взять станцию побольше.
Комментировать »