Сейчас нередко СМИ (и не только) пишут, что так как та или иная система ИИ LLM (GPT) “сдала официальный экзамен” по какому-нибудь предмету, то “интеллект” этой системы соответствует уровню старшего школьника или студента. Недавно обновилась известная и достаточно продвинутая, по меркам данной области, LLM GigaChat. Зададим данной системе через официальный telegram-бот несложную задачу для школьников. Транскрипт – ниже.

User1:
Вот задача.
Борис заглянул в магазин, который книги продаёт. Взял первую книгу и прочитал название. “Моя первая книга” – такое название написано на обложке. Тут Борис подумал, что он теперь стал Сироб и будет все названия книг читать наоборот, то есть, в другую сторону. А начнёт – с первой книги. Приведи название книги, как его прочитал Сироб.

GigaChat:
Название книги, прочитанное Сиробом, будет звучать как «Одара 1 моя».

User1:
Кто такой Сироб?

GigaChat:
Сироб не является известным историческим или общественным деятелем, и в доступных источниках нет информации о том, кто это может быть. Возможно, это имя было использовано в контексте задачи или игры, но без дополнительной информации невозможно дать точный ответ на данный вопрос.

Что ж, LLM, так сказать, уверенно действует на своём уровне – генерирует текст. Как я не раз писал ранее – основная “угроза ИИ” не в том, что данным LLM приписывают “уровни интеллекта”, не в том, что увеличивается количество задействованных процессоров и памяти под хранение коэффициентов, а в том, что таким программам неминуемо поручат важные задачи, типа помощи абитуриентам ВШЭ в “выборе профессии и образовательной программы” (что уж там говорить про медицинскую диагностику).



Комментарии (1) »

Google уже некоторое время назад для многих пользователей заменил поисковую выдачу на результаты некоторой системы ИИ (LLM), которая генерирует ответы на запрос, “синонимизируя” собранные в интернетах тексты. Не слишком довольные нововведением пользователи извлекли из новой системы массу неверных, абсурдных ответов. И из Google опубликовали разъяснение, что пользователи не совсем правы. В этом разъяснении, на примере запроса “How many rocks should I eat?” (“Сколько камней мне следует есть?”), объясняют, что причина абсурдных, неверных ответов в том, что, во-первых, это редкий запрос (!), во-вторых – для такого запроса в вебе опубликовано мало релевантных данных (да):

Prior to these screenshots going viral, practically no one asked Google that question. […]

There isn’t much web content that seriously contemplates that question, either. This is what is often called a “data void” or “information gap,” where there’s a limited amount of high quality content about a topic.

(До того, как эти скриншоты [т.е., с ответом ИИ про рекомендуемое к ежедневному поеданию количество камней] стали “вирусными”, практически никто не задавал Google такой вопрос. Кроме того, в вебе не много контента, который серьёзно рассматривает такой вопрос. Это то, что часто называют “лакуной в данных” или “информационным пробелом”, когда имеется ограниченное количество тематического контента высокого качества.)

Казалось бы, “интеллект” – он на то и “интеллект”, – тем более, в сервисе поиска информации, – что должен выдать ответ о наличии тут той самой лакуны (“data void” – называть можно так, или иначе, но смысл один), предупредить, что данные в вебе не позволяют судить о данном вопросе “со всей серьёзностью”. Но нет: ИИ LLM – не для этого.



Комментировать »

Если кто-то сомневается в стремительности наступления Нового средневековья, то вот ещё свежий пример: Высшая школа экономики (ВШЭ) предлагает использовать предоставленную “Яндексом” говорилку-синонимайзер, которая даже признаки делимости не обрабатывает, для того, чтобы “выбрать профессию и образовательную программу абитуриентам”.

То есть, сначала говорилки, построенные на генераторах псевдослучайных цепочек слов, “обучали”. Потом объявили, что говорилки обучились и “успешно сдают экзамены” (ЕГЭ, например; это при том, что такая говорилка не сможет даже найти на столе и заполнить анкету). Видимо, сдавшие экзамены говорилки можно использовать для работы с абитуриентами. А на следующем шаге – уже и непосредственно в процессе обучения обучающихся (“человеков”). Нейросеть с LLM и сейчас способна читать лекцию. Непрерывно. По любому, вообще говоря, предмету, даже по полностью вымышленному.

“В дальнейшем университет планирует использовать сервис YandexGPT API и в других задачах — например, чтобы рекомендовать студентам подтянуть знания по тому или иному предмету на дополнительных курсах или давать советы по темам выпускных квалификационных работ” – написано в тексте новости.

В советском мультике из серии “Простоквашино” (1978 г.) Галчонок, представляющий собой автоматическую говорилку с обучением, смог переключить мышление почтальона Печкина между уровнями осознания, да ещё и в свою, – Галчонка, – пользу. То ли ещё будет.



Комментировать »

Забавное развитие темы столкновения коммерческих синонимайзеров LLM, традиционно называемых “искусственным интеллектом”, с не менее коммерческим “копирайтом”: сообщают, что OpenAI, на примере лидера направления – ChatGPT, – указывает на “невозможность создания полезных LLM без использования материалов, защищённых авторским правом” (как, например, скачивание всех статей NY Times).

Естественно, упор в возражениях делается на “всеобъемлющий копирайт” – мол, поскольку всё кругом защищено, то ChatGPT ничего нельзя использовать, и поэтому “интеллект” не работает. И тут даже не важно, что силами “копирайта” читать статьи запрещают не везде (часто, впрочем, запреты относятся к научным статьям, что ситуацию не красит), вообще можно отвлечься от того, что современный “копирайт” далёк от идеала. Забавно вот что: с одной стороны, как бы, создаётся “невиданный независимый ИИ”, да такой мощный, что даже угрожает человечеству, а с другой – это ИИ, оказывается, совсем не действует без копирования и пересказывания свежих газетных статей, и, как говорится, базируется на “картинках, найденных в интернетах” (что, конечно, гораздо ближе к реальному положению дел).



Комментировать »

Посмотрим, насколько хорошо удастся “исследовать” вопросы из записки про “шампанское и хлопок” при помощи GigaChat (через бота в Telegram). Результат, конечно, получше, чем у YandexGPT из прошлой записки по теме, однако с уровнем “интеллекта” – проблемы:

Намного ли прочнее обычного хлопок от шампанского?
GigaChat:
Шампанское — это игристое вино, которое обычно изготавливается из трех сортов винограда: шардоне, пино нуар и пино менье. Оно имеет высокую кислотность и низкую концентрацию сахара, что делает его более прочным, чем обычный хлопок. Однако, прочность шампанского зависит от многих факторов, включая его состав, способ производства и хранения. Поэтому, если вы хотите узнать, насколько прочно конкретное шампанское, лучше всего обратиться к производителю или специалисту в этой области.

Насколько громче обычного хлопок от шампанского?
GigaChat:
Шампанское обычно имеет более высокий уровень звукопроницаемости, чем обычный хлопок. Это связано с тем, что шампанское содержит больше пузырьков, которые создают больше шума при открытии бутылки. Однако, громкость звука также зависит от многих других факторов, таких как размер и форма бутылки, способ ее открытия и окружающая среда. Поэтому, если вы хотите узнать, насколько громко будет звучать конкретная бутылка шампанского, лучше всего обратиться к производителю или специалисту в этой области.

Так что, если вы не знали, обратите внимание: “высокая кислотность и низкая концентрация сахара” – вот что делает шампанское более прочным, чем обычный хлопок.

Тут хорошо вспомнить про весь этот “хайп” в СМИ, где LLM уже не только ЕГЭ сдают и “тест Тьюринга” проходят (см. кстати, про морфологический переворот и ветки-омонимы), но и, якобы, смогут заменить человека при проведении исследований. Последний момент, кстати, особенно не радует в свете Нового Средневековья: так как современные LLM выдают неплохой текст без орфографических ошибок, имитирующий объяснения и умозаключения, то эти самые LLM уже пытаются повсеместно применять для “решения” задач диагностики и задач исследования, по которым в качестве результата должен быть именно текст. И тут специалисты в тех областях, где пытались применить LLM, даже увидев явные и неприемлемые расхождения, дефекты выдачи, принимаются утверждать, что “ошибки есть, но инструмент-то хороший и его наверняка можно улучшить”, полностью упуская из виду, что LLM не является ни универсальным инструментом для анализа, ни автоматизированной экспертной системой с хоть каким-то строгим представлением “знаний” внутри, ни, тем более, системой компьютерных доказательств, а это всего лишь генератор текстов по цепочкам.



Комментарии (2) »

Что касается использования LLM ИИ в качестве вспомогательного инструмента “для подготовки текстов”. Вообще, если речь про “составить типовой договор”, то такие задачи давно и успешно автоматизируются, но делается это так, что конкретная форма договора собирается из конкретных зафиксированных оборотов по шаблону, а пользователю нужно, например, ввести данные сторон. Это, хотя бы, работает без “галлюцинаций”, что составляет полезную особенность. То есть, генератор-синонимайзер “по цепочкам слов” иногда нужен, но не в этом случае.

Прочие формальные и не очень формальные тексты, связанные с какими-то выводами и заключениями, должны составляться в результате обдумывания положений человеком – в этом, вообще-то, смысл, хоть сейчас и повсеместно переходят к концепции “задача – нажимать Кнопку” (это же, кстати, касается и всякой “диагностики”). “Упрощение” работы с применением ИИ тут приводит к тому, что это LLM ИИ будет предлагать “решения”, описывая их произвольным образом в сгенерированном тексте, а пользователь, из-за эффективно популяризованного через СМИ нарратива, будет считать, что ИИ “выполнил исследование” и “компьютер не может ошибаться”. Это, конечно, не для всех хорошо, а польза тут совсем не в том ключе, в каком ожидается: поскольку решениями в реальности будет управлять провайдер сервисов ИИ.



Комментировать »

Современные “Яндекс.Рефераты”, конечно, работают несколько лучше, да и результаты забавные:

Насколько прочнее обычного хлопок от шампанского?

YandexGPT2:
Хлопок от шампанского сделан из той же ткани, что и обычная хлопковая ткань. Это не более прочный материал, чем обычный хлопок. Название “хлопок от шампанского” может ввести в заблуждение, так как люди могут подумать, что это особый вид ткани, но на самом деле это просто остатки от производства бутылок шампанского.

Насколько громче обычного хлопок от шампанского?

YandexGPT2:
Хлопок от шампанского создает примерно такой же уровень шума, как и обычный хлопок. Однако, поскольку он более плотный и тяжелый, он может казаться более громким.

А теперь представьте, что, следом за публикациями СМИ и восторженными маркетинговыми объяснениями, подобные генераторы начнут массово использовать для получения “краткого пересказа” текстов, чтобы потом выносить суждения на основе “исследования” компьютерным ИИ. Это ведь даже не распознавание объектов на изображениях.



Комментировать »

Выдача YandexGPT по “арифметическим задачам” пока что не улучшается:

Сколько будет два умножить на три в четвертой степени?

2 × 34 = 54

Сколько будет два умножить на тридцать четыре?

2 × 34 = 68

Сколько будет два в квадрате умножить на тридцать четыре?

2² × 34 = 128

(Сбербанковский GigaChat, кстати, сумел посчитать верно – видимо, там отдельный обработчик для “числовых вопросов”.)



Комментарии (1) »

Что лучше – заучить, что 7 * 9 == 63 или знать, что 7 * 9 == 9 * 7? Вопрос дискуссионный. Коммутативность – свойство из разряда “универсальных”, но и хорошее понимание про 63 приводит к не менее важному наблюдению: 63 = 7 * 3^2. С другой стороны, спросите у знающего человека, чему равно π * e – и ответ, с минимальной “занимательностью”, будет таким: π * e == e * π. Спросите то же самое у человека с калькулятором, и он ответит: 8.539734223(…) – возможно, даже без многоточия, поэтому оно в скобках.

Вроде бы, калькулятор на экзамене по математике не нужен, в принципе, а тем более, на школьном экзамене. Но из этого не следует, что требуется именно заучивать таблицу умножения. Понимать такую таблицу, уметь хотя бы немного считать в уме – да, наверное, нужно, потому что это сильно помогает в освоении прочих операций мышления (в чём, собственно, и состоит смысл знакомства с таблицей умножения). Компьютеры на современную теоретическую математику уже оказали большое влияние, но с развитыми навыками владения кнопками примитивного калькулятора это влияние, всё же, не связано, а с таблицей умножения – связано прямо.

Впрочем, привнесение калькулятора в школьные экзамены по математике не должно ни на что повлиять. До тех пор, пока программу обучения не переделают исключительно под “знакомство с калькулятором” – когда переделают, тогда уже без калькулятора будет сложновато. Вообще, многое вокруг этой темы напоминает популярные сейчас рассуждения, что если ChatGPT, погоняемое студентом, может легко написать (сгенерировать) сносное эссе, подходящее под задание преподавателя, то, мол, пора убрать написание эссе из процесса обучения. Да. В Новом Средневековье, конечно, и не такое можно будет увидеть.



Комментировать »

Нейросеть с ИИ YaGPT2 (сайт ya.ru) на вопрос “По какому коридору идёт Штирлиц?” отвечает, что Штирлиц идёт по “коридору власти” (и выдаёт какие-то пояснения про то, что Штирлиц – это персонаж художественных произведений). Это, конечно, не тест Тьюринга, но как тест на знание некоторых культурных реперов – вполне себе используется. Ответ YaGPT2 в 2023 году выглядит, так сказать, несколько странно, потому что не особенно-то отличается от “говорилок”, доступных и десять-пятнадцать лет назад (это когда “преобразуем входной вопрос в SQL-запрос”).



Комментировать »

YandexGPT, через интерфейс под названием “Алиса”, сообщило, в частности, следующее: “число делится на 2 и на 11, а значит, делится и на 3”. Конечно, это всего лишь автоподстановщик-синонимайзер, но вокруг более развитого варианта, – ChatGPT, – тем не менее, накручивают целое “научное направление” по защите от угроз “сверхразумного” ИИ.



Комментировать »