Попытались силами ChatGPT определить дату выпуска японской монеты периода Мэйдзи номиналом в 20 сенов. Загрузили в ChatGPT современной версии (пятой) фотографию именно той стороны монеты, на которой указана искомая дата (ну, такой эксперимент), направили “промпт” на русском языке. ChatGPT узнало монету в 20 сенов, рассказало, что годы таких японских монет обозначаются по периодам императорского правления (это верно), привело пример обозначения (!), а потом заявило, что нужно перевернуть монету и прислать фотографию другой стороны – типа, дата написана на другой стороне, а по имеющейся фотографии определить нельзя. Но на другой стороне написан номинал, а не дата. Дата как раз записана на той картинке, которую в ChatGPT и загрузили (специально).

Очередной типичный и практический пример, показывающий реальный уровень “полезности” данного инструмента и то, сколько там “интеллекта”. А ведь утверждают, что ИИ LLM нужно поручить анализ данных медицинской диагностики: рентгенограмм там, и других подобных данных. Но это одна из самых продвинутых LLM – и не может прочитать год выпуска старой японской монеты, хотя приводит верное описание того, как этот год записывается и интерпретируется.

Да, на таких японских монетах дата указывается по году периода, и записывается набором из нескольких иероглифических знаков. Если слева направо: обозначение “год”, потом номер самого года, потом – обозначение периода. Например (здесь группы знаков разделены точками, для наглядности): 年 . 七十三 . 治明. То есть, если теперь справа налево, то “Мэйдзи 37-й год”, или 1904 “европейский”. На аверсе монеты 1904 года в 20 сенов дата отчеканена справа от латинского обозначения номинала “20 sen” (см. фото ниже). Именно фотографию аверса и отправили для анализа. Присутствие латинских букв и арабских цифр могло бы помочь ChatGPT, если бы там был “интеллект”, но не помогло. На реверсе же монеты написан только номинал “20 сенов”, но японскими обозначениями: то есть, японские цифры там присутствуют, но это не год.

20 sen coin

Аверс монеты – слева на коллаже. Именно эту фотографию и направили в ChatGPT (конечно, в большем разрешении).

Нетрудно предположить, как такой ответ ChatGPT получился: в интернетах на форумах часто пишут про монеты, что, мол, пришлите “фотографию лучшего качества”, “можно понять только по другой стороне” и т.д. Вот наборы таких фраз и склеились в ответ. При этом верное, в общем-то, описание – никак не повлияло на ошибочную формулировку. Потому что описание сконструировано не из смысла запроса, а исходя из набора “токенов” (слов и слогов) и их взаимного расположения. Это – программа. Генератор текстов.

Получается, что ChatGPT таким ответом даже успешно запутало бы незнакомого с предметом пользователя – ведь в предложении перевернуть монету есть логика: да, часто дата отчеканена на другой стороне, не на той, где написан номинал (пояснение: номинал здесь пользователь читает там, где он записан латиницей и арабскими цифрами).

А о том, что вышло бы из ChatGPT после загрузки фотографии реверса, мы в этой записке не узнаем: доступные токены закончились – видимо, картинки потребляют их особенно много.



Комментировать »

Опубликовал на “Хабре” небольшой текст про рекурсивное “центральное встраивание” (center embedding), которое доступно в английском языке, и его связь с восприятием языков и их грамматик. Речь про фразы вроде “The chap the cat the girl owned scratched screamed” – это как раз основной пример из статьи на “Хабре”. В разговорном языке, понятно, такое не встречается, но так-то у меня есть и вариант с вложенностью уровня пять (нетрудно строить по шаблону, конечно):

The ship the crocodile the chap the cat the girl owned scratched gnawed submerged resurfaced.

Годится для тестирования LLM/GPT.

The ship {
 the crocodile {
  the chap {
   the cat {
    the girl owned 
   } scratched
  } gnawed 
 } submerged 
} resurfaced.


Комментировать »

В продолжение предыдущей записки, про LLM и математические задачи. Google пока тоже не публикует технических подробностей о том, кто там и как перебирал и форматировал решения задач Международной математической олимпиады, чтобы получилась “золотая медаль”, однако, в отличие от OpenAI, в официальном новостном сообщении, есть, хотя бы, небольшие и довольно занятные намёки.

Во-первых, пишут, что использовалась некоторая “параллельная обработка” (parallel thinking) внутри модели, но, насколько можно понять, для подбора готовых решений. Цитата: “Эта конфигурация позволяет модели одновременно рассматривать и комбинировать многие возможные решения до выдачи окончательного ответа, вместо того, чтобы действовать по единственной, линейной цепочке рассуждений”. (This setup enables the model to simultaneously explore and combine multiple possible solutions before giving a final answer, rather than pursuing a single, linear chain of thought.)

Во-вторых, для получения решений провели “дополнительное обучение”, подстроенное для подходящих типов задач, и ввели инструкции, подобранные конкретно под задачи ММО (видимо, этого года – иначе нет смысла уточнять дважды). Цитата: “Мы также предоставили Gemini доступ к корпусу специально отобранных высококачественных решений математических задач и добавили в инструкции некоторые подсказки и советы общего характера о том, как решать задачи ММО”. (We also provided Gemini with access to a curated corpus of high-quality solutions to mathematics problems, and added some general hints and tips on how to approach IMO problems to its instructions.) Это самый интересный кусок из официального сообщения. Его можно понимать и так, что добавили базу с содержанием решений задач именно такого типа, как потом спрашивали, а позже ввели “советы” с ответами конкретных задач. А можно понять и так, что в процессе “настройки” корректировали входные данные, направляя вывод генерации к текстам верных доказательств (перечитайте в исходнике: a curated corpus of high-quality solutions).

Проще говоря, подробного описания процесса нет, а так – это уж слишком сильно напоминает улучшенный вариант традиционного уже упражения “ИИ сдаёт ЕГЭ” – выбираем тот сгенерированный текст из десятков выданных LLM вариантов, который набирает больше баллов.



Комментировать »

В продолжение предыдущей записки, про решение задач с Международной олимпиады средствами LLM: самое забавное, что, например, решение для первой задачи ММО-2025, которое сгенерировала “экспериментальная модель”, почему-то содержит ответ в самом начале – то есть, буквально, написано: смысл решения – доказать, что правильный ответ – правильный. Вот этот фрагмент, в виде скриншота (потому что там нужно “рендерить” LaTeX и Markdown):

Screenshot

Далее там идёт очень большой и не очень внятный сгенерированный текст доказательства, перегруженный отступлениями, понимать который довольно сложно, но не потому, что задача сложная, а потому, что много лишнего в “рассуждениях”. Сомневаюсь, что полезно делать его полный разбор. (Нет, сама исходная задача не требует таких больших объёмов для записи решения.)

Небольшое техническое пояснение: первая задача IMO 2025 это комбинаторная геометрия, нужно посчитать возможные варианты покрытия целых точек на решётке прямыми – это один из самых популяных “сеттингов” для олимпиадных задач; соответственно, набор возможных вариантов – {0, 1, 3} – появляется в процессе решения, поскольку составляет основную содержательную часть этого решения: надо понять, что других чисел (это количество подходящих прямых) там не может появиться; и то, что отсутствует 2, это, вообще говоря, не самый тривиальный момент (но и не самый сложный). Так что то, что решение от LLM OpenAI построено на доказательстве верности состава ответа, без указания на то, как этот состав получен, – почему, хотя бы, там не {1, 2, 3}, – выглядит весьма странно.



Комментировать »

Сообщают (осторожно, ссылка на Twitter), что некая “внутренняя”, экспериментальная модель от OpenAI продемонстрировала уровень “золотой медали” при решении задач Международной математической олимпиады (ММО) 2025 года. Подробностей, как обычно, нет, но опубликованы решения, которые сгенерировала та модель. Всё это занятно. Поделюсь ниже скриншотом по этой же теме, он из недавней выдачи “общедоступной” LLM той же корпорации – ChatGPT 4o.

Screenshot, ChatGPT

“Нет, 205 не делится на 5” – считает данная LLM. Сам транскрипт относится к “обобщённой” задаче про набор воды вёдрами – там было три ведра огромного объёма и решать нужно было, понимая общие принципы обратимости/делимости. Откуда, собственно, и взялся НОД (gcd). Так что количество шагов и пр. – это более или менее близко к задаче, вот только использовать три ведра LLM не “догадалась”, без подсказки. Но это детали. Главное – это вывод про то, что “205 не делится на 5”.

Но, предположим, экспериментальная модель для ММО – существенно лучше, конечно. Хотя, и уровень золотой медали ММО, как бы, существенно выше.

Забавная история.



Комментарии (1) »

Повышение уровня абстракции – полезный и важный элемент процесса обдумывания, так как позволяет задействовать механизм “разрешения противоречий”. Если такой механизм есть, конечно.

Возьмём пару цитат и ещё одну, не менее замечательную:

“Нас невозможно сбить с пути, нам всё равно, куда идти”
М. М. Жванецкий(?), (есть вариант “никому не сбить”, не важно).

“У самурая нет цели – только Путь”
“Хагакурэ”, Ямамото Цунэтомо. (Иногда напоминаю коллегам эту важную максиму.)

Это почти об одном и том же. В первой цитате – всё равно, куда идти, но идти необходимо, иначе исчезает содержательная часть. Именно ход создаёт путь, который, по определению, тут не может вести к конкретной цели. Цели нет. Только Путь. Как и у самурая из второй цитаты. Почти.

“Всё равно куда” перекликается с одной из самых знаменитых цитат из “Алисы в Стране чудес”:


– Скажите, пожалуйста, куда мне отсюда идти?
– А куда ты хочешь попасть? – ответил Кот.
– Мне все равно… – сказала Алиса.
– Тогда все равно, куда и идти, – заметил Кот.
– …только бы попасть куда-нибудь, – пояснила Алиса.
– Куда-нибудь ты обязательно попадешь, – сказал Кот. – Нужно только достаточно долго идти.

Л. Кэрролл.

Эта цитата содержит машинерю, позволяющую детально разобрать две предыдущих цитаты. Всё равно, куда идти. Но если идти достаточно долго, то куда-нибудь попадёшь. Долгий ход, как сейчас говорят, “определяет”. Если недостаточно долго идти, то не получится дойти даже куда-нибудь (настолько размытое пространство). Как понять, что идёшь уже достаточно долго? Нужна точка отсчёта, иначе всякий раз может оказаться, что ход недостаточно долгий и никуда не приводит. Где предельный переход? Возможен ли он? У самурая нет этих проблем, из-за глубинных свойств его пути.

Занятно, что, согласно “Алисе в Стране чудес”, даже когда путь отделяется от цели, он обязательно приводит куда-нибудь. Это здесь чисто категорийное свойство пути – приводить куда-то. Стрелка.

К сожалению, такое определение недостаточно абстрактно: выходит, что если начать просто “идти” и “идти”, то это ещё не путь. В “невозможно сбить с пути”, не только путь появляется раньше цели, но и сказано, что куда-то мы должны идти. Да, всё равно – куда, но ведь – куда-то! Тем не менее, попытка отделить свойство, создающее путь, от цели, через “невозможность сбить с пути”, это абстракция достаточно высокого уровня, чтобы начать строить теорию категорий. Удивительно.

Тут-то и можно заметить преимущество положения самурая из самурайской цитаты, по сравнению с ситуацией “всё равно куда”. Во “всё равно куда” – цель неявно проступает, если попытаться задуматься и начать искать способ разрешения противоречий: как определить, что всё равно, куда? Ведь “куда” подразумевает некоторое направление пути, почти что цель. Для “куда” нужно ввести дополнительные понятия, чтобы отличать одно “куда” от “другого”. А про самурая нельзя сказать, что ему всё равно, куда идти. У самурая отсутствие цели постулируется, так что “куда” – просто не возникает. Все “куда” поднимаются для самурая в Путь (см. иллюстрацию).

Дзен самурая – дзен более высокого уровня, на фоне которого “всё равно куда” выглядит некоторым мельтешением: суетятся, бегают куда-то, всё равно, куда – лишь бы бегать. Самурай не суетится. У самурая нет цели. Только путь.



Комментарии (1) »

ChatGPT, к сожалению, продолжает зацикливаться странным образом. Мне вот выдало зацикленный код LaTeX, в весьма простом случае – см. скриншот.

ChatGPT boxes

“\boxed{…” – выводилось в браузер несколько минут, но ничего кроме “\boxed{…” не появилось, так что пришлось остановить, переключив чат.



Комментировать »

“Люди настолько обленились с этим ИИ, что уже и капчу самостоятельно решить не могут”.



Комментировать »

Кстати, в продолжение темы “О капчах”. Сейчас картиночные капчи мне попадаются редко (зато от Cloudflare, с кликом на кнопку, то и дело). Тем не менее, пока на “Хабре” была капча, которая хоть как-то работала, в том смысле, что иногда удавалось её пройти, я насобирал небольшую коллекцию особенно “продвинутых” вариантов. Коллекция – ниже.

Вообще, капча сейчас – необходимый инструмент, конечно, тут спору нет, пусть и к сожалению. На dxdt.ru тоже есть довольно простая капча с текстовыми символами – и она не всегда помогает. Проблема в том, что типовые капчи давно научились быстро решать, – те, кому нужно, – и сейчас увлечение сопоставлением картинок местами приобретает какие-то уж совсем замороченные формы. Вот как на скриншотах.

Captcha screenshot

Две капчи. Сопоставление по утилитарному назначению. Да, тут можно догадаться, наверное, методом исключения. Особенно, на картинке справа: медведь вряд ли подходит к кукольной мебели – выбираем радиоуправляемую машинку типа “монста-трак”. Нет? Не сработало?

Captcha screenshot

Ещё две. Я попробовал, будут ли трудности у ChatGPT (GPT-4o) с этими капчами. Левую капчу я разделил на два блока – с чашкой и всё остальное. Показал ChatGPT сперва картинку чашки, спросил, что нарисовано, получил подробный и верный ответ. Потом показал вторую часть (блок картинок с вариантами) и спросил, может ли ChatGPT найти то, что звучит так же, как чашка, при падении (на английском, по привычке, но, думаю, это не важно здесь). GPT-4o справилось примерно за секунду – ответ: все бутылки звучат так же, как чашка.

Капчу, которая справа, про птичьи ноги, я показал в одной картинке, предложив перевести текст с русского и отгадать загадку. Тут ChatGPT сплоховало, объявив ноги сверху – ногами уток (это верно, но слишком узко), а потом предположив, что утка нарисована справа в нижнем ряду (а там вряд ли утка). Но, тем не менее, от ИИ уровня ChatGPT капчи данного типа вряд ли защищают, а вот для человека – трудновато, нужна “экранная лупа”. Впрочем, нельзя исключать вариант, что теперь решение капчи назадачливым пользователем сайта подразумевает помощь ИИ – так сказать, “вайб-капчинг”.

Captcha screenshot

А это уже больше похоже на какой-то тест Роршаха. Видимо, всё же нарисована лягушка. Почему лягушка должна подходить к варану-крокодилу (или что это?), а не к утке, у которой на спине камера от “гугломобиля”? Наверное, опять методом исключения. Дальше – сложнее.

Captcha screenshot

Числа? Похоже, что вверху слева – это 0.

Captcha screenshot

Перечитайте вопрос: чем тут можно писать? Карандашей или мелков – на картинках нет. А на клавиатуре – печатают.



Комментировать »

Относительно недавно появились общедоступные автоматические ИИ-генераторы “фотореалистичных” изображений, которые работают по текстовому описанию и готовы генерировать разнообразные сюрреалистичные сцены. Эффект от этих фильтров регулярно оценивается как что-то принципиально новое, в плане “фотореалистичности” невиданных сцен. Конечно, отрицать влияние и новизну нельзя, пусть качество выдачи и хромает. Но всё же посмотрите на открытку со скриншота ниже – это открытка 1909 года (больше ста лет назад), из коллекции Библиотеки Конгресса.

Postcard image



Комментировать »

Попалось занятное сравнение, которое использовано в качестве риторического примера, то есть, комментария-иллюстрации, в контексте рассуждений о том, что цели и методы сверхразумного ИИ могут быть непознаваемы для человека:

Шимпанзе может быть спокоен, что люди не смогут его достать, если он заберётся на дерево: он никогда не сможет предсказать ни стрелы, ни лестницы, ни цепные пилы, ни вертолёты. Что [если] суперинтеллектуальные стратегии находятся так же далеко от нашего набора решений, как [решение] “используй вертолёт” – от набора решений шимпанзе? (A chimp might feel secure that humans couldn’t reach him if he climbed a tree; he could never predict arrows, ladders, chainsaws, or helicopters. What superintelligent strategies lie as far outside our solution set as “use a helicopter” is outside a chimp’s?)

В исходном тексте речь про угадывание местоположения по фотографии, при помощи современного LLM/ИИ. То есть, речь про программы, которые люди запускают на огромных многопроцессорных системах, попутно скармливая этому ИИ терабайты текстов и картинок, а пример про шимпанзе – это лишь пример того, как могли бы иллюстрировать свои рассуждения сторонники непостижимого сверхразумного ИИ, якобы происходящего из этих программ. Но вообще-то, тут больше интересна именно ситуация с крупным древолазающим приматом, чем с LLM/ИИ.

Во-первых, понять и описать, что может “думать” шимпанзе, как шимпанзе видит мир, взбираясь на дерево – весьма и весьма сложно, если вообще возможно – не придумали пока таких методов: тут бы с описанием человеческого восприятия реальности справиться, а то – шимпанзе. Это не летучая мышь, конечно, и не кошка, но совсем другая история, так или иначе, да и рассказать, что к чему, не может. То есть, иллюстрация работает в другую сторону: вместо непонимания методов сверхразумного ИИ хорошо бы перейти к попыткам понимания того, можно ли вообще рассуждать о восприятии вертолётов шимпанзе.

Во-вторых, шимпанзе, скрывающийся на дереве, вообще-то прав в том, что человек вряд ли может даже приблизиться к его, шимпанзе, уровню владения искусством лазания по веткам. И если бы, по аналогии с современным ИИ, шимпанзе конструировал правильных человеков (то есть, супершимпанзе), то, осознавая важность лазания, он бы попробовал снабдить конструируемых и всем опытом лазания, и, предположим, специальными длинными руками-щупальцами, в количестве, как минимум, шести штук. Это могло бы показаться шимпанзе логичным – чему ещё учить этих конструируемых? Интернет с веб-страницами, забитыми письменными источниками, шимпанзе недоступен. А как нужно лазать – это он может показать на высочайшем уровне. Поэтому минимум шесть рук – нечего экономить на “процессорах”! (Впрочем, и переборщить тут нельзя. Десять рук-шупалец – могут составить проблему, цепляясь за ветки, когда цепляться не нужно.)

Да, люди обычные, – не те, которых мог бы конструировать шимпанзе, – пока не в состоянии проникнуть в модель мира, этим шимпанзе используемую. Но всё же можно предположить, что шимпанзе, почуяв угрозу со стороны сконструированных им многоруких “человеков”, не станет полагать, что сумеет укрыться от них на дереве. “Беда. Они лазают гораздо лучше. Сейчас до меня доберутся!” – подумает шимпанзе, используя какую-то свою, недоступную нам, простым философствующим зрителям, манеру представлять мир. И не станет лезть на дерево.

Он постарается дождаться вертолёта.



Комментарии (1) »