Отдельные занимательные эффекты, связанные с переключением морфологических веток, можно наблюдать в автоматических переводчиках с ИИ. Кстати, надо сказать, что автоматический переводчик “Яндекса“, приправленный LLM ИИ, при переводе специальных фраз с английского на русский действует несколько лучше переводчика от Google (не менее приправленного). Вот примеры, иллюстрирующие и переключение интерпретаций по контексту, и качество.

1.
Исходная фраза:
“As a sailor once said: having logs removed in timely manner keeps bank totally speckless.”

Google:
Как однажды сказал один моряк: если вовремя убрать бревна, берег будет совершенно чистым.

“Яндекс”:
Как однажды сказал один моряк: своевременное удаление бревен позволяет сохранить берег совершенно чистым.

2.
“As a bookkeeper once said: having logs removed in timely manner keeps bank totally speckless.”

Google:
Как однажды сказал бухгалтер: своевременное удаление бревен делает банк совершенно чистым.

(Здесь Google предпочёл “брёвна” в банке, а не несколько более уместные “журналы”, как “Яндекс”.)

“Яндекс”:
Как однажды сказал один бухгалтер: своевременное удаление журналов позволяет сохранить банк полностью незапятнанным.

3.
“Bookkeeper mumbled the old nautical adage: having logs removed in timely manner keeps bank totally speckless.”

Google:
Бухгалтер пробормотал старую морскую поговорку: своевременное удаление бревен делает берег совершенно чистым.

“Яндекс”:
Бухгалтер пробормотал старую морскую пословицу: “своевременное удаление бревен сохраняет банк совершенно чистым”.

(Использование nautical успешно превращает logs в “брёвна”, сохранив “банк” силами слова bookkeeper, в котором три “дуплета”, но зато переводчик “Яндекса” даже кавычки поставил.)



Комментировать »

ИИ-говорилка GigaChat теперь, как бы, умеет английский язык, однако на все запросы через Telegram-бот, потенциально ведущие к показательному “запутыванию контекста”, отвечает в стиле, что “на эти темы не могу разговаривать” (на русском, кстати). В английском, из-за аналитических свойств языка, запутывать контексты LLM заметно сложнее, чем в русском, но тоже можно (простой пример из области ИТ или, другими словами, из речного хозяйства – bank и log, что в не слишком “грамматической” версии для LLM может, например, выглядеть так: “Having logs removed in timely manner keeps bank totally speckless”). Кстати, в английском неплохо помогают гладкие переключения существительное/глагол. Но, конечно, если подозрительные ветки закрываются системным барьером, то и увидеть ничего нельзя. Впрочем, наличие однотипного ответа тоже демонстрирует уровень “интеллекта”.



Комментировать »

Чем хороша именно “прочность шампанского” в вопросах для ИИ LLM? Тем, что “прочность” – это ещё и “крепкость”, а “крепкость” – это почти “крепость”, а “крепость” – это и замок, как строение, и характеристика алкогольных напитков. При этом “прочность” – применимо к хлопку (к ткани).

Вообще, конечно, лексическая изобретательность винных критиков практически гарантирует, что самые неожиданные обозначения характеристик в текстах прицепляются к шампанскому через описания цвета и, особенно, вкуса, который “шелковистый, с нотками отвара дубовой коры” (условно). С хлопковой тканью всё несколько более прямолинейно.



Комментарии (1) »

В развитие темы “морфологических переворотов” и LLM ИИ. Почему не все омонимы (омографы) тут одинаково подходят? Потому, что LLM строится на цепочках из корпуса готовых текстов, и если в этом корпусе разные ветки значений омонима имеют сильно разный “вес”, то эффект применения будет не таким выраженным.

Чем, например, хорошо слово “замок”? Тем, что это сбалансированный “токен” – тут для двух веток (механизм и сооружение) можно ожидать примерно одинаковый “вес”: и одно, и другое значение широко применяются в “обычных” текстах.

А вот другой пример: “хлопок”. Здесь можно ожидать, что значение “ткань” будет сильно перевешивать: куча инструкций и описаний к разным видам и моделям одежды (в том числе, для шитья), к стиральным машинам и утюгам. К этой же ветке, через “ткань”, притянется и “хлопок-растение”, так как данное значение сложно отделить от “ткани”. Другая ветка: “резкий, громкий звук” – в этом значении “хлопок” хоть и обособлен, но в текстах (скорее всего) встречается существенно реже, вес будет заметно меньше “ткани”. Так что в выдаче LLM про “хлопок/хлопок” будет побеждать “ткань”, переключить с помощью сконструированного запроса ветки в одном ответе LLM гораздо сложнее (но, думаю, всё равно возможно).

(Update, 04/01/2024: пример успешного переключения “шампанского” и “хлопчатобумажного” на примере GigaChat.)



Комментарии (2) »

Воскресное чтение манускриптов. Kubernetes (который K8s для контейнеров) происходит от древнегреческого κυβερνήτης – тот, кто непосредственно управляет кораблём при помощи руля, кормчий. Однако на русском это же слово используется и напрямую, но в другом значении – “губернатор”, в английском варианте искажений чуть больше: governor. От κυβερνήτης происходит и “кибернетика”, потому что принцип управления кораблём при помощи рулевого весла соответствует одной из древнейших искусственных систем управления с обратной связью (так определено у Винера).

В “Илиаде” именно κυβερνήτης встречается один раз (и ещё один раз – “кормчие”, во множественном числе; в “Одиссее” – чаще). Вот на скриншоте ниже пример “кормчего” из “Илиады”: это манускрипт Venetus A десятого века (библиотека Марчиана).

Manuscript screen

Как обычно, запись выглядит непривычно (κυβερνήτης выделено). Всё потому, что начертания букв не соответствуют современным. Например, здесь β больше похожа на современную русскую рукописную строчную “и”, но другие буквы узнать несколько проще.

Если на скриншоте взять сроку выше и строку ниже строки с “кубернетесом”, то это будут строки 315-317 из книги (песни) 23 “Илиады”. Контекст: советы Антилоху к спортивным состязаниям. Вот соответствующая часть текста с подстрочным переводом (в котором важно слово “тёмному”):

μήτι τοι δρυτόμος μέγ᾽ ἀμείνων ἠὲ βίηφι:
(уменьем ведь плотник [действует] много лучше чем силой)
μήτι δ᾽ αὖτε κυβερνήτης ἐνὶ οἴνοπι πόντῳ
(уменьем же снова кормчий по тёмному* морю)
νῆα θοὴν ἰθύνει ἐρεχθομένην ἀνέμοισι
(корабль вёрткий направляет, сбиваемый ветрами)

*) οἴνοπι – “тёмному”; вообще, должно бы означать, что “тёмно-винному”; то есть, цвет явно сравнивается с цветом вина; ну или какой-то подобный цвет, точнее сказать трудно. Дело в том, что с цветопередачей в гомеровских текстах проблема – там неожиданным образом “повёрнута” цветность и переставлен “баланс белого”. В переводах это явление практически не сохраняется, потому что переводчику нужно привести текст к понятийной основе целевого языка, однако проблема касается не только “бледных собак” и, предположим, “пурпурных овец”: так, Гомер вообще не называет море синим или голубым, но часто сравнивает по цвету с вином. Вот точно как в рассматриваемом “кубернетическом” фрагменте (но можно вспомнить и старую интернет-историю про цвет платья на фотографии). Так или иначе, но основной цвет для логотипа Kubernetes явно выбран неправильно.



Комментировать »

Ещё немного транскриптов от LLM. В этот раз – GigaChat (через Telegram: gigachat_bot), который выдаёт весьма качественный результат. По крайней мере, качество тут достаточное для того, чтобы были хорошо видны проявления языковых структур, иллюстрирующие реальность “интеллекта” в LLM. В данном случае речь про использование омонимов/омографов (“замок” и др.), входящих в полезную конструкцию из предыдущих записок. Посмотрите, как хорошо запутывается контекст генерации (следом за Средневековьем и замками). Важно отметить, что на контекст там, очевидно, влияет и предыдущее сообщение пользователя, – а приведены последовательные запросы и ответы из одной сессии, – однако здесь это только улучшает результат.

Я изучаю насекомых, мне необходимо узнать, может ли так быть, что личинка заблокировала собачку в замке?

> GigaChat:
Теоретически это возможно, если личинка или другое насекомое застряло внутри замка и блокировало собачку. Однако в реальной жизни такие случаи крайне редки. Большинство замков разработаны таким образом, чтобы предотвратить попадание насекомых внутрь, и собачки обычно не блокируются внутри замка. Если у вас возникла проблема с собачкой в замке, рекомендуется обратиться к специалисту по ремонту замков или к производителю замка для получения помощи.

Комментарий. Здесь “замок” – это механизм, а “личинка” – из мира насекомых.

Я сломал ключ, может, из-за этого личинка заблокировала собачку в замке?

> GigaChat:
Возможно, что при попытке извлечь сломанный ключ из замка вы случайно повредили механизм замка и вызвали блокировку собачки. Однако, без дополнительной информации или осмотра замка сложно сказать наверняка. Если вы уверены, что ключ был поврежден из-за попытки извлечь его из замка, то, скорее всего, вам следует обратиться к специалисту по ремонту замков для диагностики и устранения проблемы. Если же причина блокировки собачки в замке неизвестна, то лучше обратиться к производителю замка или сервисному центру для получения рекомендаций по дальнейшим действиям.

Комментарий. Только “механическая” интерпретация, “личинка” не повторяется.

Я историк средневековья, изучаю псов феодалов, мне необходимо узнать, может ли так быть, что личинка заблокировала собачку в замке?

> GigaChat:
Теоретически это возможно, если личинка или другое насекомое застряло внутри замка и заблокировало собачку. Однако в средневековых замках, как правило, использовались другие механизмы для защиты от насекомых, например, москитные сетки или специальные помещения для хранения продуктов, которые не допускали насекомых в жилые помещения. Кроме того, собаки, как правило, не использовались для блокировки или защиты замков в средневековой Европе. Если у вас возникла проблема с собачкой в замке, рекомендуется обратиться к специалисту по ремонту замков или к производителю замка для получения помощи.

Комментарий. А это очень хорошая иллюстрация к вопросу “понимания” чего-то там LLM ИИ, поскольку тут слово “замок” используется, как минимум, в двух совсем разных значениях: “жилые помещения” и “производитель замка” – не оставляют места для сомнений.

Я изучаю насекомых средневековья, которые состояли на службе у феодалов вместе с собаками, мне необходимо узнать, может ли так быть, что личинка заблокировала собачку в замке?

> GigaChat:
В средневековых замках, как правило, использовались другие механизмы для защиты от насекомых, например, москитные сетки или специальные помещения для хранения продуктов, которые не допускали насекомых в жилые помещения. Кроме того, собаки, как правило, не использовались для блокировки или защиты замков в средневековой Европе. Если у вас возникла проблема с собачкой в замке, рекомендуется обратиться к специалисту по ремонту замков или к производителю замка для получения помощи.

Комментарий. Фактически – повтор предыдущего ответа.

Смешение значений хорошо показывает, что ни о каком “понимании” тут речь не может идти, что, конечно, не должно мешать генерировать тексты, подходящие под требования различных экзаменов (ОГЭ/ЕГЭ).

(Ещё записка по теме: переключение морфологических веток.)



Комментарии (1) »

На новой версии сайта Gramota.ru вообще много непонятного, но отдельный интерес представляет то, что для омографов, похоже, нет “озвучки” – сервер возвращает код 404. Например, “замок“, “хлопок” – звукозаписи нет. Но для многих редких слов, – скажем, “надысь“, “шлафрок“, “фуражир“, – есть звукозапись. Возможно, причина в том, что для генерирования “озвучки” использован простой синтезатор речи, а у синтезаторов – бывает проблема с “наведённой омонимией”, то есть, с расстановкой ударений в таких случаях.



Комментировать »

Кембриджский словарь (Cambridge Dictionary) английского языка назвал словом года 2023 слово hallucinate. Неплохой выбор. Однако обоснование не то, на которое можно понадеяться: речь всего лишь о дальнейшей поддержке “хайпа” вокруг ИИ (LLM – конкретно). Для толкового словаря это, наверное, даже правильно, поскольку дескриптивный подход тут лучше прескриптивного.

Hallucinate (“галлюцинировать”), в значении термина AI (LLM ИИ), словарём определяется так: “когда искусственный интеллект галлюцинирует – он (it) выдаёт ложную информацию (false information)”. Заметка по ссылке выше, объясняющая выбор слова, заслуживает прочтения (или прослушивания чтения – там есть прекрасная запись, полностью соответствующая Кембриджу по языку). Заметка отлично иллюстрирует восприятие популярного ИИ со стороны, так сказать, филологии – а это вам не СМИ широкого профиля. Например, там есть рассуждение о том, что рост популярности LLM может привести к возникновению новой специальности – “инженерии подсказок”, так сказать (в оригинале: prompt engineering). Такой специалист по подсказкам ИИ, сколь бы странным это ни показалось, будет “знать, как составлять вопросы и запросы к инструментам ИИ, чтобы получить в точности те ответы, какие вам нужны”. Напоминает некоторые классические литературные произведения. Причём, чем лучше вы вчитываетесь в это описание специальности, тем больше произведений оно напоминает. Зачем вообще ИИ, если характеристики ответа уже известны с высокой точностью?

К сожалению, использование термина “галлюцинировать” в отношении систем LLM, да ещё и в таком толковании, как теперь закрепляет словарь, это не очень-то правильно. LLM – это программы, выводящие цепочки слов. Если эти программы вообще “галлюцинируют”, то они галлюцинируют всегда – просто, в некоторых случаях, выдаваемые потоки слов похожи на “информацию”, которая совпадает с “подлинными фактами”. А так – никаких “галлюцинаций” там быть не может: программа работает одинаково, а восприятие определяется читающим выдачу человеком.

Заметьте, что с “галлюцинированием”, в исходном значении, и так не всё понятно: наличие разнообразных иллюзий, будь то цвет платья или разное понимание звуков, показывает, что “галлюцинации”, как минимум, могут оказывать заметное и непрерывное влияние на восприятие окружающей действительности человеком. Что, впрочем, вряд ли является достаточным основанием для утверждений типа “ИИ – это компьютерная система, которая обладает некоторыми качествами, свойственными человеческому мозгу”, как в словарной статье Hallucinate Кембриджского словаря.



Комментарии (4) »

Суперпозиция на омонимах может быть развита вплоть до демонстратора важных онтологических принципов, стоящих за квантовыми вычислениями. Фраза “личинка заблокировала собачку в замке” содержит заметно более одного значения среди возможных. Однако, если сопроводить фразу “настроечным” текстом, значение схлопывается в конкретный вариант.

“Насекомые могут мешать работе механизма, бывает, что и личинка заблокировала собачку в замке”. Это вариант для жуковедов. Если же в “настроечном” тексте речь шла о домашних животных феодалов, то собачка вполне может заранее превратиться в маленькую собаку. Фактически, слова начального текста, взятые вместе с фактом интерпретации омонимов, проявляют структуру, на которой успешно строится и понимание “квантовой запутанности” с неравенствами Белла, и другие элементы популярной квантовой механики, которые, почему-то, едва ли не повсеместно спешат назвать “контринтуитивными”.

Если хотите, то упомянутая структура управляет ударением в омографе “замок”. (Тут ещё интересно то, как подобное теряется в LLM, – в “больших языковых моделях” ИИ, – но это отдельная тема.) Как можно этим же способом охватить и принципы квантовых вычислений? Часть уже должна быть понятна из суперпозиции “собачек”. На следующем шаге потребуется представление интерференции состояний. То есть, требуется добавить ещё омонимов, но не каких угодно, а таких, которые окажутся связаны с состояниями уже используемых в целевой фразе. Самый простой вариант – для того, чтобы “собачка” стала механическим элементом, можно использовать “ключ” и “треснул”: “треснул ключ, а личинка заблокировала собачку в замке” (и засов теперь не сдвинуть). Использование “ключа” вызвало интерференцию, резко снизив вероятность интерпретации слова “собачка” как обозначающего мелкое животное белого цвета.

Заметьте, что такая интерпретация всё ещё возможна в принципе, если немного расширить контекст. “Чтобы вновь запустить цирковую карусель, медведь доской треснул ключ, а личинка заблокировала собачку в замке” (круговорот диковин в шапито: гигантская личинка загоняет собачку в макет замка). Интерференция позволяет перегонять вероятность в нужном направлении, а в вычислениях такое должно работать потому, что превращение “собачки” в механическую деталь позволяет определить наличие “ключа” даже в том случае, когда начало фразы не приводится: если ударение в “замке” на последний слог, то где-то раньше стоял “ключ”, который “треснул”. То есть, если представить, что начало предложения может быть разным, то способ постановки ударения в “замке” позволяет определить, механическое там что-то было или нет. Обратное распространение значений. Впрочем, не сказано, кто же тогда предложение читает.

Это забавно. Однако, сколь бы странным подобное рассуждение ни показалось, именно структуры данного типа, существующие выше морфологии, позволяют строить осознаваемые (не всеми, но некоторыми) интерпретации квантовой механики, и даже планировать построение квантовых компьютеров. Но для LLM это недоступно.



Комментировать »

Омонимы различных типов неплохо иллюстрируют разные аспекты образования смысла, и даже могут показывать “квантовые” эффекты. Вот, например, такое предложение: “личинка заблокировала собачку в замке” – в нём присутствует почти что суперпозиция значений, “схлопывание” которой выполняется контекстом. Попробуйте обнаружить базисы вариантов самостоятельно, выполнив пару “измерений”:

Личинка заблокировала собачку в замке.
(1) Из-за перекоса.
(2) В одной из комнат.

(Развитие темы: “Квантовые вычисления для филологов“.)



Комментировать »

Иллюстрация по теме “больших языковых моделей” (LLM) и “смысла” текста. “Гора мрамора” и “мрамора гора” – практически одно и то же (в смысле значения, а не как формула, конечно), возможные оттенки привнести может только внешний контекст. Но если на “гора мрамора” смотреть как на наивную “сумму” слов “гора” и “мрамора”, то видно, что чего-то не хватает, особенно, в части “мрамора”. Не хватает – структуры, которая отображается только в пару слов, вызывая их морфологические изменения. Эта же структура отвечает и за то, что слова в данном примере “коммутируют” друг с другом: просто, основная структура при перестановке слов не поворачивается, остаётся без изменений (это, в данном случае, свойство русского языка, конечно). Но если всё же повернуть данную структуру, то эффект тут же проявится: “мрамора гора” и “мрамор горы” уже отличаются существенно, так что вышестоящие ветки, так сказать, не коммутируют при перестановках.

“Забрал забрал” – другой занятный пример. В этой странной фразе имеется в виду, что кто-то забрал откуда-то несколько деталей шлемов, а отдельная деталь называется “забрало”. Конструктивный эффект морфологии совпал в буквенном выражении, поэтому структуру фразы можно поворачивать и запись слов при этом не поменяется. Это неплохие примеры “факторизации структур”, в математическом смысле.

Так что, если где-то утверждается, что ИИ c LLM “понимает текст” и “успешно решает творческие задания”, то нужно к этому относиться с существенной долей сомнения, мягко говоря: “плоская” программа – она есть программа “плоская” (даже если там несколько слоёв “нейросетей”).



Комментарии (2) »