Ещё один короткий комментарий на тему форм английских слов и скрытого расслоения смыслов, полностью исчезающего при переходах между языками. В английском языке у слова antenna (антенна; в британском – aerial) две формы множественного числа: antennae и antennas. Форма antennae – кажется естественной, а вот antennas – для “литературного взгляда” смотрится несколько странно, но, тем не менее, тоже верная форма. Почему? Дело в том, что если речь идёт об антеннах для приёма радиосигнала, то использование формы antennas – сразу выдаёт в вас разбирающегося в вопросе человека, потому что antennae – это, с точки зрения радиоинженера, да и продвинутого филолога, усы на голове насекомого (но, впрочем, эту форму допустимо использовать и в электромагнитном контексте, вряд ли кто-то осудит строго).
Комментировать »
Один из оксфордских словарей (Oxford Advanced Learner’s Dictionary) относит слово miaow к уровню C1 (это высокий уровень владения языком). Казалось бы, здесь miaow – это “мяу!”, а именно – подражание разговору котов. Почему же C1? Потому, что только на высоком уровне освоения языка обязательно узнавать подобные слова. Естественно, слово cat, в значении “кошка”, тот же словарь относит к начальному уровню A1. Но попробуйте показать начинающему изучать английский (как иностранный) слово miaow – скорее всего, с пониманием возникнут трудности; а вот на уровне C1 – трудностей возникать не должно.
Занятно, что moo (мычание коров) тот же словарь относит уже к уровню C2 (это максимально возможный, по данной шкале, уровень владения языком). Дети изучают, что “коровка говорит: му-у!”, в том числе, дети, для которых английский является родным и первым языком – moo. Это так. Но для тех, кто осваивает иностранный английский, конечно, moo может показаться незнакомым загадочным словом, поскольку для них и коровка могла говорить что-то другое, и сопоставить иностранное слово, записанное незнакомыми буквами, со знакомым звукоподражанием, в общем случае, не так-то просто. Кроме того, сортировка по шкале внутри одного языка должна происходить более или менее одинаковым способом для всех животных звукоподражаний, но с учётом того, что с коровой многие городские жители сталкиваются реже.
Теперь, что касается mew. Это слово здесь тоже означает “мяу”, но без восклицательного знака (даже, скорее, “миу”). Mew – как минимум, в британском английском, – тише и мягче, чем miaow (meow), поэтому может использоваться иначе.
Комментировать »
Генераторы текстов на заданную тему сейчас вновь популярны. Пример, естественно, ChatGPT. Можно ли автоматическим способом и с высокой точностью определить, что некоторый обозримый текст на естественном языке написан таким качественным компьютерным генератором, а не человеком?
Если эту задачу рассматривать “в максимальной общности”, то она тут же превращается в весьма занятную, почти что философскую, проблему: допуская, что можно надёжно различить тексты, написанные подобной программой и человеком, придётся допустить и то, что программа может выдать текст, который человек написать не смог бы – не смог бы сымитировать. То есть, в тексте, который написал генератор текстов, должно быть проявление некоторого “нечеловеческого интеллекта”.
С одной стороны, внутреннее устройство новомодных больших компьютерных нейросетей уже достаточно необозримо. Эти сети состоят из мешанины формул (по-научному – из “мешанины функционалов”, но в данном случае можно называть объект просто формулой). Разобраться, что и как взвешивается и преобразуется во всей этой мешанине, для человека, “вручную”, не реально. Можно предположить, что перспективная программа-детектор как раз и могла бы обнаружить в тексте проявление всех этих глубинных взаимосвязей, заведомо недоступных для интерпретации и имитации человеком, классифицировав таким образом текст как созданный ИИ. Именно из сходных соображений детекторы сейчас пытаются делать на основе обучения всё тех же (а точнее – таких же) нейросетей. Но точность не велика. А вырожденный результат на этом направлении – это так называемые “водяные знаки” (watermark), которые разработчики нейросетей планируют вводить в результат их работы, как раз с целью последующего точного распознавания.
С другой стороны, такой подход чем-то напоминает объявление числа Пи (π – но с заглавной буквы) самым разумным числом из всех: ведь “в десятичной записи числа Пи можно найти любой текст, с ответами на любые вопросы, как бы этот текст ни зашифровали”, нужно только знать, с какого знака записи начинать читать – вроде и верно, но не слишком-то конструктивно (напоминает классические теоремы существования, времён Коши, а также и саму теорию действительного числа). Но программа, которая позволила бы находить проявления некоторого необозримого ИИ в небольшом, если сравнивать с количеством коэффициентов в формулах нейросети, тексте на естественном языке, сама может оказаться столь же необозримой. А значит, к ней применимы те же рассуждения, и соответствующий процесс вряд ли быстро сойдётся.
При этом, скорее всего, каждый естественный язык является проявлением общей универсальной структуры, которая не может быть видна из “плоской”, – пусть при этом и слоистой, – статистики слов и словосочетаний, построенной алгоритмом (Хомский и др.). А это оставляет большие шансы для успешной имитации человеком текстов, которые универсальная программа-детектор могла бы, при прочих равных, посчитать результатом работы компьютерной нейросети.
К задаче возможно подойти и с другого направления, которое, впрочем, тоже экстремальное: всякий сгенерированный упомянутым компьютерным способом текст представляет собой перестановку слов, выполненную по некоторым правилам (полученным статистической обработкой, но это детали). Соответственно, предельный вариант – это предложение создать программу, которая по корректно отсортированному массиву произвольной длины смогла бы определить конкретный алгоритм, которым данный массив был отсортирован. Понятно, что это невозможно. Для того, чтобы возникли какие-то зацепки, в массиве должны быть хотя бы “ошибки и дефекты”. Но всякий набор “ошибок и дефектов”, подходящий для анализа программой-детектором, может внести и человек, пусть и с помощью ещё одной программы. В общем, тут опять получается известная диагонализация: даже если сузить применение детектора на хорошо известные генераторы текстов, всякий подобный алгоритм детектора можно встроить в тот самый генератор в качестве нового слоя, так что начнут выходить тексты, вводящие детектор в заблуждение. Другими словами: если у вас появилась программа-детектор, которая с высокой точностью классифицирует тексты, сформированные “нейросетевыми генераторами”, то вы можете либо поместить эту программу внутрь другой программы, получив возможность автоматически генерировать тексты, которые (по определению) будут классифицированы как “написанные человеком”, либо силами уже человека формировать текст, который детектор сочтёт продуктом нейросети (см., кстати, решение десятой проблемы Гильберта).
Вообще, эта особенность, с сортировкой массивов, касается всех текстов, представляющих собой обозримые наборы простых фактов. Попробуйте, например, детектировать, человек или автоматический генератор текстов собрал адресный справочник для того или иного района мегаполиса. Особенно, если это вымышленный мегаполис, да. Для подобных результатов, если они, конечно, не слишком объёмные, надёжный детектор невозможен.
Так что, к сожалению, высокоточные детекторы “текстов от нейросетей” вряд ли появятся. Кроме, конечно, детекторов, которые работают на “водяных знаках” – специальных криптографических метках.
Комментарии (1) »
К прошлой записке на тему переводов с древнегреческого, где речь о том, какие собаки описаны в гомеровском произведении – белые или проворные (κύνας ἀργούς). Интересно, что тот же самый фрагмент из “Илиады” приводит в пример Аристотель в своей статье “Об искусстве поэзии”. Аристотель упоминает не собак, а “мулов” (οὐρῆας), которые в тексте Гомера указаны раньше, но это буквально соседние слова и то же самое предложение. А именно, Аполлон там стрелами “мулов же прежде настиг и собак проворных/белых” (дословный перевод исходника – οὐρῆας μὲν πρῶτον ἐπῴχετο καὶ κύνας ἀργούς). Аристотель предполагает, что “мулами” Гомер называет охрану и это просто такой поэтический приём, который объясняет, почему “мулы” первыми пострадали: потому что это не мулы, а охрана, видимо, выставленная на подступах и, таким образом, подвернувшаяся мчащемуся с Олимпа Аполлону раньше других. Ну и у подразделений охраны вполне могли быть собаки, пусть даже и проворные. Впрочем, это только одна из возможных трактовок. К тому же, как я понимаю, предположение Аристотеля о превращении “мулов” в “стражей” считается сейчас сомнительным, так что собаки могут оставаться белыми – “придёт серенький волчок”, как говорится.
Комментировать »
В самом начале текста “Илиады” есть эпизод, в котором Аполлон обстреливает греческое войско, при этом в качестве первых целей, поражённых стрелами Аполлона (инфекцией, естественно), указаны вьючные животные и – собаки. В доступном исходном тексте про собак сказано, буквально, κύνας ἀργούς. “Собак” здесь – это κύνας (κύων), а вот их характеристику – ἀργούς – переводят по-разному, что выглядит довольно занимательно. Так, в русском переводе Н. И. Гнедича использовано весьма необычное слово “празднобродных” (“и псов празднобродных”), но в комментариях можно встретить, что вообще-то собаки “проворные”. Французский перевод (Leconte de Lisle) тоже обозначает собак как “проворных, быстрых” (rapide). В английских переводах характеристика собак в данном фрагменте либо вообще опускается (Pope), либо переводится тоже как “проворные” (“swift” – Buckley) и как “быстроногие” (“fleet” – Lang, Leaf, Myers).
При этом в комментариях к изданию перевода Бакли (Buckley) указано, что можно перевести и как “белые”. Действительно, в словаре – ἀργός, по первому значению, “белый, блистающий, яркий”; а второе значение – “быстрый, резвый, проворный” (словарь Дворецкого), но, опять же, с прямой отсылкой к собакам из эпического произведения Гомера. А есть и третье значение – бездеятельный, вялый, медленный, – однако указано, что этот вариант – от ἀεργία (“леность, безделье”); в этом варианте слово повсеместно используется у древнегреческих авторов, что, видимо, объясняет “празднобродных” собак.
В общем, больше похоже, что собаки там всё же либо белого цвета, либо просто “бледные”, но в том смысле, что слабые. Потому что, по сюжету, они заболели сразу после вьючных мулов, но раньше людей. С одной стороны, собакам белого цвета предпочтение могли отдавать древнегреческие пастухи, поскольку такую собаку гораздо проще издали отличить от волка, с другой стороны – довольно логичным выглядит и предположение, что белые собаки считались более слабыми в плане выносливости (а может, таковыми и являлись – подобный взгляд распространён и сейчас).
“Аргоистые” собаки в “Илиаде” ещё встречаются. Например, в выражении “быстрые псы (κύνες ἀργοὶ) его прежде изгложут” (Гнедич). Почему глодать должны именно “быстрые псы” – из контекста (военные советы Полидамаса “шлемоблещущему Гектору” об обороне городов) не очень понятно. Впрочем, как и то, почему животные должны быть именно белыми (или “бледными”? тогда, хотя бы, можно предположить, что речь о слабых, больных псах).
(Заметка, конечно, никоим образом не претендует на статус “филологического комментария”, просто, данный момент с “бледными собаками” показался мне занятным.)
Комментировать »
Сейчас популярна история с чат-ботом ChatGPT, который даёт пространные ответы на вопросы из самых разных областей. Мне доступ к данному сервису получить не удалось (там хотят слишком много реквизитов), но это не важно: понять, о чём речь, не так уж трудно по многочисленным цитатам. Всё это увлечение соответствует попыткам найти смысл непосредственно в тексте. Проблема в том, что текст, как набор символов с определённой структурой, тем не менее, самостоятельного смысла не несёт. Смысл образуется (или не образуется) после того, как результат прочтения текста вкладывается в некоторую большую структуру; и чтобы говорить об “интеллекте”, давать оценки, данная структура должна быть заметно мощнее конкретного текста. Это, впрочем, хорошо известное явление, про которое написано очень много и подробно. Несомненно, письменность очень важна не только для древних языков, но и для современных. Однако переход автоматического генератора текстов от фильтрации совсем примитивных конструкций к “наследованию” чуть более развитой “семантической” структуры, свойственной многим текстам по заданной теме, скорее свидетельствует об успешной оптимизации использования вычислительной аппаратуры с целью удивить пользователей Интернета, чем о чём-то ещё.
В советском мультфильме “Трое из Простоквашино” (1978 года) есть эпизод с Галчонком и потальоном. Почтальон Печкин стучится в дверь, но дома только специально обученная птичка – Галчонок, который на стук реагирует одной и той же фразой.
– Кто там? – спрашивает Галчонок. (Это единственная фраза, которую он знает на тот момент.)
– Это я, почтальон Печкин, принёс заметку про вашего мальчика, – отвечает Печкин. Ничего не происходит, поэтому почтальон стучит снова.
– Кто там? – спрашивает Галчонок.
– Это я, почтальон Печкин, принёс заметку про вашего мальчика, – отвечает Печкин.
Цикл “запрос-ответ-пояснение” повторяется многократно. В какой-то момент Галчонок замечает муху на оконной раме и клюёт её, производя тем самым стук.
– Кто там? – спрашивает, вместо Галчонка, заскучавший Печкин.
– Это я. Почтальон Печкин. Принёс заметку. Про вашего мальчика, – будто телетайпом отбивает ответ Галчонок.
И тут столкновение могучих интеллектов оканчивается поражением Печкина: эмоционально потрясённый, почтальон теряет сознание.
Комментарии (3) »
Цитата из очередной колонки Константина Шурыгина по средневековой истории на “Информационном буме”:
Итак, слово “хакан” в отношении “русов” прозвучало. А как известно, слово – не воробей, вылетит – не поймаешь. И подобно тому, как по найденной кости палеонтолог восстанавливает облик динозавра, так по одному непонятному слову иной историк может восстановить целую империю. Каган – тюркский титул, который носили верховные правители кочевых империй. А раз у русов был “хакан”, т.е. “каган”, то трудно было не догадаться – был и “каганат”. То есть на Русских землях было свое “государственое образование первой половины IX века”. Заметим, что ни в западных, ни в восточных источниках ничего не говорилось о “каганате” – говорилось только о “хакане”. Но разве такой пустяк остановит настоящего исследователя?
Comments Off on Русский каганат