Ресурсы: техническое описание TLS, LaTeX - в картинки (img), криптографическая библиотека Arduino, шифр "Кузнечик" на ассемблере AMD64/AVX и ARM64
Ещё немного окололингвистических рассуждений. Про Чарльза и Карла. Как известно, прескриптивный подход привёл к тому, что Чарльз (принц) превратился в русскоязычном пространстве в Карла (короля). Этому есть историческое словарное обоснование (“имена монархов некоторых стран – на немецкий манер”), но замена имени произошла несколько неожиданным для современной аудитории образом, тем более, что Чарльз регулярно упоминался в русскоязычной прессе. Этот процесс, существенным образом связанный со СМИ, занятно отразился в русскоязычной “Википедии”: там, например, пишут, буквально, что принц “Чарльз будет использовать тронное имя Карл III”. Это создаёт расщепление смысла, которого в изначальном событии не было (подобное “слоение” – важная особенность “Википедии”). Конечно, если придерживаться предложенной схемы именования, то написать следовало бы, что это принц Карл (в скобках: Чарльз) будет использовать тронное имя Карл III.
Кстати, даже в немецкой прессе современный Чарльз остался Charles (то есть, в английском варианте), а в самой Великобритании эпоха правления называется (new) Carolean era, однако Чарльз там всё равно король Чарльз (не Карл, естественно, хоть это, понятно, одно и то же имя, а в английском расщепить его на два представления довольно сложно, как бы ни хотелось). При этом подходящих исторических периодов, названия которых образуются от карлов (латинское влияние), в локальной англоязычной традиции есть два, и их предлагается не перепутать: Caroline/Carolean.
Комментировать »
Ещё один короткий комментарий на тему форм английских слов и скрытого расслоения смыслов, полностью исчезающего при переходах между языками. В английском языке у слова antenna (антенна; в британском – aerial) две формы множественного числа: antennae и antennas. Форма antennae – кажется естественной, а вот antennas – для “литературного взгляда” смотрится несколько странно, но, тем не менее, тоже верная форма. Почему? Дело в том, что если речь идёт об антеннах для приёма радиосигнала, то использование формы antennas – сразу выдаёт в вас разбирающегося в вопросе человека, потому что antennae – это, с точки зрения радиоинженера, да и продвинутого филолога, усы на голове насекомого (но, впрочем, эту форму допустимо использовать и в электромагнитном контексте, вряд ли кто-то осудит строго).
Комментировать »
Один из оксфордских словарей (Oxford Advanced Learner’s Dictionary) относит слово miaow к уровню C1 (это высокий уровень владения языком). Казалось бы, здесь miaow – это “мяу!”, а именно – подражание разговору котов. Почему же C1? Потому, что только на высоком уровне освоения языка обязательно узнавать подобные слова. Естественно, слово cat, в значении “кошка”, тот же словарь относит к начальному уровню A1. Но попробуйте показать начинающему изучать английский (как иностранный) слово miaow – скорее всего, с пониманием возникнут трудности; а вот на уровне C1 – трудностей возникать не должно.
Занятно, что moo (мычание коров) тот же словарь относит уже к уровню C2 (это максимально возможный, по данной шкале, уровень владения языком). Дети изучают, что “коровка говорит: му-у!”, в том числе, дети, для которых английский является родным и первым языком – moo. Это так. Но для тех, кто осваивает иностранный английский, конечно, moo может показаться незнакомым загадочным словом, поскольку для них и коровка могла говорить что-то другое, и сопоставить иностранное слово, записанное незнакомыми буквами, со знакомым звукоподражанием, в общем случае, не так-то просто. Кроме того, сортировка по шкале внутри одного языка должна происходить более или менее одинаковым способом для всех животных звукоподражаний, но с учётом того, что с коровой многие городские жители сталкиваются реже.
Теперь, что касается mew. Это слово здесь тоже означает “мяу”, но без восклицательного знака (даже, скорее, “миу”). Mew – как минимум, в британском английском, – тише и мягче, чем miaow (meow), поэтому может использоваться иначе.
Комментировать »
Генераторы текстов на заданную тему сейчас вновь популярны. Пример, естественно, ChatGPT. Можно ли автоматическим способом и с высокой точностью определить, что некоторый обозримый текст на естественном языке написан таким качественным компьютерным генератором, а не человеком?
Если эту задачу рассматривать “в максимальной общности”, то она тут же превращается в весьма занятную, почти что философскую, проблему: допуская, что можно надёжно различить тексты, написанные подобной программой и человеком, придётся допустить и то, что программа может выдать текст, который человек написать не смог бы – не смог бы сымитировать. То есть, в тексте, который написал генератор текстов, должно быть проявление некоторого “нечеловеческого интеллекта”.
С одной стороны, внутреннее устройство новомодных больших компьютерных нейросетей уже достаточно необозримо. Эти сети состоят из мешанины формул (по-научному – из “мешанины функционалов”, но в данном случае можно называть объект просто формулой). Разобраться, что и как взвешивается и преобразуется во всей этой мешанине, для человека, “вручную”, не реально. Можно предположить, что перспективная программа-детектор как раз и могла бы обнаружить в тексте проявление всех этих глубинных взаимосвязей, заведомо недоступных для интерпретации и имитации человеком, классифицировав таким образом текст как созданный ИИ. Именно из сходных соображений детекторы сейчас пытаются делать на основе обучения всё тех же (а точнее – таких же) нейросетей. Но точность не велика. А вырожденный результат на этом направлении – это так называемые “водяные знаки” (watermark), которые разработчики нейросетей планируют вводить в результат их работы, как раз с целью последующего точного распознавания.
С другой стороны, такой подход чем-то напоминает объявление числа Пи (π – но с заглавной буквы) самым разумным числом из всех: ведь “в десятичной записи числа Пи можно найти любой текст, с ответами на любые вопросы, как бы этот текст ни зашифровали”, нужно только знать, с какого знака записи начинать читать – вроде и верно, но не слишком-то конструктивно (напоминает классические теоремы существования, времён Коши, а также и саму теорию действительного числа). Но программа, которая позволила бы находить проявления некоторого необозримого ИИ в небольшом, если сравнивать с количеством коэффициентов в формулах нейросети, тексте на естественном языке, сама может оказаться столь же необозримой. А значит, к ней применимы те же рассуждения, и соответствующий процесс вряд ли быстро сойдётся.
При этом, скорее всего, каждый естественный язык является проявлением общей универсальной структуры, которая не может быть видна из “плоской”, – пусть при этом и слоистой, – статистики слов и словосочетаний, построенной алгоритмом (Хомский и др.). А это оставляет большие шансы для успешной имитации человеком текстов, которые универсальная программа-детектор могла бы, при прочих равных, посчитать результатом работы компьютерной нейросети.
К задаче возможно подойти и с другого направления, которое, впрочем, тоже экстремальное: всякий сгенерированный упомянутым компьютерным способом текст представляет собой перестановку слов, выполненную по некоторым правилам (полученным статистической обработкой, но это детали). Соответственно, предельный вариант – это предложение создать программу, которая по корректно отсортированному массиву произвольной длины смогла бы определить конкретный алгоритм, которым данный массив был отсортирован. Понятно, что это невозможно. Для того, чтобы возникли какие-то зацепки, в массиве должны быть хотя бы “ошибки и дефекты”. Но всякий набор “ошибок и дефектов”, подходящий для анализа программой-детектором, может внести и человек, пусть и с помощью ещё одной программы. В общем, тут опять получается известная диагонализация: даже если сузить применение детектора на хорошо известные генераторы текстов, всякий подобный алгоритм детектора можно встроить в тот самый генератор в качестве нового слоя, так что начнут выходить тексты, вводящие детектор в заблуждение. Другими словами: если у вас появилась программа-детектор, которая с высокой точностью классифицирует тексты, сформированные “нейросетевыми генераторами”, то вы можете либо поместить эту программу внутрь другой программы, получив возможность автоматически генерировать тексты, которые (по определению) будут классифицированы как “написанные человеком”, либо силами уже человека формировать текст, который детектор сочтёт продуктом нейросети (см., кстати, решение десятой проблемы Гильберта).
Вообще, эта особенность, с сортировкой массивов, касается всех текстов, представляющих собой обозримые наборы простых фактов. Попробуйте, например, детектировать, человек или автоматический генератор текстов собрал адресный справочник для того или иного района мегаполиса. Особенно, если это вымышленный мегаполис, да. Для подобных результатов, если они, конечно, не слишком объёмные, надёжный детектор невозможен.
Так что, к сожалению, высокоточные детекторы “текстов от нейросетей” вряд ли появятся. Кроме, конечно, детекторов, которые работают на “водяных знаках” – специальных криптографических метках.
Комментарии (1) »
К прошлой записке на тему переводов с древнегреческого, где речь о том, какие собаки описаны в гомеровском произведении – белые или проворные (κύνας ἀργούς). Интересно, что тот же самый фрагмент из “Илиады” приводит в пример Аристотель в своей статье “Об искусстве поэзии”. Аристотель упоминает не собак, а “мулов” (οὐρῆας), которые в тексте Гомера указаны раньше, но это буквально соседние слова и то же самое предложение. А именно, Аполлон там стрелами “мулов же прежде настиг и собак проворных/белых” (дословный перевод исходника – οὐρῆας μὲν πρῶτον ἐπῴχετο καὶ κύνας ἀργούς). Аристотель предполагает, что “мулами” Гомер называет охрану и это просто такой поэтический приём, который объясняет, почему “мулы” первыми пострадали: потому что это не мулы, а охрана, видимо, выставленная на подступах и, таким образом, подвернувшаяся мчащемуся с Олимпа Аполлону раньше других. Ну и у подразделений охраны вполне могли быть собаки, пусть даже и проворные. Впрочем, это только одна из возможных трактовок. К тому же, как я понимаю, предположение Аристотеля о превращении “мулов” в “стражей” считается сейчас сомнительным, так что собаки могут оставаться белыми – “придёт серенький волчок”, как говорится.
Комментировать »
В самом начале текста “Илиады” есть эпизод, в котором Аполлон обстреливает греческое войско, при этом в качестве первых целей, поражённых стрелами Аполлона (инфекцией, естественно), указаны вьючные животные и – собаки. В доступном исходном тексте про собак сказано, буквально, κύνας ἀργούς. “Собак” здесь – это κύνας (κύων), а вот их характеристику – ἀργούς – переводят по-разному, что выглядит довольно занимательно. Так, в русском переводе Н. И. Гнедича использовано весьма необычное слово “празднобродных” (“и псов празднобродных”), но в комментариях можно встретить, что вообще-то собаки “проворные”. Французский перевод (Leconte de Lisle) тоже обозначает собак как “проворных, быстрых” (rapide). В английских переводах характеристика собак в данном фрагменте либо вообще опускается (Pope), либо переводится тоже как “проворные” (“swift” – Buckley) и как “быстроногие” (“fleet” – Lang, Leaf, Myers).
При этом в комментариях к изданию перевода Бакли (Buckley) указано, что можно перевести и как “белые”. Действительно, в словаре – ἀργός, по первому значению, “белый, блистающий, яркий”; а второе значение – “быстрый, резвый, проворный” (словарь Дворецкого), но, опять же, с прямой отсылкой к собакам из эпического произведения Гомера. А есть и третье значение – бездеятельный, вялый, медленный, – однако указано, что этот вариант – от ἀεργία (“леность, безделье”); в этом варианте слово повсеместно используется у древнегреческих авторов, что, видимо, объясняет “празднобродных” собак.
В общем, больше похоже, что собаки там всё же либо белого цвета, либо просто “бледные”, но в том смысле, что слабые. Потому что, по сюжету, они заболели сразу после вьючных мулов, но раньше людей. С одной стороны, собакам белого цвета предпочтение могли отдавать древнегреческие пастухи, поскольку такую собаку гораздо проще издали отличить от волка, с другой стороны – довольно логичным выглядит и предположение, что белые собаки считались более слабыми в плане выносливости (а может, таковыми и являлись – подобный взгляд распространён и сейчас).
“Аргоистые” собаки в “Илиаде” ещё встречаются. Например, в выражении “быстрые псы (κύνες ἀργοὶ) его прежде изгложут” (Гнедич). Почему глодать должны именно “быстрые псы” – из контекста (военные советы Полидамаса “шлемоблещущему Гектору” об обороне городов) не очень понятно. Впрочем, как и то, почему животные должны быть именно белыми (или “бледными”? тогда, хотя бы, можно предположить, что речь о слабых, больных псах).
(Заметка, конечно, никоим образом не претендует на статус “филологического комментария”, просто, данный момент с “бледными собаками” показался мне занятным.)
Комментировать »
Сейчас популярна история с чат-ботом ChatGPT, который даёт пространные ответы на вопросы из самых разных областей. Мне доступ к данному сервису получить не удалось (там хотят слишком много реквизитов), но это не важно: понять, о чём речь, не так уж трудно по многочисленным цитатам. Всё это увлечение соответствует попыткам найти смысл непосредственно в тексте. Проблема в том, что текст, как набор символов с определённой структурой, тем не менее, самостоятельного смысла не несёт. Смысл образуется (или не образуется) после того, как результат прочтения текста вкладывается в некоторую большую структуру; и чтобы говорить об “интеллекте”, давать оценки, данная структура должна быть заметно мощнее конкретного текста. Это, впрочем, хорошо известное явление, про которое написано очень много и подробно. Несомненно, письменность очень важна не только для древних языков, но и для современных. Однако переход автоматического генератора текстов от фильтрации совсем примитивных конструкций к “наследованию” чуть более развитой “семантической” структуры, свойственной многим текстам по заданной теме, скорее свидетельствует об успешной оптимизации использования вычислительной аппаратуры с целью удивить пользователей Интернета, чем о чём-то ещё.
В советском мультфильме “Трое из Простоквашино” (1978 года) есть эпизод с Галчонком и потальоном. Почтальон Печкин стучится в дверь, но дома только специально обученная птичка – Галчонок, который на стук реагирует одной и той же фразой.
– Кто там? – спрашивает Галчонок. (Это единственная фраза, которую он знает на тот момент.)
– Это я, почтальон Печкин, принёс заметку про вашего мальчика, – отвечает Печкин. Ничего не происходит, поэтому почтальон стучит снова.
– Кто там? – спрашивает Галчонок.
– Это я, почтальон Печкин, принёс заметку про вашего мальчика, – отвечает Печкин.
Цикл “запрос-ответ-пояснение” повторяется многократно. В какой-то момент Галчонок замечает муху на оконной раме и клюёт её, производя тем самым стук.
– Кто там? – спрашивает, вместо Галчонка, заскучавший Печкин.
– Это я. Почтальон Печкин. Принёс заметку. Про вашего мальчика, – будто телетайпом отбивает ответ Галчонок.
И тут столкновение могучих интеллектов оканчивается поражением Печкина: эмоционально потрясённый, почтальон теряет сознание.
Комментарии (3) »
Пишут, что в Штатах предложили некий стандарт “умного” стрелкового оружия – пистолетов. Под “умными” – подразумеваются пистолеты, оснащённые электронным приспособлением, которое должно блокировать стрельбу, если пистолет оказался у “неавторизованного” лица.
В статье по ссылке содержится занятная неточность. Там сказано, что в “случае разряда аккумулятора, управляющего электронным предохранителем и системой авторизации пистолета, оружие должно блокироваться”. Это было бы, мягко говоря, удивительным решением. Однако в исходном документе Минюста США ничего подобного нет. Вероятно, журналиста ввёл в заблуждение достаточно специальный англоязычный термин – “out-of-battery”: в отношении стрелкового оружия он обозначает преждевременный выстрел, обычно, при недозакрытом затворе. Естественно, прямой перевод – “без батарейки” – ошибочен: когда этот термин появился, никаких электрических батареек в пистолетах и пушках ещё не было. Но несложно представить, какова была бы реакция бойцов спецподразделений полиции, которым вручили бы новое личное оружие, предупредив, что перед мероприятием нужно не забыть зарядить батарейки.
Вернёмся к вопросу подобных “систем безопасности”. Конечно, исходная рекомендация прямо предписывает, чтобы в случае любого сбоя “устройства безопасности” – пистолет переходил в пригодное для стрельбы состояние. Правда, не совсем ясно, какой тогда смысл в ограничении, даже если для авторизации используется некоторый дополнительный токен (ключ-метка), который находится у легитимного “пользователя” при себе. Можно предположить, что, на практике, у любого сотрудника, который как-то заботится о собственной безопасности и допускает применение оружия, этот токен моментально окажется привязан или приклеен к пистолету; так, на всякий случай. (И однажды токен зацепится за кобуру.) Но интересен и другой момент: с одной стороны, сейчас обсуждаются запреты на применение оружия боевыми роботами, в автоматическом режиме; с другой стороны – предлагается дать электронному устройству возможность ограничивать и человека в применении оружия. Естественно, речь идёт о намерении ограничивать только нелегитимные случаи, но вопрос в том, как подобное техническое ограничение проявит себя в реальности.
Ещё не так давно предпочтение отдавали револьверам лишь по той причине, что они имеют чрезвычайно надёжный механизм, где осечка, на практике, может произойти только по вине патрона. Насколько популярен будет “электронный” пистолет, который, несмотря на все предписания стандарта, окажется возможным заблокировать дистанционно? Хотя, прогресс есть прогресс.
Комментарии (10) »
Кстати, известно, что для развития древней криптографии большое значение имела система письменности. Так, фонетический алфавит, состоящий из букв, позволяет конструировать шифры простой замены, которые можно эффективно использовать без всяких там вычислительных машин. (Такой шифр, например, основан на подстановке вместо буквы открытого текста буквы шифротекста из того же алфавита с использованием некоторой таблицы замены.) В фонетическом письме слово записывается несколькими буквами, при этом буквы фиксируют не смысл слова, а его звучание. По сути, фонетическое письмо – первая система кодирования звука, с целью записи для последующего воспроизведения. Отчасти поэтому, используя алфавит и сложные правила подстановки, удавалось проектировать и внедрять довольно стойкие, – ну, для докомпьютерной древности, – шифры.
А вот если у вас иероглифическое письмо, то ситуация складывается иная. Иероглифов много. Для записи сложного понятия может быть достаточно одного иероглифа. Да, в теории, подстановку по таблице можно сделать и здесь. Более того, расшифровка содержательного сообщения из трёх-пяти иероглифов без знания ключа может оказаться принципиально невозможной: из-за того, что валидных вариантов слишком много. Но при этом таблица замены должна быть огромной. Это проблема. Фонетический алфавит позволяет представить все слова соответствующего языка, и при этом содержит обозримое число знаков. А иероглифов слишком много: даже если ограничить список допустимых в сообщениях символов, таблица получится неудобной. Ну и как тут развивать криптографию?
Комментарии (13) »
Цитата из очередной колонки Константина Шурыгина по средневековой истории на “Информационном буме”:
Итак, слово “хакан” в отношении “русов” прозвучало. А как известно, слово – не воробей, вылетит – не поймаешь. И подобно тому, как по найденной кости палеонтолог восстанавливает облик динозавра, так по одному непонятному слову иной историк может восстановить целую империю. Каган – тюркский титул, который носили верховные правители кочевых империй. А раз у русов был “хакан”, т.е. “каган”, то трудно было не догадаться – был и “каганат”. То есть на Русских землях было свое “государственое образование первой половины IX века”. Заметим, что ни в западных, ни в восточных источниках ничего не говорилось о “каганате” – говорилось только о “хакане”. Но разве такой пустяк остановит настоящего исследователя?
Comments Off on Русский каганат
Кратко этот сайт характеризуется так: здесь можно узнать про технологический прогресс, Интернет, математику, криптографию, авиацию, компьютеры, авиационные компьютеры, вооружения, роботов, вооружение роботов, армии мира, астрономию, космические исследования. И иногда о чём-то ещё (