Кстати, что касается “обезличивания” (или “анонимизации”) различных данных о персонах – есть хороший способ понять, в какой степени хорош тот или иной метод “обезличивания”: нужно попробовать представить, позволяют ли “обезличенные” данные различать неизвестных людей, если таковые собрались в некоторой комнате, в достаточно большом количестве. Под возможностью различать здесь подразумевается возможность точно сказать, что тот или иной фрагмент “обезличенных” данных относится к каким-то людям из присутствующих в комнате, а к каким-то – не относится. И чем выше оказывается различительная способность, тем хуже данные были обезличены (многие типы данных обезличить очень и очень сложно). Этот мысленный эксперимент хорошо показывает всякие неочевидные особенности.

Пример: есть база данных (БД), в которой записан рост людей из комнаты, с точностью плюс/минус пять сантиметров; хорошо ли эти данные помогают различать людей в рамках воображаемой комнаты? Вообще, разнообразие роста велико, но есть некоторый интервал, в который попадает очень много людей. Поэтому, в комнате окажется много людей как бы одинакового роста, в терминах нашей БД, тем более, что рост, по условиям, укладывается в плюс/минус пять сантиметров. Однако, если в комнате присутствует человек ростом 205 сантиметров, то, если это не встреча баскетболистов, скорее всего, персону нетрудно будет связать с записью из базы – интервал от 200 до 210 сантиметров не слишком-то заселён. Теперь, если в базе присутствовали данные о росте (плюс/минус – для “обезличивания”) и, скажем, фамилия, имя и отчество, то можно будет подойти, и к человеку высокого роста обратиться точно по имени. (Понятно, что знание ФИО вообще позволяет устроить перекличку, но Константинов Каретиных, предположим, может оказаться несколько.)

Другой пример: есть запись голоса. Этот вариант точнее, поскольку голоса не только обычно различаются (исключения – редки), но и это различие очень велико, особенно, если сравнение выполняет человек с хорошим, подходящим слухом. Голос работает не хуже фотографии лица (“анфас и профиль”). А по такой фотографии – различить людей в комнате совсем нетрудно. Однако биометрические данные – это одно, а всякие “цифровые следы” – другое.

Предположим, известны номера мобильного телефона. Насколько это точные данные? В рамках нашего мысленного эксперимента позвоним по выбранному номеру и будем наблюдать, у кого именно из присутствующих смартфон зазвонит. То есть, точность очень высока (конечно, при прочих допущениях: телефоны должны быть у всех присутствующих, должны быть включены и пр.) А вот только по домашнему адресу – различить людей в комнате довольно сложно, но ведь и адреса, сами по себе, не только всем известны (нанесены на карты), так ещё и никак не “персонализируются”, в отличие от телефонного номера смартфона, который буквально к человеку-носителю привязан.

Понятно, что различительная способность резко возрастает, когда к одним данным добавляются другие.

Данный мысленный эксперимент не является универсальным, но неплохо работает и для других видов данных, вплоть до сведений о покупке деловых костюмов, – попробуйте сами.



Комментировать »

Volkswagen собирается ChatGPT добавить к системам автомобиля. То есть, внутри автомобиля появится очередной “жучок”, прослушивающий и отправляющий разговоры на внешний сервер. Тут нетрудно предположить, что может оказаться внедрена и такая недокументированная функция, которая позволит отправлять команды автомобилю с серверов ChatGPT. Конечно, это будет особенность, внесённая случайно по ошибке (но без всякого противоречия “политике использования автомобиля”) – поскольку уже заранее официально утверждается, что доступа “к системам автомобиля” у ChatGPT не будет (однако, это же ведь “невиданный искусственный интеллект”, который может вот-вот выйти из-под контроля, как утверждается в СМИ, в пресс-релизах и в открытых письмах – казалось бы, что может пойти не так?). С другой стороны, в автомобили уже не только звукозаписывающую аппаратуру штатно устанавливают (до идеи с ChatGPT, понятно), но и видеокамеры, передающие данные на центральные серверы, так что решение нельзя назвать радикально новым.



Комментировать »

Забавное развитие темы столкновения коммерческих синонимайзеров LLM, традиционно называемых “искусственным интеллектом”, с не менее коммерческим “копирайтом”: сообщают, что OpenAI, на примере лидера направления – ChatGPT, – указывает на “невозможность создания полезных LLM без использования материалов, защищённых авторским правом” (как, например, скачивание всех статей NY Times).

Естественно, упор в возражениях делается на “всеобъемлющий копирайт” – мол, поскольку всё кругом защищено, то ChatGPT ничего нельзя использовать, и поэтому “интеллект” не работает. И тут даже не важно, что силами “копирайта” читать статьи запрещают не везде (часто, впрочем, запреты относятся к научным статьям, что ситуацию не красит), вообще можно отвлечься от того, что современный “копирайт” далёк от идеала. Забавно вот что: с одной стороны, как бы, создаётся “невиданный независимый ИИ”, да такой мощный, что даже угрожает человечеству, а с другой – это ИИ, оказывается, совсем не действует без копирования и пересказывания свежих газетных статей, и, как говорится, базируется на “картинках, найденных в интернетах” (что, конечно, гораздо ближе к реальному положению дел).



Комментировать »

Несколько неожиданно, что пассажирский самолёт Boeing 737, у которого вчера на высоте почти пять тысяч метров вылетела фюзеляжная панель вместе с иллюминатором (и “дверью”), это, оказывается, совсем новый 737 Max 9, который только два месяца назад был выпущен, если верить статье The Guardian (по ссылке есть небольшое видео).



Комментировать »

На сайте про “прямое подключение” смартфона через спутники Starlink пока что обещают доставку текстовых сообщений (почти что старый Twitter), да и то – в конце 2024 года. И только когда-то потом, после 2025, судя по всему, планируют предоставлять доступ с передачей данных и голосовую связь (что в LTE примерно одно и то же). При этом, понятно, сразу есть куча оговорок про совместимость и доступность. Сейчас, естественно, доступ заявлен только для конкретных операторов, ни о каком там “универсальном глобальном интернет-доступе” речи не идёт. Понятно, что к концу 2025 многое может измениться: и смартфоны могут обновиться, и срок предоставления услуг могут сдвинуть, и условия могут стать другими, например, решение будет доступно только для смартфонов с совместимой прошивкой/радиомодулем. (Само собой, это всё лишь в том случае, если после окончания 2024 года вообще сохранится какой-то интерес к подобным технологиям и спутниками будет возможно управлять. Впрочем, с другой стороны, технология эта – многообещающая, хоть и не совсем в том ключе, как обычно рассказывают, так что велики шансы на дальнейшее продвижение.)

Ссылки по теме: Starlink и взаимодействие с наземными GSM-сетями; Геопривязка в персональных цифровых финансах.



Комментировать »

Представьте, что исследование карамельки выявило наличие внутри начинки. Для решения задачи размещения начинки внутри карамелек требуются некоторые особенные машины, которые нужны для формирования и обработки трубочек из карамельного состава. Опрошенные кулинары не знают, как такие машины изготавливают. Приготовить исходный раствор для корпусов карамелек, равно как и начинку из повидла, можно в кастрюле, это просто – типичная кухонная задача. Но вот создание машины, вкладывающей одно в другое, внезапно, требует станков для изготовления необычных металлических деталек, а это совсем другая история.

“Обратная разработка” (ревёрс-инжиниринг) нередко оказывается гораздо сложнее “прямой”. В частности, потому, что, при обратном движении, мыслимый процесс, приводящий к созданию целевого объекта, легко расщепляется, да ещё и в нескольких неожиданных плоскостях: мало того, что машина для помещения начинки в карамельки оказывается более замысловатой, чем кастрюля и сама карамелька с начинкой, так ещё и устроить эту машину можно многими способами, а измеримые свойства исходных карамелек вовсе не позволяют найти среди этих способов оптимальный, так как в карамельке сложность машины необратимым образом сворачивается в элементарный факт обнаружения начинки внутри корпуса.

(Кстати, близкий пример из области полупроводниковых схем – изменение проводимости, невидимое при “исследовании топологии”. Но, конечно, относится не только к микроэлектронике.)



Комментарии (2) »

Что касается использования LLM ИИ в качестве вспомогательного инструмента “для подготовки текстов”. Вообще, если речь про “составить типовой договор”, то такие задачи давно и успешно автоматизируются, но делается это так, что конкретная форма договора собирается из конкретных зафиксированных оборотов по шаблону, а пользователю нужно, например, ввести данные сторон. Это, хотя бы, работает без “галлюцинаций”, что составляет полезную особенность. То есть, генератор-синонимайзер “по цепочкам слов” иногда нужен, но не в этом случае.

Прочие формальные и не очень формальные тексты, связанные с какими-то выводами и заключениями, должны составляться в результате обдумывания положений человеком – в этом, вообще-то, смысл, хоть сейчас и повсеместно переходят к концепции “задача – нажимать Кнопку” (это же, кстати, касается и всякой “диагностики”). “Упрощение” работы с применением ИИ тут приводит к тому, что это LLM ИИ будет предлагать “решения”, описывая их произвольным образом в сгенерированном тексте, а пользователь, из-за эффективно популяризованного через СМИ нарратива, будет считать, что ИИ “выполнил исследование” и “компьютер не может ошибаться”. Это, конечно, не для всех хорошо, а польза тут совсем не в том ключе, в каком ожидается: поскольку решениями в реальности будет управлять провайдер сервисов ИИ.



Комментировать »

NY Times и OpenAI

В Ars Technica пишут, что The New York Times через суд пытается отключить сервисы OpenAI, которые СМИ продвигают как “интеллект” (пусть и искусственный). Названная причина: LLM, являющиеся синонимайзерами-переростками, копируют и используют контент NY Times для того, чтобы уводить у них аудиторию, а также порочить источники своими “галлюцинациями”. Причём, тема с приписыванием тому же NY Times выводов и комментариев, которые полностью сгенерированы LLM, рассмотрена отдельно. То есть, где-то всё же остались следы более или менее трезвого подхода, позволяющего видеть параллели между старинной методикой создания “дорвеев” различного типа при помощи пропускания через синонимайзер чужих текстов, собранных на веб-сайтах, и “обучением” современных LLM.



Комментировать »

В Кембриджском словаре словом 2023 года назвали hallucinate, а в Институте Пушкина – тоже выбрали слово года из области ИИ, однако вариант максимально прозаичный: “нейросеть”. (Сайт института хоть и размещается в оригинальном домене верхнего уровня, но устроен несколько странно: непонятно, как можно сослаться на страницу с конкретным сообщением, поэтому будет ссылка на главную страницу.)



Комментировать »

Вот The Guardian, в статье о новой работе на тему ИИ с успешным перебором, пишут:

A major limiting factor is that the problems need to have solutions that can be verified automatically, which rules out many questions in biology, where hypotheses often need to be tested with lab experiments. (Существенный ограничивающий фактор в том, что проблемы должны иметь решения, которые могут быть проверены автоматически, что исключает многие вопросы биологии, где гипотезы часто должны проверяться лабораторными экспериментами.)

При этом в исходной работе ничего нет про “исключение проблем биологии”. Что, впрочем, не удивительно: речь-то в статье идёт про классические вычислительные NP-полные задачи, для которых, понятно, существует быстрый алгоритм проверки предложенного решения (это по определению). “Лабораторные эксперименты” тут не требуются (а что, кстати, мешает проводить такие эксперименты в автоматическом режиме? ну, особенно сейчас, когда кругом супермощный “искусственный интеллект”?). А в публикации, которая доступна на сайте Nature, на этот раз, кроме обязательного LLM, упоминают генетические алгоритмы.



Комментировать »

Кстати, что ещё касается регистраторов и, в частности, GoDaddy. Доменные зоны, а точнее – имена хостов в этих зонах, – часто используются косвенно, в составе тех или иных технических систем. Про это могут забыть даже администраторы и DevOps. Тут могут быть имена авторитативных серверов DNS (NS), имена для почтовых серверов, технические зоны для CDN и прочих систем распределения нагрузки. Потеря подобного имени может привести не только к недоступности ресурсов, но и к той или иной подмене адресации (потому что имя могут перехватить). При этом, GoDaddy мог выступать провайдером DNS-хостинга, что означает появление задач по корректному переносу самой доменной зоны. Так что проблемы у администраторов и DevOps, конечно, могут быть. Особенно, если учитывать, что изменение регистратора доменного имени, даже при содействии отдающей стороны, может занять время: нужно получать коды подтверждения, снимать/устанавливать разные флаги, вести дополнительную переписку. У GoDaddy, например, не самая надёжная и понятная панель управления – часто при переносе имён происходят какие-то загадочные сбои, не отправляются письма.

(И, опять же, не стоит забывать про реестры.)



Комментарии (1) »