“По данным на 2022 год, в Орловской, Новгородской и Псковской областях не пользуется интернетом каждый пятый” – пишет издание “Коммерсант” со ссылкой на данные Росстата. Интересно, что именно подразумевается в подобных опросах под “пользуется Интернетом” – потому что возникает подозрение, что речь-то может идти про веб, а какие-нибудь WhatsApp с Telegram, удивительно распространённые, к “пользованию Интернетом” не относят (как и использование разных других приложений для смартфонов, и “интернет-телеканалов” в телевизоре). Методика сбора данных в Росстате, как написано, основана на личном опросе по анкете, так что телефона у опрашиваемого может и не быть, факт. Тем не менее, 20% – выглядит очень большой долей.

(Кстати, практика написания названия “Интернет” со строчной буквы, как в цитате из “Коммерсанта”, сыграла далеко не последнюю роль в современной сегментации Сети. Это, впрочем, тема для отдельной записки.)



Комментировать »

Единичной окружностью, при некоторых допущениях, можно назвать достаточно мощное множество пар чисел (x, y), которые удовлетворяют формуле X^2 + Y^2 == 1. Это, например, привычный случай школьной координатной плоскости. Но можно сказать, что “окружность”, без всяких формул, это большой набор конкретных пар чисел, которые буквально переписаны в массиве исходных данных. Отсутствие формулы в методе определения делает второй вариант существенно отличающимся от первого. И этот второй вариант как раз соответствует популярному сейчас подходу с использованием ИИ (“искусственного интеллекта”) в качестве инструмента анализа: вместо построения вычислительно эффективного общего метода – предлагается таскать с собой наборы исходных данных, проводя там поиск. Чтобы описать больше разных окружностей – возьмём больше разных массивов.

В случае с формулой – (координатная) пара принадлежит окружности, если подстановка в формулу сохраняет равенство. В случае с массивом исходных данных – пара принадлежит окружности тогда, когда удалось найти именно эту пару методом перебора массива. Зато нет дополнительных моделей и концепций. Это сильно различающиеся подходы.

Важный онтологический аспект: новое знание – это возможность заменить большой массив “исходных данных”, где из дополнительных структур присутствует только способ индексирования (“итератор”, если хотите), на структурный метод, который в вычислительном смысле не только короче, но и много проще, чем “итератор” с исходными данными. Понятно, что таблица координат точек, задающих окружность, тоже может использоваться во многих практических случаях, например, если нужно быстро рисовать некоторые “закрашенные круги” на некотором “матричном” дисплее (условном). Есть и другие варианты эффективного использования подобных таблиц. Но они не отменяют того факта, что можно написать короткую программу, – короче, чем массив с точками “окуржности”, – которая успешно сгенерирует сотни мегабайт видеопотока, имитирующего, предположим, полёт над некоторой фантастической местностью. И тут можно вспомнить популярные когда-то давно “демо-программы” (“демосцены”), работавшие на ограниченных вычислительных ресурсах.

Понятно, что не всякие наборы пар чисел укладываются в заданную выше формулу, если, конечно, не изменять базовую логику, определения операций и прочие свойства. У схемы X^2 + Y^2 == 1 – есть много оговорок, её запись и реализация требует некоторых дополнительных соглашений, в отличие от простого “итератора”, построенного в стиле попарного сопоставления некоторых элементов множества. Однако именно поэтому данная схема несравнимо богаче по познавательным возможностям. Например, использование формулы позволяет построить объяснение того, как так выходит, что некоторая пара чисел не лежит на заданной окружности, то есть, построить весьма мощные новые теории. А вот массив исходных данных, сам по себе, – такой возможности не предоставляет: тут только и можно сказать, что “соответствующей пары нет в списке”.



Комментировать »

Логичное развитие навигационных приложений в смартфонах – использование, в дополнение к ненадёжной спутниковой навигации, сети наземных маячков: Google уже встраивает поддержку в своё приложение. Понятно, что концепция совсем не новая (наоборот – это возврат к системам, действовавшим до появления GPS), но тут речь про массовый заход со стороны потребительских устройств с GPS, а это уже новое направление. Пока что речь про маячки в туннелях, но, понятно, подход легко переносится и на другие ситуации.



Комментарии (1) »

Кстати, что касается “обезличивания” (или “анонимизации”) различных данных о персонах – есть хороший способ понять, в какой степени хорош тот или иной метод “обезличивания”: нужно попробовать представить, позволяют ли “обезличенные” данные различать неизвестных людей, если таковые собрались в некоторой комнате, в достаточно большом количестве. Под возможностью различать здесь подразумевается возможность точно сказать, что тот или иной фрагмент “обезличенных” данных относится к каким-то людям из присутствующих в комнате, а к каким-то – не относится. И чем выше оказывается различительная способность, тем хуже данные были обезличены (многие типы данных обезличить очень и очень сложно). Этот мысленный эксперимент хорошо показывает всякие неочевидные особенности.

Пример: есть база данных (БД), в которой записан рост людей из комнаты, с точностью плюс/минус пять сантиметров; хорошо ли эти данные помогают различать людей в рамках воображаемой комнаты? Вообще, разнообразие роста велико, но есть некоторый интервал, в который попадает очень много людей. Поэтому, в комнате окажется много людей как бы одинакового роста, в терминах нашей БД, тем более, что рост, по условиям, укладывается в плюс/минус пять сантиметров. Однако, если в комнате присутствует человек ростом 205 сантиметров, то, если это не встреча баскетболистов, скорее всего, персону нетрудно будет связать с записью из базы – интервал от 200 до 210 сантиметров не слишком-то заселён. Теперь, если в базе присутствовали данные о росте (плюс/минус – для “обезличивания”) и, скажем, фамилия, имя и отчество, то можно будет подойти, и к человеку высокого роста обратиться точно по имени. (Понятно, что знание ФИО вообще позволяет устроить перекличку, но Константинов Каретиных, предположим, может оказаться несколько.)

Другой пример: есть запись голоса. Этот вариант точнее, поскольку голоса не только обычно различаются (исключения – редки), но и это различие очень велико, особенно, если сравнение выполняет человек с хорошим, подходящим слухом. Голос работает не хуже фотографии лица (“анфас и профиль”). А по такой фотографии – различить людей в комнате совсем нетрудно. Однако биометрические данные – это одно, а всякие “цифровые следы” – другое.

Предположим, известны номера мобильного телефона. Насколько это точные данные? В рамках нашего мысленного эксперимента позвоним по выбранному номеру и будем наблюдать, у кого именно из присутствующих смартфон зазвонит. То есть, точность очень высока (конечно, при прочих допущениях: телефоны должны быть у всех присутствующих, должны быть включены и пр.) А вот только по домашнему адресу – различить людей в комнате довольно сложно, но ведь и адреса, сами по себе, не только всем известны (нанесены на карты), так ещё и никак не “персонализируются”, в отличие от телефонного номера смартфона, который буквально к человеку-носителю привязан.

Понятно, что различительная способность резко возрастает, когда к одним данным добавляются другие.

Данный мысленный эксперимент не является универсальным, но неплохо работает и для других видов данных, вплоть до сведений о покупке деловых костюмов, – попробуйте сами.



Комментировать »

Volkswagen собирается ChatGPT добавить к системам автомобиля. То есть, внутри автомобиля появится очередной “жучок”, прослушивающий и отправляющий разговоры на внешний сервер. Тут нетрудно предположить, что может оказаться внедрена и такая недокументированная функция, которая позволит отправлять команды автомобилю с серверов ChatGPT. Конечно, это будет особенность, внесённая случайно по ошибке (но без всякого противоречия “политике использования автомобиля”) – поскольку уже заранее официально утверждается, что доступа “к системам автомобиля” у ChatGPT не будет (однако, это же ведь “невиданный искусственный интеллект”, который может вот-вот выйти из-под контроля, как утверждается в СМИ, в пресс-релизах и в открытых письмах – казалось бы, что может пойти не так?). С другой стороны, в автомобили уже не только звукозаписывающую аппаратуру штатно устанавливают (до идеи с ChatGPT, понятно), но и видеокамеры, передающие данные на центральные серверы, так что решение нельзя назвать радикально новым.



Комментировать »

Забавное развитие темы столкновения коммерческих синонимайзеров LLM, традиционно называемых “искусственным интеллектом”, с не менее коммерческим “копирайтом”: сообщают, что OpenAI, на примере лидера направления – ChatGPT, – указывает на “невозможность создания полезных LLM без использования материалов, защищённых авторским правом” (как, например, скачивание всех статей NY Times).

Естественно, упор в возражениях делается на “всеобъемлющий копирайт” – мол, поскольку всё кругом защищено, то ChatGPT ничего нельзя использовать, и поэтому “интеллект” не работает. И тут даже не важно, что силами “копирайта” читать статьи запрещают не везде (часто, впрочем, запреты относятся к научным статьям, что ситуацию не красит), вообще можно отвлечься от того, что современный “копирайт” далёк от идеала. Забавно вот что: с одной стороны, как бы, создаётся “невиданный независимый ИИ”, да такой мощный, что даже угрожает человечеству, а с другой – это ИИ, оказывается, совсем не действует без копирования и пересказывания свежих газетных статей, и, как говорится, базируется на “картинках, найденных в интернетах” (что, конечно, гораздо ближе к реальному положению дел).



Комментировать »

Несколько неожиданно, что пассажирский самолёт Boeing 737, у которого вчера на высоте почти пять тысяч метров вылетела фюзеляжная панель вместе с иллюминатором (и “дверью”), это, оказывается, совсем новый 737 Max 9, который только два месяца назад был выпущен, если верить статье The Guardian (по ссылке есть небольшое видео).



Комментировать »

На сайте про “прямое подключение” смартфона через спутники Starlink пока что обещают доставку текстовых сообщений (почти что старый Twitter), да и то – в конце 2024 года. И только когда-то потом, после 2025, судя по всему, планируют предоставлять доступ с передачей данных и голосовую связь (что в LTE примерно одно и то же). При этом, понятно, сразу есть куча оговорок про совместимость и доступность. Сейчас, естественно, доступ заявлен только для конкретных операторов, ни о каком там “универсальном глобальном интернет-доступе” речи не идёт. Понятно, что к концу 2025 многое может измениться: и смартфоны могут обновиться, и срок предоставления услуг могут сдвинуть, и условия могут стать другими, например, решение будет доступно только для смартфонов с совместимой прошивкой/радиомодулем. (Само собой, это всё лишь в том случае, если после окончания 2024 года вообще сохранится какой-то интерес к подобным технологиям и спутниками будет возможно управлять. Впрочем, с другой стороны, технология эта – многообещающая, хоть и не совсем в том ключе, как обычно рассказывают, так что велики шансы на дальнейшее продвижение.)

Ссылки по теме: Starlink и взаимодействие с наземными GSM-сетями; Геопривязка в персональных цифровых финансах.



Комментировать »

Представьте, что исследование карамельки выявило наличие внутри начинки. Для решения задачи размещения начинки внутри карамелек требуются некоторые особенные машины, которые нужны для формирования и обработки трубочек из карамельного состава. Опрошенные кулинары не знают, как такие машины изготавливают. Приготовить исходный раствор для корпусов карамелек, равно как и начинку из повидла, можно в кастрюле, это просто – типичная кухонная задача. Но вот создание машины, вкладывающей одно в другое, внезапно, требует станков для изготовления необычных металлических деталек, а это совсем другая история.

“Обратная разработка” (ревёрс-инжиниринг) нередко оказывается гораздо сложнее “прямой”. В частности, потому, что, при обратном движении, мыслимый процесс, приводящий к созданию целевого объекта, легко расщепляется, да ещё и в нескольких неожиданных плоскостях: мало того, что машина для помещения начинки в карамельки оказывается более замысловатой, чем кастрюля и сама карамелька с начинкой, так ещё и устроить эту машину можно многими способами, а измеримые свойства исходных карамелек вовсе не позволяют найти среди этих способов оптимальный, так как в карамельке сложность машины необратимым образом сворачивается в элементарный факт обнаружения начинки внутри корпуса.

(Кстати, близкий пример из области полупроводниковых схем – изменение проводимости, невидимое при “исследовании топологии”. Но, конечно, относится не только к микроэлектронике.)



Комментарии (2) »

Что касается использования LLM ИИ в качестве вспомогательного инструмента “для подготовки текстов”. Вообще, если речь про “составить типовой договор”, то такие задачи давно и успешно автоматизируются, но делается это так, что конкретная форма договора собирается из конкретных зафиксированных оборотов по шаблону, а пользователю нужно, например, ввести данные сторон. Это, хотя бы, работает без “галлюцинаций”, что составляет полезную особенность. То есть, генератор-синонимайзер “по цепочкам слов” иногда нужен, но не в этом случае.

Прочие формальные и не очень формальные тексты, связанные с какими-то выводами и заключениями, должны составляться в результате обдумывания положений человеком – в этом, вообще-то, смысл, хоть сейчас и повсеместно переходят к концепции “задача – нажимать Кнопку” (это же, кстати, касается и всякой “диагностики”). “Упрощение” работы с применением ИИ тут приводит к тому, что это LLM ИИ будет предлагать “решения”, описывая их произвольным образом в сгенерированном тексте, а пользователь, из-за эффективно популяризованного через СМИ нарратива, будет считать, что ИИ “выполнил исследование” и “компьютер не может ошибаться”. Это, конечно, не для всех хорошо, а польза тут совсем не в том ключе, в каком ожидается: поскольку решениями в реальности будет управлять провайдер сервисов ИИ.



Комментировать »

NY Times и OpenAI

В Ars Technica пишут, что The New York Times через суд пытается отключить сервисы OpenAI, которые СМИ продвигают как “интеллект” (пусть и искусственный). Названная причина: LLM, являющиеся синонимайзерами-переростками, копируют и используют контент NY Times для того, чтобы уводить у них аудиторию, а также порочить источники своими “галлюцинациями”. Причём, тема с приписыванием тому же NY Times выводов и комментариев, которые полностью сгенерированы LLM, рассмотрена отдельно. То есть, где-то всё же остались следы более или менее трезвого подхода, позволяющего видеть параллели между старинной методикой создания “дорвеев” различного типа при помощи пропускания через синонимайзер чужих текстов, собранных на веб-сайтах, и “обучением” современных LLM.



Комментировать »