Машинное обучение и действительные числа
Иногда приходится слышать, что “нейросети и машинное обучение работают с действительными (вещественными) числами”. Звучит занимательно, потому что практически никакое действительное число в отдельный компьютер или даже в дата-центр, набитый специализированными “тензорными процессорами”, по записи не уместится. Более того, если бы действительные числа были доступны на этом технологическом направлении, то почему бы тогда не взять десятичную запись π и, вместо “обучения”, не найти там уже готовый набор коэффициентов под нужную задачу?
А процессоры для “машинного обучения”, в лучшем случае, работают с небольшим подмножеством целых чисел, даже когда используется надстройка в виде арифметики с плавающей точкой – что-нибудь из разряда bfloat16, FF32 и т.п. Эта арифметика максимально далека от действительных чисел, в которых, кстати, арифметику вообще очень сложно, если вообще возможно, построить даже теоретически. Свойства привычных “вычислений с погрешностью” уже для целых значений приводят ко всяким дополнительным хитростям, это кроме известных эффектов расщепления одного и того же числа на несколько представлений.
Можно было бы предположить, что использование в вычислениях некоторых математических констант выражается в том, что соответствующие этим константам бесконечные процессы как раз и позволяют системам машинного обучения достигать всё большей и большей точности, но и это не так: в современных многослойных “нейросетях” разрядность имеет совсем другое значение, а лучшая “сходимость” (что бы это ни значило) может достигаться при убывающей точности записи коэффициентов.
Адрес записки: https://dxdt.ru/2023/08/25/10795/
Похожие записки:
- Квантовые компьютеры и аксиома непрерывности
- Техническое: экзотические настройки в SPF
- Офтопик: знаки из точек, манускрипт и буква ë в английском
- Алгоритм Шора и Вселенная кубиками
- ИИ Google и олимпиадные задачи
- Ключи X25519 для гибрида с Kyber в Firefox
- Квантовые состояния в неизвестности
- Распространение квантовой запутанности
- Некоммутативные апельсины или задача для младших школьников
- Реплика: ЕГЭ от YandexGPT
- Имена в TLS для веба (HTTP/HTTPS)
Написать комментарий