Ресурсы: техническое описание TLS, LaTeX - в картинки (img), криптографическая библиотека Arduino, шифр "Кузнечик" на ассемблере AMD64/AVX и ARM64
Unicode, веб-сайты, домены
Довольно часто веб-разработчики спрашивают на семинарах: зачем реально нужен Unicode в качестве единственной кодировки на русскоязычном сайте, если есть удобная и привычная Windows-1251? Тем более, мотивируют своё отрицание разработчики, что Unicode увеличивает объём передаваемых данных.
Так вот есть отличный пример необходимости Unicode: многоязычные доменные имена. Предположим, что эти имена упоминаются в тексте новости на сайте. Если сайт работает не в Unicode, а в Windows-1251, то указать имя (не картинкой) просто не получится – нет там нужных символов в таблице. На мой взгляд, уже одного этого достаточно, чтобы перейти на Unicode и следовать современным веб-стандартам.
Адрес записки: https://dxdt.ru/2008/10/12/1759/
Похожие записки:
- Новость про постквантовые криптосистемы в вебе
- Внешние библиотеки на сайтах и замена кода
- Набеги ботов под прикрытием AI
- "Случайные пакеты" как транспорт
- Браузеры и перехват TLS без участия УЦ
- Удостоверяющий центр TLS ТЦИ
- Реплика: о языках программирования, из практики
- Stack Overflow и OpenAI
- CVE-2024-3094 про бэкдор в liblzma и теория ИБ
- Вывод полей ECH на tls13.1d.pw
- Логи Certificate Transparency и "таймшардинг"
Комментарии читателей блога: 9
1 <t> // 12th October 2008, 18:04 // Читатель gene написал:
Было бы неплохо уточнить, что подразумевается под Unicode. А то это понятие уже стало слишком размыто. В вебе обычно используется UTF-8. Наверное он имеется ввиду? Если да, то для русских сайтов действительно объем увеличивается, а для английских остается тем же. Если же использовать UCS-2, то для русского и для латинского алфавитов объем будет в два раза больше.
2 <t> // 12th October 2008, 18:08 // Александр Венедюхин:
Да, UTF-8, совершенно верно.
3 <t> // 12th October 2008, 21:55 // Читатель Макс Лапшин написал:
Цензурных слов не находится, когда ещё слышу вопрос про юникод. Особенно, когда умляуты возникают на сайте, где раньше был cp1251. Особенно учитывая, что серверы живут либо в utf8, либо (если админ совсем настырный) koi8-r.
4 <t> // 13th October 2008, 00:21 // Читатель Jeff Zanooda написал:
Вне зависимости от кодовой страницы в HTML можно вставлять любые символы через амперсанд. Например, Русский (не знаю, как это отобразит WordPress).
5 <t> // 13th October 2008, 00:26 // Читатель Jeff Zanooda написал:
WordPress всё правильно отобразил. Например, буква Р в слове Русский на самом деле была введена как амперсанд решётка 1056 точка с запятой. Разумеется, руками это делать необязательно.
6 <t> // 13th October 2008, 05:07 // Читатель zuzoid написал:
Ага. Только это целых 7 символов вместо 1. Тяжеловато станет, особенно если речь пойдет о мобильном веб-контенте.
7 <t> // 13th October 2008, 09:39 // Читатель Jeff Zanooda написал:
Ну и что, что 7 вместо 1. Отдельные точки не вносят вклада в интеграл. К тому же UTF-8 тоже длиннее Windows-1251, если текст преимущественно русский, так что количество байтов в странице вроде бы не проблема.
8 <t> // 13th October 2008, 10:42 // Александр Венедюхин:
Да уж, особенно “хорош” этот способ когда текст вводится в админку CMS через веб-форму.
9 <t> // 13th October 2008, 16:07 // Читатель zuzoid написал:
Это, как раз, не проблема, ибо в любой веб-редактор можно встроить соответствующий конвертер.
А спор, в целом, бессмысленен. Преимущество utf очевидно как объединение нескольких сотнен кодировок в одной “упаковке” ценой лишнего байта за символ.