Unicode, веб-сайты, домены
Довольно часто веб-разработчики спрашивают на семинарах: зачем реально нужен Unicode в качестве единственной кодировки на русскоязычном сайте, если есть удобная и привычная Windows-1251? Тем более, мотивируют своё отрицание разработчики, что Unicode увеличивает объём передаваемых данных.
Так вот есть отличный пример необходимости Unicode: многоязычные доменные имена. Предположим, что эти имена упоминаются в тексте новости на сайте. Если сайт работает не в Unicode, а в Windows-1251, то указать имя (не картинкой) просто не получится – нет там нужных символов в таблице. На мой взгляд, уже одного этого достаточно, чтобы перейти на Unicode и следовать современным веб-стандартам.
Адрес записки: https://dxdt.ru/2008/10/12/1759/
Похожие записки:
- Экспериментальный сервер TLS 1.3: замена сертификатов
- Про цепочки, RSA и ECDSA
- Централизованные мессенджеры и многообразие мест хранения сообщений
- Новость про постквантовые криптосистемы в вебе
- Квантовая криптография и металлический контейнер
- Предсказание погоды от Google AI
- Mozilla Firefox и внедрение рекламных сообщений
- CVE-2024-3094 про бэкдор в liblzma и теория ИБ
- "Краткий пересказ" новой возможности "Яндекс.Браузера"
- Исчезновение "фрагментации Интернета" с разных точек зрения
- Квантовая криптография и стойкость
Комментарии читателей блога: 9
1. 12th October 2008, 18:04 // Читатель gene написал:
Было бы неплохо уточнить, что подразумевается под Unicode. А то это понятие уже стало слишком размыто. В вебе обычно используется UTF-8. Наверное он имеется ввиду? Если да, то для русских сайтов действительно объем увеличивается, а для английских остается тем же. Если же использовать UCS-2, то для русского и для латинского алфавитов объем будет в два раза больше.
2. 12th October 2008, 18:08 // Александр Венедюхин:
Да, UTF-8, совершенно верно.
3. 12th October 2008, 21:55 // Читатель Макс Лапшин написал:
Цензурных слов не находится, когда ещё слышу вопрос про юникод. Особенно, когда умляуты возникают на сайте, где раньше был cp1251. Особенно учитывая, что серверы живут либо в utf8, либо (если админ совсем настырный) koi8-r.
4. 13th October 2008, 00:21 // Читатель Jeff Zanooda написал:
Вне зависимости от кодовой страницы в HTML можно вставлять любые символы через амперсанд. Например, Русский (не знаю, как это отобразит WordPress).
5. 13th October 2008, 00:26 // Читатель Jeff Zanooda написал:
WordPress всё правильно отобразил. Например, буква Р в слове Русский на самом деле была введена как амперсанд решётка 1056 точка с запятой. Разумеется, руками это делать необязательно.
6. 13th October 2008, 05:07 // Читатель zuzoid написал:
Ага. Только это целых 7 символов вместо 1. Тяжеловато станет, особенно если речь пойдет о мобильном веб-контенте.
7. 13th October 2008, 09:39 // Читатель Jeff Zanooda написал:
Ну и что, что 7 вместо 1. Отдельные точки не вносят вклада в интеграл. К тому же UTF-8 тоже длиннее Windows-1251, если текст преимущественно русский, так что количество байтов в странице вроде бы не проблема.
8. 13th October 2008, 10:42 // Александр Венедюхин:
Да уж, особенно “хорош” этот способ когда текст вводится в админку CMS через веб-форму.
9. 13th October 2008, 16:07 // Читатель zuzoid написал:
Это, как раз, не проблема, ибо в любой веб-редактор можно встроить соответствующий конвертер.
А спор, в целом, бессмысленен. Преимущество utf очевидно как объединение нескольких сотнен кодировок в одной “упаковке” ценой лишнего байта за символ.