Unicode, веб-сайты, домены

Довольно часто веб-разработчики спрашивают на семинарах: зачем реально нужен Unicode в качестве единственной кодировки на русскоязычном сайте, если есть удобная и привычная Windows-1251? Тем более, мотивируют своё отрицание разработчики, что Unicode увеличивает объём передаваемых данных.

Так вот есть отличный пример необходимости Unicode: многоязычные доменные имена. Предположим, что эти имена упоминаются в тексте новости на сайте. Если сайт работает не в Unicode, а в Windows-1251, то указать имя (не картинкой) просто не получится – нет там нужных символов в таблице. На мой взгляд, уже одного этого достаточно, чтобы перейти на Unicode и следовать современным веб-стандартам.

()

Похожие записки:



Далее - мнения и дискуссии

(Сообщения ниже добавляются читателями сайта, через форму, расположенную в конце страницы.)

Комментарии читателей блога: 9

  • 1. 12th October 2008, 18:04 // Читатель gene написал:

    Было бы неплохо уточнить, что подразумевается под Unicode. А то это понятие уже стало слишком размыто. В вебе обычно используется UTF-8. Наверное он имеется ввиду? Если да, то для русских сайтов действительно объем увеличивается, а для английских остается тем же. Если же использовать UCS-2, то для русского и для латинского алфавитов объем будет в два раза больше.

  • 2. 12th October 2008, 18:08 // Александр Венедюхин ответил:

    Да, UTF-8, совершенно верно.

  • 3. 12th October 2008, 21:55 // Читатель Макс Лапшин написал:

    Цензурных слов не находится, когда ещё слышу вопрос про юникод. Особенно, когда умляуты возникают на сайте, где раньше был cp1251. Особенно учитывая, что серверы живут либо в utf8, либо (если админ совсем настырный) koi8-r.

  • 4. 13th October 2008, 00:21 // Читатель Jeff Zanooda написал:

    Вне зависимости от кодовой страницы в HTML можно вставлять любые символы через амперсанд. Например, Русский (не знаю, как это отобразит WordPress).

  • 5. 13th October 2008, 00:26 // Читатель Jeff Zanooda написал:

    WordPress всё правильно отобразил. Например, буква Р в слове Русский на самом деле была введена как амперсанд решётка 1056 точка с запятой. Разумеется, руками это делать необязательно.

  • 6. 13th October 2008, 05:07 // Читатель zuzoid написал:

    Ага. Только это целых 7 символов вместо 1. Тяжеловато станет, особенно если речь пойдет о мобильном веб-контенте.

  • 7. 13th October 2008, 09:39 // Читатель Jeff Zanooda написал:

    Ну и что, что 7 вместо 1. Отдельные точки не вносят вклада в интеграл. К тому же UTF-8 тоже длиннее Windows-1251, если текст преимущественно русский, так что количество байтов в странице вроде бы не проблема.

  • 8. 13th October 2008, 10:42 // Александр Венедюхин ответил:

    Вне зависимости от кодовой страницы в HTML можно вставлять любые символы через амперсанд.

    Да уж, особенно “хорош” этот способ когда текст вводится в админку CMS через веб-форму.

  • 9. 13th October 2008, 16:07 // Читатель zuzoid написал:

    Это, как раз, не проблема, ибо в любой веб-редактор можно встроить соответствующий конвертер.

    А спор, в целом, бессмысленен. Преимущество utf очевидно как объединение нескольких сотнен кодировок в одной “упаковке” ценой лишнего байта за символ.