ЮНИКОД - ЮНИКОД (Unicode), 16-разрядная система кодирования, совместимая с системой ASCII, которая охватывает символы разных письменностей: латинской, кириллической, греческой, а также языков, использующих иероглифы. Система присваивает уникальный код любому символу, независимо от платформы, программы или языка. Для представления символа используются два 8-битных байта (см. БАЙТ). Коды разделены на несколько областей: область с кодами от 0000 до 007F содержит символы набора Latin 1 (младшие байты соответствуют кодировке ISO 8859-1), далее идут области, в которых расположены символы различных письменностей, а также знаки пунктуации и технические символы. Часть кодов зарезервирована для применения в будущем. Символам кириллицы выделены коды в диапазоне от 0400 до 0451. Для работы с документами Unicode необходимы соответствующие шрифты. Как правило, файл шрифта Unicode содержит начертания не для всех символов, определенных в стандарте.
Стандарт Unicode предложен некоммерческой организацией Unicode Consortium, образованной в 1991 году. Его приняли ведущие компьютерные фирмы: Apple, HP, IBM, JustSystem, Microsoft, Oracle, SAP, Sun, Sybase, Unisys и др. Cхема кодирования используется большинством современных технологий и стандартов (например, XML, Java, ECMAScript (JavaScript), LDAP, CORBA 3.0, WML и др.). Unicode поддерживается множеством операционных систем и всеми современными браузерами Интернета. Повсеместное распространение стандарта Unicode считается одним из важных направлений развития индустрии программного обеспечения.
Юникод - стандарт кодировки знаков, разработанный в 1991 организацией Unicode Consortium, который позволяет представить знаки в цифровой форме практически всех письменных языков. В документах Unicode могут соседствовать китайские иероглифы, математические символы, буквы греческого алфавита и кириллицы, при этом становятся ненужными кодовые страницы.
Коды в стандарте Unicode разделены на несколько областей. Область с кодами от U+0000 до U+007F содержит символы набора ASCII с соответствующими кодами. Далее расположены области знаков различных письменностей (например, под символы кириллицы выделены коды от U+0400 до U+052F), знаки пунктуации и технические символы. Часть кодов зарезервирована для использования в будущем. В Юникоде зарезервировано 1.114.112 (220+216) позиций символов, из которых сейчас используется около 90000. Первые 256 знакомест совпадают с кодовой таблицей ISO 8859-1 (Latin-1).
Юникод, подобно «таблице химических элементов Менделеева». Кодовое пространство разделено на 17 «плоскостей» по 65536 (216) символов: (0000-FFFF) Basic Multilingual Plane; (10000-1FFFF) Supplementary Multilingual Plane; (20000-2FFFF) Supplementary Ideographic Plane; плоскости 3-13 (30000-DFFFF) не используется; (E0000-EFFFF) Supplementary Special-purpose Plane; (F0000-FFFFF) зарезервировано для Private Use Area; (100000-10FFFF) зарезервировано для Private Use Area.
Основная многоязыковая плоскость «0» содержит символы практически для всех современных письменностей. Большая часть таблицы занята китайско-японско-корейскими иероглифами.
В Unicode 4.1 в этой плоскости представлены следующие символы:
Базовый латинский алфавит (0000-007F)
Международный фонетический алфавит (IPA) Extensions (0250-02AF)
Греческий и коптский алфавиты (0370-03FF)
Кириллица (0400-04FF), см. также Кириллица в Юникоде
Армянский алфавит (0530-058F)
Еврейский алфавит (0590-05FF)
Арабский алфавит (0600-06FF)
Сирийский алфавит (0700-074F)
Габули тана (0780-07BF)
Индийские письменности: деванагари, бенгали, гурмукхи, гуджарати, ория, тамили, телугу, каннада, малаяли, сингали (0900-0D7F)
Лао (0E80-0EFF)
Тибетская письменность (0F00-0FFF)
Бирманский алфавит (1000-109F)
Грузинский алфавит (10A0-10FF)
Амхарский язык (1200-137F)
Чероки (13A0-13FF)
Силлабарии аборигенов Канады (1400-167F)
Огам (1680-169F)
Международный фонетический алфавит (IPA) Extensions (0250-02AF)
Греческий и коптский алфавиты (0370-03FF)
Кириллица (0400-04FF), см. также Кириллица в Юникоде
Армянский алфавит (0530-058F)
Еврейский алфавит (0590-05FF)
Арабский алфавит (0600-06FF)
Сирийский алфавит (0700-074F)
Габули тана (0780-07BF)
Индийские письменности: деванагари, бенгали, гурмукхи, гуджарати, ория, тамили, телугу, каннада, малаяли, сингали (0900-0D7F)
Лао (0E80-0EFF)
Тибетская письменность (0F00-0FFF)
Бирманский алфавит (1000-109F)
Грузинский алфавит (10A0-10FF)
Амхарский язык (1200-137F)
Чероки (13A0-13FF)
Силлабарии аборигенов Канады (1400-167F)
Огам (1680-169F)
Руны (16A0-16FF)
Филиппинские письменности: тагалог, хануноо (мангьяна), бухид, тагбануа (1700-171F)
Кхмерский силлабарий (1780-17FF)
Монгольский алфавит (1800-18AF)
Лимбу (1900-194F)
Лы (1950-197F)
Тай-ныа (1980-19DF)
Буги (1A00-1A1F)
Математические операторы (2200-22FF)
Азбука Брайля (2800-28FF)
Глаголица (2C00-2C5F)
Коптский алфавит (2C80-2CFF)
Тифинаг (2D30-2D7F)
Хирагана (3040-309F)
Катакана (30A0-30FF)
Чжуинь (Бопомофо) (3100-312F)
Гексаграммы Ицзин (4DC0-4DFF)
Исское письмо (A000-A4 CF)
Силоти-нагри (A800-A82F)
Некоторые письменности будут добавлены в следующей версии Unicode. Эти письменности и предложенные диапазоны перечислены далее: Нко (мандиго) (07C0-07FF), Балийское (1B00-1B7F), Ронг-лепча (1C00-1C4F), Ол-Цемет (сантали) (2DE0-2DFF), Ваи (A500-A61F), Пагба (пассепа) (A840-A87F), Саураштри (AB00-AB5F)
Некоторые другие предложенные расширения: Авестийское и пехлеви (0800-085F), Чам (18B0-18FF), Батакское (1A20-1A5F), Ланна/юан, старое лы (1A80-1AEF), мейтхей/манипури (1C80-1CDF), Варанг-кшити (AA00-AA3F), Соранг-сомпенг (AA40-AA6F)