Актуальные символы в XML документе хранятся как числовые коды. Наиболее общим набором символов является American Standard Code for Information Interchange (ASCII). ASCII коды простираются от 0 до 255, что умещается в один байт.

XML - это текстовый формат данных, который будет составлять мощь следующего поколения World Wide Web. В этом мы имеем проблему, и она - "Worldwide". Многие скрипты не обрабатывают ASCII, а именно Japanese, Arabic, Hebrew, Bengali и многие другие языки.

По этой причине набором символов по умолчанию для XML по заявлению W3C является Unicode, а не ASCII. Но на практике поддержка Unicode, как и многих других частей технологии XML, не полностью реализована на большинстве платформ. Windows 95/98 не имеет полной поддержки Unicode, хотя в Windows NT, Windows 2000 и XP с этим делом обстоит лучше. Чаще всего это значит, что XML документ написан в простом ASCII или в UTF-8, который представляет собой компрессированную версию Unicode, использующую восьмибитное представление символов.

В нашем примере первая строка заявляет:

<? xml version = "1.0" encoding = "UTF-8" ?>

здесь указывается использование UTF-8 символов кодировки UTF-8.

В настоящее время XML процессор предполагает, что значением по умолчанию для вашего документа является UTF-8, так что если вы пропустите спецификацию кодировки, будет предполагаться, что это UTF-8. За более детальной информацией о наборах символов просмотрите список опубликованный Internet Assigned Number Authority (IANA) на www.isi.edu/in-notes/iana/assignments/character-sets.