С Python очень легко и удобно работать с XML. Существует большое количество модулей, которые можно подключать для более комфортного решения поставленных задач. В этом материале мы разберем с вами некоторые из них.
Что такое XML?
Это упрощенный диалект SGML (Standard Generalized Markup Language), в эту категорию можно отнести и знакомый многим HTML. XML очень похож на него тем, что так же состоит из текста перемежеванного со структурой обозначенной тегами в кавычках-елочках. Но XML заключает в себя широкую систему тегов, которые позволяют XML документы использовать в разных ситуациях: статьи в журналах, документация, файлы со структурированными данными, сообщения для внутренней коммуникации между программами, архитектурные диаграммы и многое другое можно реализовать с помощью XML. Набор тегов можно использовать для того, что бы отсортировать любую информацию. Именно поэтому XML очень популярен.
Сложности работы с XML
Python по многим причинам является идеальным языком для работы с XML документами. Как Perl, REBOL, REXX и TCL — это очень гибкий язык с большим количеством возможностей.
Хорошо знакомый всем способ «прочитай несколько строк и сравни их с регулярным выражением», не самый лучший способ обрабатывать XML документ. Python, как и многие другие языки, имеет несколько подходов для решения парсинга документа. Решить поставленную задачу можно, как с помощью создания классов и использования атрибутов, так и с помощью модулей XML-запросов. Они были специально созданы, чтобы облегчить разбор и генерацию XML. Именно об этих модулях мы говорим ниже.
Стандартный модуль XMLLIB
Прямо «из коробки» в Python специализированный модуль, который позволяет корректно и удобно работать с XML. Этот модуль работает с использованием класса XMLParser, который содержит методы, позволяющие парсит XML на теги или символы. Этот модуль подключается в пространстве имен и годиться для очень простых операций получения данных, но если вам необходимо решить задачу более сложную, стандартный модуль может значительно потрепать вам нервы.
Другие модули
Существует масса других модулей, которые вы можете использовать вместо стандартного.
[pyexpat] это не требующий валидации враппер для GPL’d XML Parser Toolkit, он был написан на С, а значит доступен для любого языка, который хочет его использовать, он работает намного быстрее, чем родной питоновский парсер. Доступны бинарники для MacOS.
[sgmlop] — очень похож на предыдущий, он так же написан на С. Есть бинарники для Win32. Но если вы пользуетесь какой-то другой платформой, вам потребуется компилятор, чтоб построить модуль для своей платформы.
[xmlproc] — это родной модуль Python, который предоставляет почти полную валидацию. К сожалению, если вам нужен парсер с валидацией xmlproc — это единственный вариант на Python.
Пакет SAX
Этот пакет позволяет вам не задумываться о том, какой модуль необходимо подключить в какой ситуации. Он автоматически определяет, какой парсер вам нужен. SAX расшифровывается, как Simple API for XML. Манеры его использования очень похожи на то, как мы пользуемся стандартной библиотекой, разве только отличие в том, что вы пользуетесь API. Подробнее о возможностях работы с языком программирования
Конечно выбор парсера всегда зависит от ситуации и задачи, которую вам необходимо решить. Благо для Python существует огромное количество парcеров и вы всегда сможете подобрать необходимый.