Научно-методическая конференция
«ИНТЕРНЕТ И СОВРЕМЕННОЕ ОБЩЕСТВО»

РЕДАКТИРОВАНИЕ ПОЛУСТРУКТУРИРОВАННЫХ ДАННЫХ С ПОМОЩЬЮ ЯЗЫКА ОПИСАНИЯ ФОРМ PROXFORMS

Э.Е. Долгалев

Московский государственный университет им. М.В. Ломоносова
Москва

В настоящее время наблюдается чрезвычайно быстрый рост информации в электронном виде, удаленный доступ к которой осуществляется с помощью сети. Одной из проблем в организации способов создания, хранения и использования таких данных является различие в степени их структурирования. С одной стороны, данные, хранящиеся в традиционных реляционных и объектно-ориентированных базах данных, имеют строго определенную структуру. С другой стороны, аудио- и видео-информацию можно отнести к полностью неструктурированным данным. Между этими двумя крайностями находится наибольший объем данных, представленных сегодня в Интеренет. Такие данные называются полуструктурированными. К полуструктурированным относят такие данные, в которых можно выделить некоторую структуру, но она недостаточно строгая для их хранения в базах данных (реляционных, объектно-ориентированных).

В последнее время проводятся обширные исследования, связанные с вопросами интеграции распределенных данных. При этом даже при интеграции нескольких источников, данные, которых достаточно хорошо структурированы, не удается придумать жесткую схему для полученных обобщенных данных, что приводит к необходимости иметь дело с полуструктурированными данными (с размытой схемой организации). Таким образом, возникает необходимость в разработке систем управления полуструктурированными данными, которые должны решить две основные задачи: управление данными с «размытой» структурой и интегрировать данные из разных источников.

XML как основной формат для полуструктурированных данных.

Выход в начале 1998 года стандарта XML оказал большое влияние на работы по управлению полуструктурированными данными. В последнее время появилась тенденция к изменению существующих систем и созданию новых для хранения полуструктурированных данных в формате XML. Например, ведется работа по созданию на основе системы Lorel системы управления XML данными. В работе [1] представлены соображения по использованию реляционную СУБД для хранения данных в формате XML. Разработан язык запросов XML-QL [2] для работы с данными в XML формате и даже появилась первая коммерческая реализация XML - информационный сервер Tamino компании Software AG.

Расширяемый язык разметки XML быстро становится стандартом для идентификации и описания данных в рамках Web-технологии. XML-технологии используются для временного хранения данных, получаемых от различных приложений, для конвертирования форматов с помощью XSL-преобразователей. XML позволяет отделить данные от их представления, упорядочить данные в деревья и списки, структурировать и порождать из них объектные модели.

Редактирование XML-данных с помощью системы ProXForms. В настоящее время в МГУ им. М.В. Ломоносова изучаются вопросы, связанные с созданием системы, которая позволила бы интегрировать информационные ресурсы различного назначения и степени структурированности, ведется разработка отдельных компонентов системы [3]. Особое внимание при создании таких компонентов уделяется XML-технологиям и построению единого интерфейса для доступа к интегрированному информационному пространству через Web-браузер.

В настоящем докладе предлагается механизм редактирования XML-данных с помощью разработанного автором языка описания форм ProXForms [4, 5]. На основе ProXForms программная компонента обеспечивает взаимодействие клиента и сервера на всех этапах работы по редактированию данных. Язык позволяет описывать многостраничные формы любой сложности с произвольными типами данных. Предлагаемая система упрощает проектирование модуля Web-сервера, отвечающего за редактирование. Таким образом, ProXForms в целом - это программный комплекс, который реализует весь цикл редактирования данных через Web-браузер и отвечает за диалог с пользователем во время работы с Web-документом.

Задача разработать систему редактирования Web-документов появилась одновременно с началом работ Консорциума W3C над спецификацией XForms [6] - форм нового поколения. Новые формы должны заменить традиционные и позволить создавать и поддерживать информационные системы с более гибкой и независимой от аппаратно-программной платформы обработкой пользовательских запросов. На этом этапе спецификация была еще достаточно «сырая» и часто менялась. К сожалению, и сегодня результаты работы на этом направлении далеки от завершения. В этих условиях было решено вести разработку нового языка описания форм самостоятельно, периодически сверяя результаты с ходом работ по проекту XForms.

Способы решения некоторых задач с помощью ProXForms отличаются от предлагаемых в спецификации XForms. Причина тому - ограниченные возможности традиционных базовых технологий. Вместе с тем, предлагаемые в настоящей работе решения позволяют значительно упростить разработку Web-модулей в интерактивных системах, предназначенных для редактирования данных. Разработчику Web-сайта не надо заботиться о том, как принимать и обрабатывать запросы пользователя, делать проверку корректности введенных данных и отсылать ответ пользователю - все это за него реализует ProXForms. Разработчику необходимо лишь предоставить интерпретатору языка описание формы и обработать результат - отредактированные пользователем данные.

Любое описание формы на языке ProXForms является XML-документом и разбивается на три секции: описание типов данных, внешний вид, начальные значения. Данная структура ProXForms-документа позволяет создать механизм для автоматического преобразования XML-данных с заданным DTD в инструкции ProXForms и обратно. На рисунке 1 изображена возможная схема редактирования XML-данных с помощью ProXForms.

Каждому DTD XML-документов ставится в соответствие три документа: два («ProXForms-шаблон» и «XSL-шаблон») - для преобразования исходного XML- в ProXForms-документ, и один («XSL-шаблон-1») - для обратного отображения из ProXForms- в XML-документ. «ProXForms-шаблон» содержит информацию о типах и внешнем представлении данных будущего ProXForms-документа. «XSL-шаблон» необходим для трансформации исходного XML-документа в раздел начальных значений формируемого ProXForms-документа. После работы пользователя с HTML-формами результат редактирования представляется в виде XML-документа, DTD которого соответствует DTD раздела описания начальных данных. Для преобразования результата к XML-документу с исходным DTD используется третий документ - «XSL-шаблон-1».

Для работы XML-редактора при добавлении в базу данных XML-документа с новым DTD требуется добавление соответствующих трех перечисленных выше документов.

Рисунок 1. Схема редактирования XML-документов с помощью ProXForms.

В последние годы ведутся активные исследования, направленные на разработку технологий и методик интеграции информационных ресурсов. Такие задачи ставятся сегодня и перед специалистами в области информационных технологий МГУ им. М.В. Ломоносова. Разработанный автором доклада язык описания форм ProXForms, а также рассмотренный выше алгоритм редактирования XML-данных с помощью ProXForms относится к результатам работ на этом направлении. Представленный программный комплекс может быть использован при создании корпоративного портала интегрированной информационной системы Московского университета.

Пользуясь возможностью, хочу выразить благодарность моему научному руководителю Валерию Александровичу Васенину за постановку задачи и помощь в работе, а также моему коллеге С.А. Афонину за полезные советы.

ЛИТЕРАТУРА

1. Deutsch A., Fernandez M., Suciu D. Storing Semistructured Data with STORED (http://db.cis.upenn.edu/Publications/).

2. Deutsch A., Fernandez M., Florescu D., Levy A., Susiu D. A query Language for XML (http://db.cis.upenn.edu/Publications/).

3. Васенин В.А., Афонин С.А., Коршунов А.А. К созданию концепции интегрированной системы распределенных информационных ресурсов Московского государственного университета им. М.В. Ломоносова - М.: Изд-во МГУ, 2001. С. 113.

4. Долгалёв Э.Е. Расширение возможностей редактирования Web-документов в Интернет и локальных сетях // Материалы VI научной конференции молодых ученых и специалистов. Дубна, 2002.

5. Долгалёв Э.Е. Язык описания форм ProXForms как инструмент в задаче интеграции информационных ресурсов // Материалы IX Международной научно-методической конференции «Новые информационные технологии в университетском образовании». Кемерово, 2002.

6. Word Wide Web Consortium (W3C), «XForms - The Next Generation of Web Forms», http://www.w3.org/MarkUp/Forms.

[Аннотация на английском языке]

Опубликовано: Долгалев Э.Е. Редактирование полуструктурированных данных с помощью языка описания форм ProXForms // Технологии информационного общества - Интернет и современное общество: труды V Всероссийской объединенной конференции. СПб., 25 - 29 ноября 2002 г. СПб.: Изд-во С.-Петерб. ун-та, 2002. С. 88-90.

Ориг. URL — http://ims2002.nw.ru/02-r2f14.html