Научно-методическая конференция
«ИНТЕРНЕТ И СОВРЕМЕННОЕ ОБЩЕСТВО»

ОТ ИНФОРМАЦИОННОЙ СИСТЕМЫ ПРОЕКТА (УЧРЕЖДЕНИЯ) К ЭЛЕКТРОННОЙ БИБЛИОТЕКЕ В ПОНЯТИЙНОЙ СЕТИ

А.В. Жучков, Н.В. Твердохлебов, С.А. Арнаутов, С.В. Голицын

Институт химической физики им. Н.Н. Семенова РАН
Автономная некоммерческая организация «Телекоммуникационный центр «Наука и общество»
Москва

ВВЕДЕНИЕ

Стремительное развитие глобальных информационно-вычислительных сетей ведет к изменению фундаментальных парадигм обработки данных. Их можно охарактеризовать, с одной стороны, как переход к исключительно распределенной схеме создания, поддержания и хранения ресурсов, а с другой - как стремление к виртуальному единству посредством предоставления свободного доступа к любым ресурсам сети через ограниченной число «точек доступа» (например, порталов). При этом мы, вслед за [1], предполагаем, что для решения тех или иных проблем разного уровня будут динамически создаваться т.н. «понятийные сети» (knowledge networks).

В архитектуре понятийной сети необходимы высокоавтоматизированные комплексы, предназначенные для «аннотированного хранения» данных, причем их пользователем может быть как человек, так и приложение на удаленном компьютере. В своей работе мы рассматриваем в качестве такого «хранилища знаний» электронные библиотеки (ЭБ). В контексте европейского интеграционного процесса по развитию единой динамической среды распределенных ресурсов (ЕСР, «грид») [2-5] в России проводится определенная работа по созданию национального междисциплинарного сегмента, призванного стать инструментом в решении сложных проблем физики, химии, биологии и медицины [6, 7].

Работа по построению программной и организационной структуры российского сегмента грид и тестированию предлагаемых решений включает несколько основных направлений, среди них:

В настоящем сообщении в контексте создания прообраза иммунологической понятийной сети обсуждается проблема информационного обеспечения фундаментальных и прикладных научных исследований в ходе выполнения межведомственной научно-технической программы «Вакцины нового поколения и медицинские диагностические системы будущего» [6]. Важнейшим компонентом такой сети должна стать электронная библиотека, обеспечивающая эффективный сбор, хранение и публикацию информации, а также развитый набор всех необходимых сервисов. Описано текущее состояние системы.

КОНЦЕПЦИЯ ПОСТРОЕНИЯ ИНФОРМАЦИОННОЙ ПОДСИСТЕМЫ

В основу нашего подхода положена концепция, предусматривающая построение системы, обеспечивающей накопление необходимых информационных ресурсов параллельно со структуризацией и формализацией отдельных аспектов прикладной области. Важной особенностью является возможность постепенного наращивания информационных возможностей без принципиального изменения архитектуры системы и её инструментальных средств.

Понятно, что самым сложным и важным является накопление собственных информационных ресурсов или авторских коллекций данных и их организация в ЭБ. При этом предусмотрено, что особое внимание при программной реализации должно быть уделено удобной структуризации, классификации и организации информации в авторских наборах.

ПРОГРАММНАЯ РЕАЛИЗАЦИЯ ИНФОРМАЦИОННОЙ СИСТЕМЫ

Программный комплекс созданной информационной системы спроектирован и реализован по трехзвенной архитектуре. Такая архитектура обеспечивает наибольшие возможности для поддержки и развития информационного пространства, организованного по федеративному принципу.

Выбор данной архитектуры предусматривает разделение узлов распределенной системы на три уровня: пользователи-клиенты; связывающий брокер; информационные сервера данных. На уровне серверов данных могут быть представлены и как отдельные машины, хранящие в пространстве своей файловой системы некий набор неструктурированной информации, так и, например, серверные группы машин, работающие в общей системе и обеспечивающие набор сервисов, среди которых существуют и сервисы удаленного предоставления доступа к различным базам данных. Эти сервисы, получая один из стандартных запросов на взаимодействие с данными, преобразуют его в запрос, специфичный для формата СУБД данного сервера, и далее, после получения результата, преобразуют полученные данные в один из определенных стандартных форматов.

Важно отметить, что на этом уровне в информационной системе был разработан и реализован специальный формат хранения документальных данных, позволяющий хранить помимо непосредственно документов, также и многоуровневою иерархическую структуру распределения документов базы по рубрикатору в соответствии с потребностями пользователя относительно каждого набора данных.

На следующем уровне находится программа-брокер, на котором лежат в основном организационные и связующие функции. Он объединяет все сервера данных в единое информационное пространство, преобразуя запросы клиентов в формат, специфичный для каждого источника данных (сервера данных). Созданный брокер ведет каталог метаданных системы, а также наделен функциями маршрутизации узлов серверов данных. При этом он, так же как и сервер данных, разграничивает на своём уровне права доступа пользователей к информационным ресурсам системы.

На уровне клиента расположены пользователи ресурсов информационного пространства. Каждому из них предоставлен определённый репертуар методов доступа к данным, в соответствии с его потребностями и предпочтениями. В последнее время достаточно популярным является доступ через веб-браузер, но может существовать и вариант доступа, реализованный с помощью специально разработанной программы-клиента.

Кроме того, разработан программный продукт, позволяющий пользователям создавать свои собственные информационные массивы, которые впоследствии могут быть представлены для общего анализа. При помощи данной клиентской программы пользователь может выполнять все основные функции добавления, удаления, изменения документов своей авторской БД, а также аннотирование и рубрицирование документов коллекции.

В целом, текущая версия разработанного комплекса программ на данном этапе показала удовлетворительные результаты при опытном тестировании на реальных наборах данных, позволяя организовывать различные как по информационному содержанию, так и по формату хранимых данных массивы информации.

ИНФОРМАЦИОННОЕ НАПОЛНЕНИЕ

Создание собственных информационных ресурсов в рамках МНТП «Вакцины нового поколения» происходит как распределенный во времени и пространстве процесс накопления и объединения авторских коллекций.

В составе этих информационных массивов доминируют, конечно, библиографические базы данных по проблемам создания новых вакцин и диагностических систем, в том числе БД по тематическим реферативным материалам ВИНИТИ и по специализированной периодической печати.

Примером БД другого вида может служить «Атлас распространения возбудителей природно-очаговых вирусных инфекций на территории России», содержащая наряду с фактическим материалом и соответствующую картооснову. Эта БД создана и поддерживается в рамках информационного пространства МНТП в НИИ Вирусологии МЗ РФ.

На другом узле корпоративной сети, в ГИСК им. Л.А. Тарасевича, созданы БД, содержащие информацию, относящуюся к медицинским биопрепаратам: БД «Реестр зарегистрированных в России биопрепаратов» (более 800 записей) и документальная БД, содержащая нормативно-справочную информацию по производству, контролю качества, сертификации, условиям хранения и применения медицинских иммунобиологических препаратов (вакцин).

Их дополняет находящаяся в Институте иммунологии МЗ РФ база данных по иммуностимулирующим и иммунодепрессивным препаратам, содержащая к настоящему времени более 1300 записей (автор - профессор В.М. Манько).

В числе фактографических БД, посвященных медико-биологическим проблемам, отметим созданную и наполненную данными БД по диагностическим тест-системам (более 300 записей в настоящее время).

В настоящее время созданы также прототипы и ведется наполнение специализированных БД по вирусу гепатита С, а также по кадастру штаммов из Государственной коллекции вирусов и по гибридомам-продуцентам антител, имеющихся в учреждениях РАМН и МЗ РФ, а также ряд других.

ПЕРСПЕКТИВНЫЕ ЗАДАЧИ

Итак, в рамках Программы «Вакцины нового поколения» был создан целый ряд библиографических, фактографических, картографических баз данных, доступных через информационную систему проекта. Встает задача интеграции созданных ресурсов в полноценную ЭБ, как компонент понятийной сети Программы.

Очевидно, что проблема создания понятийных сетей - задача огромная и многоплановая. Мы выделили для себя две темы, которые представляются приоритетными в контексте наших проектов [7]. Это создание портала и имплеметация модели и схем метаданных, как этапы превращения созданной информационной системы в электронную библиотеку (ЭБ).

ЭБ принципиально должна проектироваться как открытая система [9] - т.е. должны быть предусмотрены механизмы подключения самых разных коллекций с использованием различных технических средств. При этом важно добиться интероперабельности.

В зависимости от глубины, полноты и организационной интегрированности информационные системы, объединяющие отдельные коллекции и автономные ЭБ могут быть разделены на:

В нашем случае мы полагаем, что система потенциально будет включать в себя все виды взаимосвязей. За прошедшее время сформировано ядро системы, которое построено на федеративных принципах. Одновременно, провозглашая принцип открытости, мы предусматриваем возможность включения в состав ЭБ коллекций, созданных на иных началах.

Это означает, что между различными коллекциями и ЭБ возможны различные типы взаимосвязей, которые должны быть адекватно отражены в функциональности портала. Кроме того, список сервисов должен учитывать потребности и возможности пользователей целевой аудитории ЭБ.

Принципиально важным является то, что наряду с функциональностями уже ставшими стандартными, такими как: аутентификация и авторизация (выделение объема прав) пользователей в соответствии с политикой доступа к данному конкретному ресурсу; сбор оплаты за пользование ресурсами; обеспечение безопасности; использование различных форматов и протоколов (по спецификации, согласованной между всеми контент-провайдерами) - в данной реализации предусматривается возможность обращения к метаданным, которые собираются в автоматическом режиме от всех серверов коллекций данных ЕСР.

Проанализировав тип и состав информационных источников, используемых в данной реализации, мы пришли к выводу, что единственная модель и схема метаданных не может удовлетворить все потребности. Поэтому нами предложен следующий подход к созданию метаданных в нашей ЭБ:

Проанализировав существующий спектр форматов метаданных, мы остановились на следующем списке:

ЗАКЛЮЧЕНИЕ

Работы по созданию ЭБ проводились на примере и в рамках МНТП «Вакцины нового поколения и медицинские диагностические системы будущего», где создан целый ряд библиографических, фактографических, картографических и документарных баз данных, доступных через корпоративную сеть МНТП и возникла задача интеграции созданных ресурсов в полноценную ЭБ. Изложенные в настоящей работе принципы и подходы являются основой для реализации проекта информационного обеспечения МНТП с использованием технологий Grid и понятийных сетей.

ЛИТЕРАТУРА

1. The Grid: Blueprint for a New Computing Infrastructure. Ed. by I. Foster and C. Kesselman. Morgan Kaufmann Pub., San Francisco, CA. 1999.

2. http://www.globus.org/

3. http://www.eu-dataGrid.org/

4. http://www.crossGrid.org/

5. http://www.euroGrid.org/

6. Арнаутов С., Жучков А. Цифровые библиотеки в распределенной среде // Открытые системы. 2001. №2. С.46-48 (http://www.osp.ru/os/2001/02/046.htm).

7. Арнаутов С.А., Жучков А.В. Единая среда распределенных ресурсов (GRID) и цифровые библиотеки // Сб. трудов 3-ей Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции», Петрозаводск, 11-13 сентября 2001 г., КарНЦ РАН. С. 20-25.

8. Zhuchkov A.V., Tverdokhlebov N.V., Arnautov S.A., Yanovskii A.K., Lyisov Yu.P., Chernii A.V. Development of an interdisciplinary fragment of the Russian GRID segment: state of the art // VIII International Workshop on Advanced Computing and Analysis Techniques in Physics Research ACAT'2002, June 24-28, 2002, Moscow.

9. http://www.immune.isf.ru

10. Арнаутов С.А. Роль и место виртуальных цифровых библиотек в Интернете (на примере Российской Академии Наук) // Сб. докладов 3-ей Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции», Петрозаводск, 11-13 сентября 2001 г., КарНЦ РАН. С. 46-50.

[Аннотация на английском языке]

Опубликовано: От информационной системы проекта (учреждения) к электронной библиотеке в понятийной сети / Жучков А.В., Твердохлебов Н.В., Арнаутов С.А., Голицын С.В. // Технологии информационного общества - Интернет и современное общество: труды V Всероссийской объединенной конференции. СПб., 25 - 29 ноября 2002 г. СПб.: Изд-во С.-Петерб. ун-та, 2002. С. 91-94.

Ориг. URL — http://ims2002.nw.ru/02-r2f15.html