Научно-методическая конференция
«ИНТЕРНЕТ И СОВРЕМЕННОЕ ОБЩЕСТВО»

ТЕХНОЛОГИИ GRID НА СЛУЖБЕ ОБЩЕСТВА: ПОДХОД IBM К ОБЕСПЕЧЕНИЮ ДОСТУПА К РАЗДЕЛЯЕМЫМ РАСПРЕДЕЛЕННЫМ ВЫЧИСЛИТЕЛЬНЫМ УСЛУГАМ

Н.И. Железных, В.В. Быков

IBM Восточная Европа / Азия
Москва

Локальные вычислительные сети раздвинули рамки, ограничивающие использование вычислительных и информационных ресурсов: от отдельного компьютера до офиса или даже здания. Интернет раздвинул эти рамки еще шире, потенциально позволив использовать вычислительные и информационные ресурсы, расположенные в любой точке Земли. Однако разнообразие технологий, используемых в Интернете, делает доступ к удаленным сервисам непростой задачей.

Технологии Grid - следующий шаг в совместном использовании географически распределенных вычислительных и информационных сервисов, унифицирующий средства доступа к ним.

Подобно тому, как электроэнергия поставляется в дома по электрической сети, компьютерные системы Grid позволяют географически разбросанным организациям совместно использовать приложения, данные и вычислительные ресурсы. Являясь новой компьютерной моделью, системы Grid представляют собой кластеры серверов и других ресурсов, которые соединены между собой через Интернет, и которые используют протоколы, предоставленные сообществом по распространению продуктов с открытым исходным кодом Globus (Globus.org), и другие открытые технологии, включая Linux. Преимущества применения компьютерной системы Grid для доступа и управления данными включают быстрый поиск и получение информации, масштабируемость и экономию расходов.

Использование технологии Grid позволяет решать общественно-значимые задачи высокой информационной сложности, задачи, к решению которых до появления Grid было практически невозможно подступиться.

В этой связи заслуживает отдельного внимания опыт использования технологии Grid при создании в США Национального цифрового архива маммографии. В рамках этого широкомасштабного проекта консорциум Пенсильванского университета и IBM разрабатываeт компьютерную систему на базе технологии Grid, предназначенную для диагностики рака молочной железы.

ПРОБЛЕМА

Пенсильванский университет, расположенный в Филадельфии, в течение нескольких лет получал гранты от многочисленных организаций, включая Национальный научный фонд США (NSF), Американскую медицинскую библиотеку (NLM), Американский институт здравоохранения (NIH) и организацию NGI (Next Generation Internet), на разработку компьютерной системы хранения электронных медицинских записей (EMR, Electronic Medical Record) на базе технологии Grid. Целью этих разработок было создание передовой системы хранения медицинской информации о пациентах, которая смогла бы фиксировать - вне зависимости от расположения учреждения здравоохранения - полный диапазон медицинских файлов, включая высококачественные медицинские снимки (компьютерные томограммы, MRI, маммограммы), записи и истории болезни. Это означало, что потребуется построить сетевую систему для электронной фиксации данных, содержащихся в записях пациентов; обеспечить управление и хранение огромных файлов с возможностью их быстрого поиска, сравнения и диагностической оценки; гарантировать соблюдение стандартов защиты и конфиденциальности (которые установлены для записей пациентов), включая соответствие законодательным требованиям, принятым как на федеральном уровне, так и на уровне штата.

Пенсильванский университет начал работу по созданию системы EMR хранения данных на основе Grid-технологий под руководством доктора Роберта Холлебека (Robert Hollebeek). Первый этап включал разработку масштабируемого Национального цифрового архива маммографии (NDMA, National Digital Mammography Archive), поскольку именно для маммографии в настоящее время существует готовый набор стандартов и протоколов, а объем файлов данных является наиболее крупным. Благодаря получению гранта Shared University Research (SUR) от IBM началась полномасштабная реализация совместного проекта по созданию архива NDMA под руководством Пенсильванского университета. В настоящее время ведутся работы совместно с Национальной лабораторией в Оак Ридж над вторым этапом реализации проекта в рамках которого система Grid Пенсильванского университета соединяется с больницами Пенсильванского и Чикагского университетов, университета Северной Каролины, а также с больницей Саннибрук и больницей Женского колледжа в Торонто. Эта система объединяет возможности серверов IBM eServer UNIX(r) и операционной системы Linux(r) (вместе с СУБД IBM DB2 Universal Database) с целью создания уникального высокопроизводительного решения.

СБОР ДАННЫХ

В некоторых больницах файлы с маммограммами, накопленные в течение предыдущих лет, являются недоступными для врачей в силу целого ряда причин. Это приводит к тому, что рентгенологи не могут использовать сравнение результатов обследований за разные годы при постановке диагноза. В результате часто требуется проведение дополнительных диагностических исследований, таких, как биопсия. Кроме того, цепочка записей может прерываться в тех случаях, когда пациенты пользуются услугами маммографии в разных медицинских учреждениях. Архив NDMA позволяет получить доступ к текущим и прошлым записям пациентов в течение 2-90 секунд, что помогает оптимизировать анализ медицинских записей и снимков при постановке диагноза и обеспечит улучшение состояния пациентов. Дополнительные преимущества от развертывания этой системы включают сокращение накладных и административных расходов, связанных с эксплуатацией в больницах и медицинских учреждениях огромных «бумажных» систем и хранилищ снимков (на пленке), повышение уровня безопасности пациентов и снижение потенциальных судебных издержек.

Построенная на основе открытых стандартов, система Grid Пенсильванского университета - это огромный распределенный компьютер, который предоставляет вычислительные ресурсы в виде служб, поставляемых через защищенное Интернет-соединение. Эта система позволяет тысячам больниц и госпиталей хранить маммограммы в цифровой форме, а также помогает уполномоченным медицинским специалистам получить практически мгновенный доступ к записям пациентов и сократить потребность в дорогостоящих физических рентгеновских снимках. Больницы подключаются к системе Grid с помощью защищенных Интернет-порталов, через которые уполномоченные медицинские специалисты могут сгружать (на сервер), загружать и анализировать оцифрованные данные рентгеновских снимков с целью обнаружения потенциальных новообразований и других аномалий. Сложные алгоритмы способны обнаруживать закономерности среди различных групп населения, например, раковые «кластеры» или аномальное распространение болезни в пределах определенного сообщества.

Пенсильванский университет построил свою систему Grid на основе порталов, использующих почти исключительно аппаратное обеспечение IBM, включая 61 распределенный сервер IBM Netfinity(r), которые работают под управлением операционных систем Linux и Windows(r) 2000. Главные архивные системы, расположенные в лаборатории NSCP, также в основном используют оборудование IBM. При разработке этого компьютерного архива пришлось решить следующие проблемы:

Данные загружаются в портал из устройств сбора информации и рабочих станций через защищенные порталы, размещенные в местных больницах. После этого данные передаются в общегородской концентратор или областной архив, построенный на основе UNIX кластера IBM eServer Cluster 1600. После того, как система Grid будет полностью развернута, данные из нескольких общегородских концентраторов или областных архивов будет переноситься в региональный концентратор большой емкости - прототип которого в настоящее время создается на базе кластера IBM eServer Linux Cluster - с целью организации пула ресурсов. Распределенный пул эмулирует один огромный архив, емкость которого равна суммарному объему распределенных хранилищ. Доступ, осуществляемый через местные больницы, будет характеризоваться прозрачностью.

Команды специалистов из Пенсильванского университета и IBM совместно работают над развертыванием сверхбольшой СУБД DB2 Universal Database с высокой скоростью доступа, которая служит в качестве защищенного индексного указателя высокой доступности для оцифрованных данных рентгеновских снимков. Высокоскоростная работа данной системы усовершенствована с помощью технологии параллельных операций DB2 Universal Database, которая является ключевым компонентом, помогающим решить проблему большой задержки таких сетей. Эта технология позволяет масштабировать производительность крупных баз данных при помощи разделения обработки на отдельные исполняемые компоненты, которые могут быть одновременно запущены на нескольких процессорах. Параллельная база данных DB2 Universal Database Extended-Enterprise Edition (UDB EEE) характеризуется высочайшим быстродействием при индексировании и каталогизации входящих данных, а также способна обеспечить быстрый доступ ко всей собранной информации благодаря механизму параллельных запросов. Кроме того, в состав решения DB2 Universal Database EEE входит мощный программный оптимизатор, предназначенный для выбора наиболее эффективных средств для поиска и извлечения данных.

МАСШТАБИРУЕМОСТЬ СИСТЕМЫ

Трехуровневая архитектура системы Grid архива NDMA широко использует преимущества серверов IBM eServer с помощью открытых протоколов сообщества Globus. На уровне пользователя в каждой участвующей в программе больнице будет развернут портал, состоящий из двух серверов IBM eServer xSeries(tm). Одна система xSeries служит в качестве временного репозитария для цифровой информации, а другая обеспечивает соединение с Интернетом (либо со следующим поколением этой сети - Internet2). Трехуровневая система, работающая под управлением ОС AIX(r), Linux и Windows, иллюстрирует естественную неоднородность компьютерных систем, созданных на основе технологии Grid.

Инструменты управления кластерными системами IBM Cluster Systems Management (CSM) будут использоваться для обеспечения единой точки управления кластером Linux. В состав этих инструментов входят функции для управления информацией узлов и групп узлов, мониторинга системных событий. Кроме того, они обеспечивают синхронизацию конфигурационных файлов (и управление ими) для всех узлов, а также помогают диагностировать проблемы и гарантировать надежную защиту.

Система Grid архива NDMA также использует преимущества IBM General Parallel File System (GPFS) - чрезвычайно быстрой и масштабируемой параллельной файловой системы высокой доступности - для считывания/записи в архивы. Применение файловой системы GPFS наиболее эффективно в среде, для которой общая пиковая потребность в данных превышает возможности сервера распределенной файловой системы. Файловая система GPFS будет использоваться в качестве основного механизма хранения для крупных файлов изображений.

ОБЕСПЕЧЕНИЕ ЗАЩИТЫ И КОНФИДЕНЦИАЛЬНОСТИ

Для всех систем, занимающихся сбором электронной информации о пациентах, - вне зависимости, являются ли они хранилищами для результатов клинических испытаний или национальными медицинскими архивами наподобие NDMA, - правила защиты таких данных определяются на основе общественного мнения, федерального и местного законодательства, федерального регулирования. Ключевым компонентом этих ограничений является закон Healthcare Insurance Portability and Accountability Act (HIPAA), принятый в 1996 году. Требования к защите информации, установленные HIPAA, включают:

Подход, применяемый для обеспечения безопасности архива NDMA, основан на концепции пространства виртуальных файлов, которая позволяет использовать все действующие правила и ограничения. Для того, чтобы обеспечить соблюдение HIPAA и других законодательных стандартов, система Grid архива NDMA строится на основе архитектуры безопасности, которая включает несколько уровней интегрированных служб защиты, в том числе физическую, аппаратную, программную и коммуникационную. Для обеспечения безопасности системы Grid используются в том числе следующие технологии: шифрование в рамках виртуальных частных сетей (Virtual Private Networks), аутентификация с помощью сертификатов и смарткарт, контроль доступа на основе ролей, определение и реализация правил на локальном уровне и уровне архива.

Средства безопасности, встроенные в NDMA, могут заложить основу для формирования стандартов защиты медицинской информации на многие годы вперед. В ходе реализации второго этапа данного проекта будет продемонстрирована осуществимость создания общенационального архива маммографических снимков, а также эффективность соответствующей инфраструктуры и анализ степени конфиденциальности для информации о пациентах.

ЛИДЕРСТВО IBM В ОБЛАСТИ СОЗДАНИЯ СИСТЕМ НА ОСНОВЕ ТЕХНОЛОГИИ GRID

Система Grid Пенсильванского университета - это новейшее добавление в целой серии проектов Grid, что еще раз наглядно демонстрирует лидерство IBM в этой области. IBM была выбрана для работы над созданием системы Bioinformatics Grid в Северной Каролине, которая будет разрабатываться в сотрудничестве с компаниями GlaxoSmithKline Inc. и Biogen, университетом Северной Каролины, университетом Дьюк и другими организациями. Кроме того, консорциум из четырех американских исследовательских центров выбрал IBM для создания самой мощной в мире компьютерной системы Grid, которая будет состоять из набора связанных между собой кластеров Linux, способных обрабатывать 13,6 триллиона вычислений в секунду. Эта система - известная под именем Distributed Terascale Facility (DTF) - позволит тысячам ученых по всей территории США совместно использовать вычислительные ресурсы самой производительной в мире сети с целью достижения революционных прорывов в области биологических наук, моделирования климата и в других важнейших научных дисциплинах. IBM также сотрудничает с несколькими центрами в Великобритании в рамках работ по созданию национальной системы Grid, предоставляя базовые технологии и инфраструктуру для проекта, который свяжет огромную сеть компьютеров по всей стране. Кроме того, IBM создает мощную компьютерную систему на основе технологии Grid для голландских университетов.

[Аннотация на английском языке]

Опубликовано: Железных Н.И., Быков В.В. Технологии GRID на службе общества: подход IBM к обеспечению доступа к разделяемым распределенным вычислительным услугам // Технологии информационного общества - Интернет и современное общество: труды V Всероссийской объединенной конференции. СПб., 25 - 29 ноября 2002 г. СПб.: Изд-во С.-Петерб. ун-та, 2002. С. 136-139.

Ориг. URL — http://ims2002.nw.ru/02-r2f38.html