Главная страница Visual 2000 · Общий список статей

"Публичная библиотека" выбирает технологии Excalibur

Андрей Колесов

© 2000, Андрей Колесов
Авторский вариант. Статья была опубликована c незначительной литературной правкой в еженедельнике PC Week/RE № 33/2000, c.29 PC Week/RE Online


Прошедшая за последние полгода серия ИТ-конференций...

Прошедшая за последние полгода серия ИТ-конференций ("Электронный Офис", "Фестиваль Microsoft", локальные мероприятия ряда компаний) показывает, что ранее довольно абстрактный интерес корпоративных клиентов к теме "управление знаниями" явно переходит в стадию практического создания подобных систем. Соответственно возникает очевидная необходимость изучения опыта реализации таких проектов и тогда выясняется, что у потенциальных заказчиков совсем не так много возможностей для удовлетворения своего интереса. Это давно известная проблема нашего рынка, и, к сожалению, здесь очень сложно провести грань между нежеланием раскрывать секреты и отсутствием каких-то реальных результатов...

Но "все течет, все изменяется" — работающие системы появляются, причем такие, которые изначально ориентируются на открытое представление широкой общественности. Таким, например, является Web-проект "Публичная библиотека" (www.public.ru) , стартовавший весной нынешнего года. Он открыл доступ через Интернет к, возможно, крупнейшему электронному хранилищу материалов на русском языке — полнотекстовой базе данных российских общественно- политических СМИ, формируемой с 1990 года. По состоянию на август 2000 года: архив содержит около 4 млн. текстовых документов общим объемом приблизительно 10 Гб, источники информации включают 470 периодических изданий и охватывает 70 регионов России, ежесуточное пополнение составляет порядка 4 тыс. документов, технологическая платформа — Windows NT 4.0, СУБД — MS SQL Server 7.0, поисковый механизм — Excalibur RetrieveWare.

В начало статьи

Немного истории

Истоки проекта приходятся на начало 90-х годов, когда только появившиеся в то время независимые российские информационные агентства, в частности "Постфактум", начали выполнять мониторинг отечественных СМИ, т.е. формировать базы данных по публикациям в отечественной прессе.

Здесь можно отметить прогресс в процессе сбора начальной информации. Еще семь лет назад ввод исходных данных обеспечивался тривиальным вводом с клавиатуры. Системы сканирования и распознавания текстов были еще далеки от совершенства и стоили слишком дорого по сравнению с зарплатой сотрудников, никакого Интернета и электронной почты не было. Сегодня 40 процентов информации поступает через Интернет, остальная часть — компьютерным преобразованием с бумажных носителей.

Сначала формирование подобных полнотекстовых баз данных служило для решения сугубо внутренних задач, в частности, для составления аналитических обзоров. Но довольно быстро ценность создаваемых электронных архивов отечественных СМИ была осознана организациями, занимающимися так называемыми "политтехнологиями". И только три-четыре года назад процесс извлечения знаний из открытой газетной информации стал принимать коммерческий характер: первыми пользователями ресурса стали ведущие российские телеканалы, крупнейшие отечественные корпорации и банки.

Повышение спроса привело к появлению предложений услуг по оперативному предоставлению информации периодических изданий и положило начало специализации на этом сегменте рынка информационных услуг. Естественной реакцией на изменение спроса стало появление специализированных поставщиков данных, и в этой ситуации у многих крупных корпораций отпала необходимость в содержании собственной службы сбора и хранения информации из газет и журналов. В результате в конце 1998 года на базе коллектива специалистов, занимавшегося в течение нескольких лет подобными задачами, была создана компания "Вектор-Инфо", главными направлениями работы которой стали мониторинг русскоязычных СМИ (не только российских), тематические подборки материалов, а также проведение аналитических исследований, включая создание рейтингов на основе сведений, содержащихся в прессе. В результате обсуждения перспектив развития информационного бизнеса в компании "Вектор-Инфо" в новых рыночных условиях было принято решение о реализации нового проекта под названием "Публичная библиотека".

Отметим также, что к тому времени в Интернете уже был реализован существующий и сегодня проект "Национальная служба новостей/Национальная электронная библиотека", решающий примерно аналогичные задачи. Это важный факт — появление второго игрока в некотором секторе рынка всегда является признаком того, что данное направление бизнеса имеет реальные перспективы для развития. Появление третьего говорит о стабильном росте сегмента...

В начало статьи

Цели и задачи проекта

Главной бизнес-целью проекта "Публичная библиотека" является расширение клиентской базы, в том числе за счет новых слоев потребителей — малых и средних предприятий, а также частных лиц. Это требует решения нескольких взаимосвязанных задач:

  1. Использование Web-технологий для реализации канала предоставления интерактивных информационных услуг. Ранее информационно-аналитические продукты доставлялись клиентам на компакт-дисках или путем передачи по протоколу FTP.

  2. Расширение числа источников информации. Причем, существенной особенностью данного процесса базы является повышения эффективности отбора изданий: в библиотеке используется методика, позволяющая оценивать издание по ряду критериев, таких как тираж, информационная насыщенность, индекс цитируемости, и принимать решение о включении или исключении источника из базы. В настоящее момент идет обновление базы по региональному признаку, в ближайших планах — провести ревизию базы, исходя из тематики изданий и потока обращений к ним клиентов.

  3. Увеличение спектра и повышение качества предоставляемых услуг. На рассматриваемом рынке информационных услуг сложилось равновесие: существующие службы удовлетворяют запросам среднестатистического пользователя Интернета, однако, по оценкам специалистов "Публичной библиотеки", такое положение дел сохранится примерно год-два. Как только в Интернет придут профессиональные пользователи, станут отчетливо заметны недостатки существующих систем: высокий уровень информационного шума, отсутствие системы помощи при формулировании поисковых задач, большой объем выдачи по запросу и при полной невозможности оценить полноту выдачи и точность результата и ряд других. В этой связи Публичная библиотека ведет исследования во всех перечисленных направлениях и намерена использовать результаты этой работы в практических целях.

  4. Кроме того, в библиотеке в полном объеме применяются национальные стандарты библиографических описаний. Это создает необходимые условия для обмена ценной библиографической информацией в оперативном режиме, причем как с национальными, так и зарубежными провайдерами информации периодических изданий.

В итоге за счет совокупности описанных действий достигается перекрытие всех возможных уровней потребности в информации периодических изданий, включая оперативный поиск полных текстов, предоставление библиографических услуг и предоставление фактографических справок по любой тематике. Кроме того, специалисты в текущем режиме отслеживают содержание основных национальных изданий, ведут анализ состояния рынка СМИ.

В начало статьи

Техническая реализация

Весной 1999 года полнотекстовый архив СМИ фирмы "Вектор-Инфо" имел объем свыше 7 Гб текстовой информации, и для его пополнения использовалось около 300 периодических изданий. К тому моменту система функционировала с использованием средства одного из российских разработчиков, но, учитывая перспективы расширения проекта, было решено рассмотреть возможные альтернативные варианты.

Было проанализированы несколько средств создания информационно- поисковых систем зарубежных и российских разработчиков. В результате в качестве платформы был выбран продукт Excalibur RetrieveWare WebExpress корпорации Excalibur Technologies, интересы которой в России представляет компания "Весть- Метатехнология".

По словам директора "Публичной библиотеки" Елены Бунь, такое решение во многом объясняется изучением опыта использования технологий Excalibur в крупнейших информационных хранилищах мира — Библиотеки Конгресса США и Библиотеки Британского музея. Хотя объем архива "Публичной библиотеки" сегодня пока не очень велик по сравнению с западными проектами, но динамика его роста уже сейчас весьма значительна, поэтому наиболее актуальной становится проблема масштабируемости.

Большое значение имею мощные и разнообразные поисковые возможности Excalibur. Наличие Русского Поискового Сервера, разработанного фирмой "Весть- Метатехнология" в рамках локализации продукта, позволяет использовать технологию расширенного поиска для русскоязычных документов с применением запросов в виде логических конструкций или на естественном языке. В то же время крайне необходимым является механизм нечеткого поиска. Это обеспечивает не только решение проблемы наличия в документах опечаток или ошибок при распознавании текста, но также открывает отличные возможности для автоматизации поиска в массивах звуковой, графической и видеоинформации. Расширение базы данных в будущем будет в значительной степени выполняться на счет широкого использования мультимедийной информации.

Явным плюсом продукта Excalibur является его реализация в виде настоящего коробочного варианта. Его настройка и адаптация для конкретного проекта, а также разработка некоторых дополнительных модулей выполнялась силами программистов "Вектор-Инфо". Со своей стороны, представители "Весть- Метатехнология" подчеркивают, что проект был реализован при минимальном участии их специалистов и за достаточно сжатые для подобных проектов сроки — девять месяцев.

Сервер проекта начал функционировать в рабочем режиме в конце мая нынешнего года и в составе его пользователей пока всего несколько десятков клиентов (среди них, в частности, телеканалы РТР и НТВ). По сведениям маркетинговой службы "Публичной библиотеки", примерно 20% потребителей — крупные корпорации, по 30-35% — западные СМИ и российские PR-агентства, 15% — частные лица. Для оплаты доступа к информационным ресурсам системы предлагаются разные схемы — от почасовой (8 долл./час) до неограниченной (1500 долл./месяц).

Разумеется, сейчас трудно уверенно говорить о будущем развитии "Публичной библиотеки". Однако сам факт появление Интернет-проекта, бизнес-основой которого является предоставление информационных услуг, а не размещение рекламы, говорит о том, что российские пользователи готовы платить за использование систем управления знаниями. А также, что имеются технологии и опыт их применения для создания таких систем.

В начало статьи

10 ключевых вопросов при выборе поисковой системы. Что на них отвечает Excalibur RetrieveWare

Закон, сформулированный почти тридцать лет назад Джеймсом Мартином (авторитетным американским специалистом по информационным системам), гласит: "Если система полезна, то нагрузка на нее будет возрастать до полного исчерпания ее пропускной способности. Вывод: чем полезнее система, тем скорее она придет в негодность". Если электронный архив и обеспечивающий его поисковый механизм полезны (например, позволяют получать дополнительную прибыль), то объем архива и поток запросов к нему будут расти...

  1. Масштабируемость по объему. Объем архива может быстро увеличиваться, причем гораздо более высокими темпами, чем предполагалось изначально. Поддержка больших информационных массивов в целом не является проблемой. Вопрос заключается в том, как скорость поиска зависит объема. К сожалению, реальные показатели быстродействия очень сложно определить теоретически, для их получения нужны тестовые испытания, еще лучше в рамках действующих проектов. Excalibur RetrievalWare (ERW) работает в системах с архивами, объем которых измеряется сотнями гигабайт. Экспериментальные данные, полученные при работе с архивом Национальной Библиотеки Конгресса США (там система Excalibur применяется уже несколько лет), показывают логарифмический рост времени поиска на весьма впечатляющих объемах информации:

    
    Объем информационного   Время
    массива, Гб             поиска, сек
    
      5                      3
     20                      5
    100                      9
    200                     20
    

  2. Аппаратно-программная платформа. Повышение производительности конкретной прикладной системы может быть достигнуто за счет смены аппаратно- программной платформы, а также использования многопроцессорных и многосерверных конфигураций. ERW способен эффективно распараллеливать свою работу и поддерживает более десятка разнообразных серверных платформ.

  3. Информационный поток обновлений. Некоторые поисковые системы приостанавливают доступ к архиву на время переиндексации при подключении новой информации. ERW делает это "на лету", обеспечивая при необходимости авторубрикацию поступающих документов.

  4. Исходные документы могут быть представлены в самых разнообразных форматах. ERW поддерживает более двухсот форматов, пользователь может подключать к системе собственные конверторы.

  5. Необходимость поддержки широкого круга источников информации: файловые системы, узлы Интернет, базы данных, почтовые системы, специализированные системы управления документами и пр. ERW может одновременно работать с документами из большого спектра источников.

  6. Защита информации. ERW имеет развитую систему защиты информации (контроль доступа на уровне отдельных документов, передача данных в зашифрованном виде). Информация о пользователях и списки прав доступа могут наследоваться у источников, из которых взяты документы. Этот механизм можно применять при подключении нестандартных хранилищ документов.

  7. Логический поиск (с использованием логических операторов и ключевых слов) есть во всех поисковых системах. ERW отличается богатым набором команд и возможностей (логические операторы, операторы ограничения расстояния между словами и порядка следования слов, операторы нечеткого и семантического расширения слов, операторы поиска по диапазонам чисел и дат, поддержка XML и т.п.).

  8. Смысловой поиск (расширение поискового запроса близкими по смыслу словами) характеризует качество поисковых систем, так как именно он обеспечивает высокую релевантность найденной информации. EWR обеспечивает учет морфологии и семантики языка. Семантическая сеть реализована в виде ориентированного графа, соединяющего между собой слова и понятия и приписывающего связям определенные весовые коэффициенты. Ее применение позволяет сначала расширять состав поискового запроса, а затем ранжировать найденные документы по степени их соответствия запросу. Локализованная версия ERW включает Русский Семантический Сервер — набор программных средств и информационных ресурсов для обеспечения полнотекстового поиска с учетом специфики русского языка. Библиотека морфологического анализа включает словарь объемом 240 тысяч словарных статей. Семантическая сеть русского языка включает в себя около 90 тысяч слов и идиоматических выражений, а также более 350 тысяч связей между ними. Пользователь может пополнять словари, применять одновременно несколько словарей и несколько семантических сетей.

  9. Механизм нечеткого поиска. Наличие опечаток и ошибок в текстовой информации — явление достаточно распространенное. ERW использует в качестве одного из методов поиска технологию адаптивного распознавания образов, основанную не на точном совпадении слов документа и запроса, а на исчислении меры их близости. Ее применение позволяет исключить трудоемкие операции проверки орфографии и исправления ошибок после работы автоматических систем распознавания текста. Более того, те же методы лежат в основе уникальных технологий ERW, которые используются для поиска фактически любой представленной в электронном виде информации — текстов, изображений, звуков, видео.

  10. Функциональная расширяемость системы. Большинство поисковых систем снабжено интерфейсом прикладного программирования, обеспечивающим доступ к их поисковым механизмам со стороны внешних приложений. Однако зачастую этого недостаточно для глубокой интеграции электронного архива с используемыми в организации приложениями. Открытая архитектура ERW предоставляет разработчикам широкие возможности, вплоть до модификации ядра поисковой системы. Продукты ERW поставляются в коробочных вариантах, для их освоения и адаптации не нужен непосредственный контакт с их создателями.

    В начало статьи