Главная страница Visual 2000 · Общий список статей
"Публичная библиотека" выбирает технологии ExcaliburАндрей Колесов
© 2000, Андрей КолесовПрошедшая за последние полгода серия ИТ-конференций...
Прошедшая за последние полгода серия ИТ-конференций ("Электронный Офис", "Фестиваль Microsoft", локальные мероприятия ряда компаний) показывает, что ранее довольно абстрактный интерес корпоративных клиентов к теме "управление знаниями" явно переходит в стадию практического создания подобных систем. Соответственно возникает очевидная необходимость изучения опыта реализации таких проектов и тогда выясняется, что у потенциальных заказчиков совсем не так много возможностей для удовлетворения своего интереса. Это давно известная проблема нашего рынка, и, к сожалению, здесь очень сложно провести грань между нежеланием раскрывать секреты и отсутствием каких-то реальных результатов...
Но "все течет, все изменяется" — работающие системы появляются, причем такие, которые изначально ориентируются на открытое представление широкой общественности. Таким, например, является Web-проект "Публичная библиотека" (www.public.ru) , стартовавший весной нынешнего года. Он открыл доступ через Интернет к, возможно, крупнейшему электронному хранилищу материалов на русском языке — полнотекстовой базе данных российских общественно- политических СМИ, формируемой с 1990 года. По состоянию на август 2000 года: архив содержит около 4 млн. текстовых документов общим объемом приблизительно 10 Гб, источники информации включают 470 периодических изданий и охватывает 70 регионов России, ежесуточное пополнение составляет порядка 4 тыс. документов, технологическая платформа — Windows NT 4.0, СУБД — MS SQL Server 7.0, поисковый механизм — Excalibur RetrieveWare.
Истоки проекта приходятся на начало 90-х годов, когда только появившиеся в то время независимые российские информационные агентства, в частности "Постфактум", начали выполнять мониторинг отечественных СМИ, т.е. формировать базы данных по публикациям в отечественной прессе.
Здесь можно отметить прогресс в процессе сбора начальной информации. Еще семь лет назад ввод исходных данных обеспечивался тривиальным вводом с клавиатуры. Системы сканирования и распознавания текстов были еще далеки от совершенства и стоили слишком дорого по сравнению с зарплатой сотрудников, никакого Интернета и электронной почты не было. Сегодня 40 процентов информации поступает через Интернет, остальная часть — компьютерным преобразованием с бумажных носителей.
Сначала формирование подобных полнотекстовых баз данных служило для решения сугубо внутренних задач, в частности, для составления аналитических обзоров. Но довольно быстро ценность создаваемых электронных архивов отечественных СМИ была осознана организациями, занимающимися так называемыми "политтехнологиями". И только три-четыре года назад процесс извлечения знаний из открытой газетной информации стал принимать коммерческий характер: первыми пользователями ресурса стали ведущие российские телеканалы, крупнейшие отечественные корпорации и банки.
Повышение спроса привело к появлению предложений услуг по оперативному предоставлению информации периодических изданий и положило начало специализации на этом сегменте рынка информационных услуг. Естественной реакцией на изменение спроса стало появление специализированных поставщиков данных, и в этой ситуации у многих крупных корпораций отпала необходимость в содержании собственной службы сбора и хранения информации из газет и журналов. В результате в конце 1998 года на базе коллектива специалистов, занимавшегося в течение нескольких лет подобными задачами, была создана компания "Вектор-Инфо", главными направлениями работы которой стали мониторинг русскоязычных СМИ (не только российских), тематические подборки материалов, а также проведение аналитических исследований, включая создание рейтингов на основе сведений, содержащихся в прессе. В результате обсуждения перспектив развития информационного бизнеса в компании "Вектор-Инфо" в новых рыночных условиях было принято решение о реализации нового проекта под названием "Публичная библиотека".
Отметим также, что к тому времени в Интернете уже был реализован существующий и сегодня проект "Национальная служба новостей/Национальная электронная библиотека", решающий примерно аналогичные задачи. Это важный факт — появление второго игрока в некотором секторе рынка всегда является признаком того, что данное направление бизнеса имеет реальные перспективы для развития. Появление третьего говорит о стабильном росте сегмента...
Главной бизнес-целью проекта "Публичная библиотека" является расширение клиентской базы, в том числе за счет новых слоев потребителей — малых и средних предприятий, а также частных лиц. Это требует решения нескольких взаимосвязанных задач:
В итоге за счет совокупности описанных действий достигается перекрытие всех возможных уровней потребности в информации периодических изданий, включая оперативный поиск полных текстов, предоставление библиографических услуг и предоставление фактографических справок по любой тематике. Кроме того, специалисты в текущем режиме отслеживают содержание основных национальных изданий, ведут анализ состояния рынка СМИ.
Весной 1999 года полнотекстовый архив СМИ фирмы "Вектор-Инфо" имел объем свыше 7 Гб текстовой информации, и для его пополнения использовалось около 300 периодических изданий. К тому моменту система функционировала с использованием средства одного из российских разработчиков, но, учитывая перспективы расширения проекта, было решено рассмотреть возможные альтернативные варианты.
Было проанализированы несколько средств создания информационно- поисковых систем зарубежных и российских разработчиков. В результате в качестве платформы был выбран продукт Excalibur RetrieveWare WebExpress корпорации Excalibur Technologies, интересы которой в России представляет компания "Весть- Метатехнология".
По словам директора "Публичной библиотеки" Елены Бунь, такое решение во многом объясняется изучением опыта использования технологий Excalibur в крупнейших информационных хранилищах мира — Библиотеки Конгресса США и Библиотеки Британского музея. Хотя объем архива "Публичной библиотеки" сегодня пока не очень велик по сравнению с западными проектами, но динамика его роста уже сейчас весьма значительна, поэтому наиболее актуальной становится проблема масштабируемости.
Большое значение имею мощные и разнообразные поисковые возможности Excalibur. Наличие Русского Поискового Сервера, разработанного фирмой "Весть- Метатехнология" в рамках локализации продукта, позволяет использовать технологию расширенного поиска для русскоязычных документов с применением запросов в виде логических конструкций или на естественном языке. В то же время крайне необходимым является механизм нечеткого поиска. Это обеспечивает не только решение проблемы наличия в документах опечаток или ошибок при распознавании текста, но также открывает отличные возможности для автоматизации поиска в массивах звуковой, графической и видеоинформации. Расширение базы данных в будущем будет в значительной степени выполняться на счет широкого использования мультимедийной информации.
Явным плюсом продукта Excalibur является его реализация в виде настоящего коробочного варианта. Его настройка и адаптация для конкретного проекта, а также разработка некоторых дополнительных модулей выполнялась силами программистов "Вектор-Инфо". Со своей стороны, представители "Весть- Метатехнология" подчеркивают, что проект был реализован при минимальном участии их специалистов и за достаточно сжатые для подобных проектов сроки — девять месяцев.
Сервер проекта начал функционировать в рабочем режиме в конце мая нынешнего года и в составе его пользователей пока всего несколько десятков клиентов (среди них, в частности, телеканалы РТР и НТВ). По сведениям маркетинговой службы "Публичной библиотеки", примерно 20% потребителей — крупные корпорации, по 30-35% — западные СМИ и российские PR-агентства, 15% — частные лица. Для оплаты доступа к информационным ресурсам системы предлагаются разные схемы — от почасовой (8 долл./час) до неограниченной (1500 долл./месяц).
Разумеется, сейчас трудно уверенно говорить о будущем развитии "Публичной библиотеки". Однако сам факт появление Интернет-проекта, бизнес-основой которого является предоставление информационных услуг, а не размещение рекламы, говорит о том, что российские пользователи готовы платить за использование систем управления знаниями. А также, что имеются технологии и опыт их применения для создания таких систем.
10 ключевых вопросов при выборе поисковой системы. Что на них отвечает Excalibur RetrieveWare
Закон, сформулированный почти тридцать лет назад Джеймсом Мартином (авторитетным американским специалистом по информационным системам), гласит: "Если система полезна, то нагрузка на нее будет возрастать до полного исчерпания ее пропускной способности. Вывод: чем полезнее система, тем скорее она придет в негодность". Если электронный архив и обеспечивающий его поисковый механизм полезны (например, позволяют получать дополнительную прибыль), то объем архива и поток запросов к нему будут расти...
Объем информационного Время массива, Гб поиска, сек 5 3 20 5 100 9 200 20