Технологии Convera
Компания "Convera Technologies International Ltd." (ранее Excalibur) - по данным отчетов Гартнер Груп уже много лет является мировым лидером в области разработки технологий поиска информации и извлечения знаний из текстов и мультимедийных данных любой природы (графические и видео изображения, звук сохраненных в файлах практически всех известных форматов).
В соответствии с характером обрабатываемых источников данных, программные продукты Convera имеют следующее назначение: Для управления знаниями, представленными в текстовом виде компания Convera предлагает программный продукт RetrievalWare (RW) c набором дополнительных сервисных программ.
Семейство продуктов RW обеспечивает поиск, анализ и выделение информации посредством задания пользователем поисковых запросов на естественном языке к информации, хранящейся как в неструктурированном виде так и формализованных базах данных, расположенной как в локальной сети организации так и в сети Internet.
Основные преимущества RW перед программными продуктами аналогичного назначения заключаются в следующем:
- В RW реализована уникальная технология "нечеткого" поиска , позволяющая находить информацию не на основе точного совпадения запроса с данными, а на степени похожести запроса , с содержимым в источниках информации, что позволяет:
- при проведении ретроконверсии бумажных документов отпадает необходимость правки документов после распознавания текста, что в свою очередь позволяет перевести объемные архивы бумажных документов в электронный вид за обозримый срок (до нескольких тысяч машинописных листов в день с одного рабочего места) и за разумные инвестиции (так стоимость правки одной страницы в России около 50 центов)
- находить информацию, введенную с опечатками
- находить информацию, когда не знаешь точно, что ты ищешь, например нет уверенности в написании запроса (редкое слово - "реборда" или "риборда)
- В RW реализована возможность ассоциативного поиска на основе семантической сети . При этом можно использовать несколько семантических сетей одновременно, например сеть на основе общей лексики русского языка и сеть понятий, используемых в приборостроении. Каждый пользователь может с легкостью создавать свои собственные семантические сети в дополнение к общим.
В семантической сети RW имеется возможность определения вида семантической связи для понятий, например, слова синонимы или антонимы, слова связанные отношением "род-вид" и т.п. Данное свойство обеспечивает высокую точность извлечения информации и позволяет автоматически находить документы (или записи в БД) не только по терминам заданным в запросе, но и по другим терминам, связанным по смыслу с заданным.
Развитый механизм оценки релевантности найденных документов позволят пользователю создавать запросы на естественном языке .
- RW имеет возможность включать в единое поисковое пространство как информацию, хранимую в файловой системе, так и СУБД (Oracle, MS SQL, Sybase, Informix, Teradata, ODBC DBS), почтовых и корпоративных системах (MS Exchange, Lotus) и системах документооборота (StaffWare, Documentum, FileNet Panagon). С помощью RW можно организовывать доступ и индексировать удаленные хранилища данных. Это свойство RW позволяет создавать единое корпоративное информационное пространства .
Развитая система безопасности , наследующая свойства безопасности источников информации, в совокупности с Web-технологией позволяет использовать RW как средство для создания территориально распределенных автоматизированных систем. RW обеспечивает пользователю просмотр документов более чем в 250 форматах, среди которых как широко известные: doc, rtf, txt, pdf, html, так и специфическиe форматы, например, форматы САПР (dxf, dwg). В последней версии RW реализована возможность поиска информации в архивах (ZIP, :). Система фильтрации, работающая с использованием технологии компании "Outside In", обеспечивает пользователю просмотр документов в их родном формате.
- В RW реализована возможность динамической рубрикации всей поступающей информации на основе запросов, созданных пользователями. Таким образом, реализуется функция "профайлинга" и значительно сокращается время ознакомления с вновь поступившей информацией, так как она представляется пользователю в структурированном виде, т.е. предварительно разложенной по рубрикам.
- В RW реализована функция кросс - языкового поиска . Пользователю достаточно задавать вопросы на родном языке, система на основе установленного соответствия семантических сетей для разных языков, возвращает документы на других языках. В настоящее время проводятся работы по созданию украинского семантического сервера.
- RW может автоматически извлекать атрибуты из текстовых документов определенной структуры и помещать их в СУБД (создавать формуляры для документов).
- RW обладает неограниченными возможностями масштабирования как по объемам обрабатываемой информации, так и по количеству обрабатываемых запросов.
- RW имеет дополнительные сервисные программы:
- RW FileRoom - данный сервис полностью интегрирован с RW и предназначен для обеспечения работы с бумажными архивами. В RW FileRoom совместно хранятся отсканированные образы документов и текстовые файлы, содержащие результаты оптического распознавания. Документам приписываются учетные карточки. Структура электронного архива может повторять структуру бумажного за счет использования виртуальных шкафов, ящиков и папок, что позволяет по электронному образу документа легко находить место хранения физического документа.
- RW Internet Spider - специальное приложение для поиска в обозначенных областях Интернета и Интранета.
- RW WebExpress - специальное приложение для обслуживания провайдеров, обеспечения поиска по содержимому веб-сайта и электронной торговли через Интернет.
- RW CDExpress - для создания портативных баз данных на компакт-дисках, содержащих поисковой механизм RW.
- Средства управления видео архивом - ScreeningRoom (SR) - комплексное решение проблем анализа и поиска видео информации . Наряду с визуальным поиском позволяет выделять из видео изображений текст, соответствующий субтитрам или телетексту и преобразовывать в текст сопровождающий аудиодорожку. Существует возможность с каждым из выделенных видеофрагментов сопоставить разнообразную текстовую информацию - название, аннотацию, субтитры и т.п. - т.е. создавать аннотацию к видео сюжетам "storyboard".
Преимущества:
- Возможность быстрого преобразования видео данных в цифровую информацию.
- Удобный поиск нужного фрагмента в цифровом видео архиве.
Средства для системных интеграторов и разработчиков программных систем, использующих решения компании Convera - RetrievalWare SDK и Visual RetrievalWare SDK позволяют разрабатывать дополнительный функционал к RW для обеспечения решения задач конкретной организации.
Среди пользователей продукции компании "Convera":
- Правительства - России, США, Великобритании, Израиля, Польши, Чехии, Венгрии и Швеции;
- Патентные ведомства - Швейцарии, Англии, США, Узбекистана и России (ФИПС);
- Мировые банки - Worldbank, ЦБ России, Внешторгбанк России, Swiss Bank;
- Крупнейшие организации - НК "Юкос", "Лукойл-Пермь", NASA, Авиа космический центр России, Boeing Company, General Electric, Intel, Ford Motor Company, AUDI; СМИ - CNN, "The Financial Times", "Медиа Мост", "ABC News";
- Финансовые компании - Visa International.
- Всего более 5000 компаний, организаций и предприятий, расположенных во всех странах мира.