![]() Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Тема . Информационно-поисковые и информационно-справочные системыСтр 1 из 5Следующая ⇒
1. Информационно-поисковые системы Принципы формирования типовой информационной структуры: · однократный ввод и многократное использование информации; · полнота удовлетворения информационных потребностей основных групп пользователей; · оперативное пополнение ресурсов обязательными документами; · комфортный доступ к ресурсам в off - и on-line режимах; · выполнение как конкретных узко тематических, так и широких по тематике запросов. Запросы, которые формируют пользователи информационных систем, реализуются следующими способами: · сообщения, являющиеся ответом на запрос, хранятся в явном виде в базе данных, и процесс получения ответа представляет собой выделение подмножества знаний из файлов базы данных, удовлетворяющих запросу; · ответ не существует в явном виде в базе данных и формируется в процессе логического вывода на основании имеющихся данных. Теория информационного поиска начиналась с исследования особенностей документальных информационно-поисковых систем (ИПС). Под информационным поиском в таких системах понимается некоторая последовательность операций, выполняемых с целью отыскания документов (статей, научно-технических отчетов, описаний к авторским свидетельствам и патентам, книг и т.д.), содержащих определенную информацию (с последующей выдачей самих документов или их копий), или с целью выдачи фактических данных, представляющих собой ответы на заданные вопросы. Массив элементов информации, в котором производится информационный поиск, называется поисковым массивом. Существующие виды информационного обслуживания представлены втаблице:
Способы реализации видов и форм обслуживания зависят от вида, назначения и способа реализации конкретной ИПС. Очевидно, что прочитать каждый документ библиотеки, чтобы найти необходимый, практически невозможно. Поэтому на протяжении истории развития информационного поиска разрабатывались и совершенствовались методы поиска. Каждому документу, вводимому в поисковый массив, ставится в соответствии поисковый образ документа (ПОД), который представляет собой характеристику, отражающую основное смысловое содержание документа (этим ПОД отличается от кода, присваиваемого информационному элементу в фактографических ИС). В виде такой же краткой характеристики – поискового предписания или поискового образа запроса (ПОЗ) должны быть сформулирован и информационный запрос. Благодаря этому процедура поиска может быть сведена к простому сопоставлению поисковых образов документов с поисковым предписанием. Для сопоставления ПОД и ПОЗ разрабатывают и применяют различные критерии поиска или критерии смыслового соответствия. Точность поиска определяется точностью отображения документов и запросов с помощью их поисковых образов и степенью совпадения ПОД и ПОЗ. Поэтому возможна неполнота выдачи документов, либо, напротив, «поисковый шум», которые представляют собой своеобразную плату за облегчение процедуры информационного поиска. Процедура выражения основного смыслового содержания документа и информационных запросов на информационно-поисковом языке получила название индексирования и составляет существенную часть аналитико-синтетической обработки документов. Информационный поиск, таким образом, заключается в замене содержательного прочтения полного текста документов формальным «сличением» (сравнением на соответствие) их поисковых образов с запросами на языке индексов. Информационный поиск реализуется при помощи информационно-поисковой системы, которая в абстрактном виде должна состоять из информационно-поискового языка, правил перехода на этот язык и критерия смыслового соответствия, определяющего объем выдачи документов или информации. Модель организации данных в гипертекстовых справочных системах основана на сочетании ассоциативных гиперссылок и иерархического принципа организации фрагментов и документов. Концептуальная схема информационно-поисковой системы представлена на рисунке:
Модель организации данных в гипертекстовых справочных системах основана на сочетании ассоциативных гиперссылок и иерархического принципа организации фрагментов и документов.
Поисковые системы подразделяются на каталоги и указатели; они различаются технологией подготовки справочного материала: каталоги составляют люди, а указатели формируются автоматически. Самый крупный каталог Интернет – Yahoo! (www. yahoo.com); он содержит более миллион ресурсов и поддерживается 150 редакторами. Ведущий каталог России – List.Ru (www. list.ru): 100 тысяч ссылок, классифицированных по 18 каталогам. Язык поисковых слов служит для координатного индексирования документов и запросов посредством дескрипторов и ключевых слов. В его основе лежит алфавитный перечень лексических единиц, или словарь ключевых слов. Именно язык ключевых слов открыл возможность для автоматизации информационного поиска. Он позволяет достаточно детально и многоаспектно раскрывать содержание документов. Дескрипторы и ключевые слова легко дополняются и обновляются, поскольку в алфавитный перечень можно включать любую лексическую единицу, необходимую для индексирования. Информационно-поисковые каталоги является традиционными технологиями организации информационного поиска в документальных фондах библиотек, архивов и представляют собой классификационную систему знаний по определенной предметной области. Смысловое содержание документа в информационно-поисковых каталогах отображается тем или иным классом каталога, а индексирование документов заключается в присвоении каждому документу специально кода (индекса), соответствующего по содержанию классу (классам) каталога, и создании на этой основе специального индексного указателя. Система метаданных является центральным логическим компонентом любой электронной библиотеки (ЭБ). Подобно тому, как библиотечный каталог организует все множество единиц хранения в систему библиотечных фондов, вокруг которой строятся все библиотечные технологии, система метаданных организует совокупность электронных информационных ресурсов (или цифровых объектов) библиотеки. На основе системы метаданных строятся основные технологические процессы ЭБ: · навигация в информационном пространстве; · поиск отдельных цифровых объектов (информационных ресурсов) или их совокупностей; · ввод, обработка и организация хранения цифровых объектов, а также их исключение (изъятие); · управление правами доступа к цифровым объектам, включая защиту авторских прав, организации платы за доступ и т.п. Типы метаданных: Описательные – библиографическая информация или другие сведения о содержании (семантике) цифровых объектов. Структурные – сведения о форматах, структуре, объеме и других формальных свойствах цифровых объектов; Административные – права, разрешения на доступ, на коррекцию данных, данные о пользователе, данные для систем оплаты, технологические данные. Общим типом метаданных является идентификатор, задача которого – однозначное представление цифрового объекта для внешнего лица и различных приложений. Системы метаданных определяют класс задач, которые реализуются в ЭБ и решающим образом влияют на интероперабельность (совместимость) коллекций, имеющихся в библиотеке. Тем самым принятие тех или иных принципов в отношении метаданных фактически определяет стоимость проектов по созданию ЭБ и эффективность затрат на эти проекты. Известны следующие системы метаданных: MARC – машиночитаемый каталог. CSDGM– стандарт цифровых геопространственных данных. GILS – глобальная (правительственная) служба поиска информации. EAD – кодировка архивных описаний, используемая для стандартизации и классификации уникальных архивов материалов, прежде всего рукописей. TEI – инициатива по кодированию текстов. Формат Государственного регистра баз и банков данных – содержит систему метаданных для баз данных и других электронных наборов данных. Международная группа под руководством Stuart Weber& OCLC (штаб-квартира в Дублине, штат Огайо, США) разработала систему метаданных «Дублинское ядро». Набор метаданных Дублинского ядра составляют 15 элементов: Заголовок (Title) – название, присвоенное ресурсу создателем или издателем. Автор (Creator) – человек или организация, изначально ответственная за интеллектуальное содержание ресурса (в случае рукописного документа это авторы; в случае визуальных ресурсов – исполнители, фотографы, иллюстраторы). Предмет (Subject) – тема ресурса. Обычно предмет выражается в ключевых словах или фразе, описывающей предмет или содержание ресурса. приветствуется использование контролируемых словарей и формальных схем классификации. Описание (Description) – текстовое описание содержания ресурса, включая реферат в случае документов или описания содержания в случае визуального ресурса. Издатель (Publisher) – организация, ответственная за состояние ресурса в его представленной форме: издательский дом, университетский департамент, корпорация. Участник создания материала (Contributor) – человек или организация, которые не являются авторами (не обозначены в элементе «автор»), но внесли значительный интеллектуальный вклад в ресурс; чей вклад вторичен по отношению к любому человеку или организации, указанной в числе авторов: редактор, переводчик, иллюстратор. Дата (Date) – дата, указывающая на создание или появление ресурса (в доступном виде). Тип (Type) – категория ресурса: домашняя страничка, роман, поэма, статья, препринт, технический отчет, эссе, словарь. Формат (Format) – формат представления данных ресурса (обычно указывается тип программного обеспечении и, возможно, тип компьютера, которые могут быть необходимы для отображения ресурса и работы с ним). Идентификатор (Identifier) – набор букв или цифр, который обычно используется для уникальной идентификации ресурса. Источник (Source) – информация об источнике, из которого получен представленный ресурс. Язык (Language) – язык, на котором изложено интеллектуальное содержание ресурса. Связь (Relation) – идентификатор первичного ресурса и его связь с представленным ресурсом. Этот элемент позволяет связывать между собой близкие ресурсы, а также описание ресурса, которые необходимо показать. Например, издание книги и глава книги. Охват (Coverage) – характеристика местонахождения и временной продолжительности ресурса. Права (Rights) – утверждение об авторских правах и управление ими (идентификатор, связанный с такими утверждением; идентификатор, связанный с сервисом, представляющим информацию об управлении правами на данный ресурс).
|