Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Сравнительные характеристики эффективности поиска в различных системах и оценка достоверности
Из наиболее важных показателей эффективности работы информационных систем, содержащих текстовую информацию, выделяются семантические показатели, которые основаны на оценке релевантности между документами и запросами. Релевантность – объективно существующее смысловое соответствие между содержанием документа и запроса. Объективность оценок релевантности обеспечивается тем, что они устанавливаются экспертным путем, а не автором запроса. Семантическими показателями являются полнота выдачи (потери информации) и точность выдачи (информационный шум). Введем следующие обозначения: а – множество релевантных и выданных системой документов; б – множество нерелевантных, но выданных системой документов; в – множество релевантных, но не выданных системой документов;
Другой группой показателей оценки эффективности документальных информационных систем являются прагматические показатели. Эти показатели можно определить только в процессе эксплуатации информационной системы. Прагматические показатели определяют абоненты системы на базе оценок пертинетности выданных документов. Пертинентность – это субъективно оцениваемое соответствие содержания документов или текстов информационным потребностям потребителя. Пертинентность может оценить только автор запроса, работающий с информационной системой. Оценки пертинентности отличаются от результатов, полученных на основе оценок релевантности. Анализ содержимого в профессиональных базах данных за последние 15 лет показывает неуклонный рост доли текстовой информации в общем объеме информации. Представляется, что основная информация в Интернете также является текстовой. Эти обстоятельства позволяют сделать вывод о том, что подходы к оценке эффективности поиска в документальных системах в полной мере распространяются и на профессиональные базы, и на информационные ресурсы Интернета. Специфика информационных ресурсов Интернета и имеющихся в среде Интернета поисковых средств, которые оказывают существенное влияние на эффективность поиска в этой среде: Основными поисковыми средствами в Интернете являются поисковые системы и каталоги. Полнота поиска с учетом вышеуказанных средств будет значительно ниже, чем в документальных системах, построенных на базе информационно-поисковых языков. Поисковые машины включают в свою базу поиска лишь незначительную часть от всех ресурсов Интернета, из-за особенностей структуры Интернета и самих поисковых машин. Данные обстоятельства определяют те высокие требования к профессиональной подготовке пользователя, которые необходимы для получения нужной информации из информационных ресурсов Интернета. Организация информации в профессиональных базах отличается от организации информации в Интернете тем, что информация накапливается и постоянно обновляется в базах данных. В каждой базе накапливается специфичная информация, отбор достоверных источников и накопление информации ведут информационные агентства – генераторы. Одним из важнейших показателей, характеризующих полученную из других источников информацию, является ее достоверность. Достоверность – это степень соответствия информации об объекте его реальному состоянию. Процесс оценки достоверности информации – это сложный аналитический процесс, зависящий от многих факторов. Невозможно разработать единую схему, которую можно применять в любых случаях. Однако следует рассмотреть некоторые типичные случаи и выявить факторы, которые влияют на оценку достоверности: знания человека оценивающего информацию (знание процесса поступления информации от первичного источника, надежности первичного источника); к каждому виду информации при оценке должен быть свой подход (достоверность одного вида зависит от времени, другого не зависит); уровень подготовки специалиста, оценивающего достоверность информации, его эрудиция, знание предметной области (одним из действенных методов является сравнение значения признака объекта с возможными границами его значений). Можно выделить несколько обобщенных подходов к оценке достоверности информации: Выявление, к каким источникам относится поступающая информация – первичным или вторичным; определение надежности источника информации; выявление логических несоответствий в поступающей информации; изучение контекста, в котором излагаются определенные факты и сведения; выделение информации, основанной на предрассудках, обмане или манипуляции, которая может являться пропагандой, рекламой или несоответствующей действительности. В наиболее ответственных случаях информацию желательно получать из различных независимых источников, а сами источники должны регулярно оцениваться по степени достоверности поступающей от них информации.
|