Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Процесс предметизацииСтр 1 из 3Следующая ⇒
ПРЕДМЕТИЗАЦИЯ ДОКУМЕНТОВ Под предметизацией понимают интеллектуальный или автоматический анализ содержательных и формальных признаков документа с целью его свертывания и отражения в поисковой системе с помощью языка предметных рубрик (ЯПР). Объектом предметизации является отдельный документ, его составная часть или совокупность документов. Предметы и явления действительности, получившие содержательное отражение в документе с помощью знаков естественного языка, называют предметом документа. Предметизация позволяет выразить предмет и некоторые формальные признаки документа с помощью предметных рубрик. Процесс предметизации Процесс предметизации состоит из нескольких операций: 1. Отбор документов, библиографические записи которых будут включены в предметный каталог. 2. Анализ содержания и формы документа с целью определения предмета, аспектов его рассмотрения и выявления связи между ними в тексте. 3. Выбор смысловых компонентов (терминов) и формулировка из них рубрик, отражающих выявленные связи. 4. Стандартизация формулировки рубрик с помощью словарей предметных рубрик (или других пособий, например, тезаурусов). 5. Редактирование рубрик, то есть проверка их соответствия правилам предметизации и нормативным документам. 6. Написание рубрик на каталожных карточках или их ввод в базу данных. Качество предметизации зависит от точности отражения содержания документов с помощью языка предметных рубрик (ЯПР). Язык предметных рубрик — это искусственный информационно-поисковый язык, созданный на основе естественного языка, отвечающий требованию однозначности. Структурной единицей ЯПР являются предметные рубрики (простые и сложные), предназначенные для описания содержательных и формальных признаков документов или запросов. Требования к языку предметных рубрик ЯПР должен отвечать следующим требованиям: 1. Быть однозначным. Синонимия, полисемия и омонимия в ЯПР устранены. 2. Фиксировать парадигматические (логические и ассоциативные) отношения. 3. Грамматика ЯПР должна быть простой и подчинена определенным правилам. 4. Полнота словаря должна быть достаточной для предметизации документов и запросов, словарь должен допускать возможность исправлений и дополнений. Предметные рубрики включают в свой состав лексические единицы — слова или словосочетания, выражающие понятия. В ЯПР лексические единицы называются предметными заголовками (или заголовками предметных рубрик) и подзаголовками (или подрубриками), среди которых выделяют тематические, географические, формальные и хронологические подзаголовки. Предметный заголовок — это первый компонент сложной предметной рубрики. Он включает наименование предмета документа. Подзаголовки (подрубрики) отражают тот или иной аспект рассмотрения предмета, например: Автомобильные заводы — Строительство — Татарстан Франция — Внешняя политика, 20 в. Простые предметные рубрики состоят из одной лексической единицы: Клубные учреждения Соленые озера При создании ЯПР необходимо выполнить ряд приемов формализации: 1. Устранить синонимию, омонимию и полисемию естественного языка. В словарь предметных рубрик вводят все синонимы и синонимичные выражения. В качестве рубрики выбирают один из синонимов, остальные исключаются с помощью отсылки, обозначаемой пометкой «см»: Самоцветы см Драгоценные камни Полисемия устраняется с помощью развернутой формулировки рубрик: Банковские операции Военные операции Омонимия устраняется с помощью помет, в качестве которых приводится либо наименование отрасли, либо определение понятия: Нефрит (геол.) Нефрит (мед.) Кошки (животные) Кошки (механизмы) 2. Выбрать ведущее слово заголовка и подзаголовков, если они выражены словосочетаниями. Ведущее слово выражает качественное своеобразие предмета и обладает комплексирующей и эвристической (поисковой) функцией. Продуманный выбор ведущего слова позволяет собрать в одном месте ПК комплекс тематически близких рубрик. Эвристическая функция обеспечивает быстрое разыскание искомой рубрики в алфавитном ряду. Ведущим словом может быть как прилагательное, так и существительное. Если первое слово лексической единицы-словосочетания выполняет эти функции, то словосочетание используется в неизменной форме, например: Алмазные инструменты Если первое слово не выполняет перечисленные функции, то происходит перестановка слов. Этот прием называется инверсией, которая производится по правилам предметизации в двух типах словосочетаний: прилагательного и существительного в именительном падеже, например: Стекло листовое Стекло полированное (но Часовое стекло) в словосочетаниях существительного в именительном падеже и сущестительного в родительном падеже: Кирхгофа правила Монте-Карло метод Упругости теория 3. Необходимо сформулировать сложные предметные рубрики, пользуясь правилами синтаксиса ЯПР. До недавнего времени преобладал эмпирический подход к формулировке сложных рубрик. Недостаток этого подхода заключается в субъективности выбора заголовков предметных рубрик, в отсутствии правил расположения элементов сложной предметной рубрики и, как следствие, в отсутствии единообразия процесса формулировки рубрик. В настоящее время разработаны логико-лингвистический и категориальный методы формулировки сложных предметных рубрик. В логико-лингвистическом направлении, помимо правил логики и лингвистики, для проверки точности сформулированных рубрик используется метод интерпретации рубрик, то есть правило их перевода на естественный язык (правило реверсивной проверки). Перевод рубрики начинается с последней тематической подрубрики. Каждая предшествующая лексическая единица при переводе присоединяется в родительном или предложном падеже, например, рубрика Горное оборудование — Детали — Заточка переводится на естественный язык фразой Заточка деталей горного оборудования, что соответствует содержанию документа. Исключение представляют рубрики, в которых подзаголовок начинается словом «влияние», требующим при переводе на естественный язык конструкции с винительным падежом, например, рубрика Капуста — Рост и развитие — Влияние микроэлементов переводится фразой Влияние микроэлементов на рост и развитие капусты. Категориальный метод, разработанный индийским библиотековедом Ш. Р. Ранганатаном для стандартизации процесса систематизации, в настоящее время используется в методике предметизации для формулировки предметных рубрик. Лексические единицы перечисляются в сложной предметной рубрике в установленном порядке цитирования категорий (фасетов), например, рубрика «Волокно — Прессование — Оборудование» соответствует фасетной формуле Материал — Процесс — Оборудование. Категориальный метод используется как в ручных, так и в автоматизированных системах предметизации для внесения единообразия в процесс формулировки рубрик и однозначного выражения смысла документов на языке предметных рубрик. 4. В структуру языка предметных рубрик входит ссылочно-справочный аппарат, фиксирующий парадигматические (логические и ассоциативные) отношения. Парадигматические отношения — это внеконтекстные смысловые отношения между предметными рубриками. Ссылочно-справочный аппарат состоит из отсылок, ссылок и справок. Отсылки, обозначаемые пометкой «см», предназначены для нахождения предметной рубрики, если имеется несколько синонимов для выражения одного понятия. Кванты света см. Фотоны Ссылки предназначены для установления тематической связи между рубриками. Существуют связующие и перекрестные ссылки. Связующие ссылки — это ссылки от общего к частному, от вышестоящих рубрик к нижестоящим. Они обозначаются пометкой «см. также»: Сушилки см. также Зерносушилки Сеносушилки Перекрестные ссылки устанавливают связь между рубриками в двух направлениях — прямом и обратном, обозначаются пометкой «см. также»: Верфи см. также Судостроительные заводы Судостроительные заводы см. также Верфи Справки — это элемент ссылочно-справочного аппарата, содержащий сведения о размежевании тематики между рубриками и другие уточнения, например: Радиовещание Справка. В рубрике собирается литература о радиовещании как одном из средств массовой информации. Литературу о радио как виде искусства см. в рубрике «Радиоискусство». Литературу о технике радио см. в рубрике «Радиотехника». Язык предметных рубрик оформляется в виде словарей, используемых для предметизации документов и создания поискового аппарата в виде предметного каталога, картотеки, библиографического указателя, электронного каталога и др. Словарь предметных рубрик представляет собой единый алфавитный перечень синонимов, предметных рубрик (простых и сложных) с установленными между ними парадигматическими отношениями, выраженными ссылочным аппаратом. Рубрики располагаются в алфавите заголовков, при расстановке которых учитывается алфавит каждого слова. За каждым заголовком в алфавитном порядке располагаются подзаголовки.
|