Студопедия

Главная страница Случайная страница

КАТЕГОРИИ:

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Процесс предметизации






ПРЕДМЕТИЗАЦИЯ ДОКУМЕНТОВ

Под предметизацией понимают интеллектуальный или автоматичес­кий анализ содержательных и формальных признаков документа с целью его свертывания и отражения в поисковой системе с помощью языка пред­метных рубрик (ЯПР).

Объектом предметизации является отдельный документ, его состав­ная часть или совокупность документов.

Предметы и явления действительности, получившие содержательное отражение в документе с помощью знаков естественного языка, называют предметом документа. Предметизация позволяет выразить предмет и неко­торые формальные признаки документа с помощью предметных рубрик.

Процесс предметизации

Процесс предметизации состоит из нескольких операций:

1. Отбор документов, библиографические записи которых будут включены в предметный каталог.

2. Анализ содержания и формы документа с целью определения пред­мета, аспектов его рассмотрения и выявления связи между ними в тексте.

3. Выбор смысловых компонентов (терминов) и формулировка из них рубрик, отражающих выявленные связи.

4. Стандартизация формулировки рубрик с помощью словарей пред­метных рубрик (или других пособий, например, тезаурусов).

5. Редактирование рубрик, то есть проверка их соответствия прави­лам предметизации и нормативным документам.

6. Написание рубрик на каталожных карточках или их ввод в базу данных.

Качество предметизации зависит от точности отражения содержания документов с помощью языка предметных рубрик (ЯПР).

Язык предметных рубрик — это искусственный информационно-по­исковый язык, созданный на основе естественного языка, отвечающий требованию однозначности. Структурной единицей ЯПР являются пред­метные рубрики (простые и сложные), предназначенные для описания со­держательных и формальных признаков документов или запросов.

Требования к языку предметных рубрик

ЯПР должен отвечать следующим требованиям:

1. Быть однозначным. Синонимия, полисемия и омонимия в ЯПР устранены.

2. Фиксировать парадигматические (логические и ассоциативные) отношения.

3. Грамматика ЯПР должна быть простой и подчинена определенным правилам.

4. Полнота словаря должна быть достаточной для предметизации документов и запросов, словарь должен допускать возможность исправлений и дополнений.

Предметные рубрики включают в свой состав лексические единицы — слова или словосочетания, выражающие понятия. В ЯПР лексические еди­ницы называются предметными заголовками (или заголовками предметных рубрик) и подзаголовками (или подрубриками), среди которых выделяют те­матические, географические, формальные и хронологические подзаголовки.

Предметный заголовок — это первый компонент сложной предмет­ной рубрики. Он включает наименование предмета документа. Подзаго­ловки (подрубрики) отражают тот или иной аспект рассмотрения предме­та, например:

Автомобильные заводы — Строительство — Татарстан

Франция — Внешняя политика, 20 в.

Простые предметные рубрики состоят из одной лексической единицы:

Клубные учреждения

Соленые озера

При создании ЯПР необходимо выполнить ряд приемов формализации:

1. Устранить синонимию, омонимию и полисемию естественно­го языка. В словарь предметных рубрик вводят все синонимы и синони­мичные выражения. В качестве рубрики выбирают один из синонимов, остальные исключаются с помощью отсылки, обозначаемой пометкой «см»:

Самоцветы

см

Драгоценные камни

Полисемия устраняется с помощью развернутой формулировки рубрик:

Банковские операции

Военные операции

Омонимия устраняется с помощью помет, в качестве которых приво­дится либо наименование отрасли, либо определение понятия:

Нефрит (геол.)

Нефрит (мед.)

Кошки (животные)

Кошки (механизмы)

2. Выбрать ведущее слово заголовка и подзаголовков, если они вы­ражены словосочетаниями.

Ведущее слово выражает качественное своеобразие предмета и обла­дает комплексирующей и эвристической (поисковой) функцией. Проду­манный выбор ведущего слова позволяет собрать в одном месте ПК комп­лекс тематически близких рубрик. Эвристическая функция обеспечивает быстрое разыскание искомой рубрики в алфавитном ряду. Ведущим сло­вом может быть как прилагательное, так и существительное. Если первое слово лексической единицы-словосочетания выполняет эти функции, то словосочетание используется в неизменной форме, например:

Алмазные инструменты

Если первое слово не выполняет перечисленные функции, то проис­ходит перестановка слов. Этот прием называется инверсией, которая про­изводится по правилам предметизации в двух типах словосочетаний: при­лагательного и существительного в именительном падеже, например:

Стекло листовое

Стекло полированное

(но Часовое стекло)

в словосочетаниях существительного в именительном падеже и сущестительного в родительном падеже:

Кирхгофа правила Монте-Карло метод Упругости теория

3. Необходимо сформулировать сложные предметные рубрики, пользуясь правилами синтаксиса ЯПР.

До недавнего времени преобладал эмпирический подход к формули­ровке сложных рубрик. Недостаток этого подхода заключается в субъек­тивности выбора заголовков предметных рубрик, в отсутствии правил рас­положения элементов сложной предметной рубрики и, как следствие, в отсутствии единообразия процесса формулировки рубрик.

В настоящее время разработаны логико-лингвистический и категори­альный методы формулировки сложных предметных рубрик.

В логико-лингвистическом направлении, помимо правил логики и лингвистики, для проверки точности сформулированных рубрик исполь­зуется метод интерпретации рубрик, то есть правило их перевода на есте­ственный язык (правило реверсивной проверки). Перевод рубрики начи­нается с последней тематической подрубрики. Каждая предшествующая лексическая единица при переводе присоединяется в родительном или предложном падеже, например, рубрика

Горное оборудование — Детали — Заточка переводится на естественный язык фразой Заточка деталей горного оборудования,

что соответствует содержанию документа. Исключение представляют руб­рики, в которых подзаголовок начинается словом «влияние», требующим при переводе на естественный язык конструкции с винительным падежом, например, рубрика

Капуста — Рост и развитие — Влияние микроэлементов переводится фразой

Влияние микроэлементов на рост и развитие капусты.

Категориальный метод, разработанный индийским библиотековедом Ш. Р. Ранганатаном для стандартизации процесса систематизации, в на­стоящее время используется в методике предметизации для формулиров­ки предметных рубрик. Лексические единицы перечисляются в сложной предметной рубрике в установленном порядке цитирования категорий (фасетов), например, рубрика «Волокно — Прессование — Оборудо­вание» соответствует фасетной формуле

Материал — Процесс — Оборудование.

Категориальный метод используется как в ручных, так и в автомати­зированных системах предметизации для внесения единообразия в про­цесс формулировки рубрик и однозначного выражения смысла докумен­тов на языке предметных рубрик.

4. В структуру языка предметных рубрик входит ссылочно-справоч­ный аппарат, фиксирующий парадигматические (логические и ассоци­ативные) отношения. Парадигматические отношения — это внеконтекстные смысловые отношения между предметными рубриками.

Ссылочно-справочный аппарат состоит из отсылок, ссылок и справок.

Отсылки, обозначаемые пометкой «см», предназначены для нахожде­ния предметной рубрики, если имеется несколько синонимов для выраже­ния одного понятия.

Кванты света

см.

Фотоны

Ссылки предназначены для установления тематической связи между рубриками. Существуют связующие и перекрестные ссылки. Связующие ссылки — это ссылки от общего к частному, от вышестоящих рубрик к нижестоящим. Они обозначаются пометкой «см. также»:

Сушилки

см. также

Зерносушилки

Сеносушилки

Перекрестные ссылки устанавливают связь между рубриками в двух направлениях — прямом и обратном, обозначаются пометкой «см. также»:

Верфи

см. также

Судостроительные заводы

Судостроительные заводы см. также Верфи

Справки — это элемент ссылочно-справочного аппарата, содержа­щий сведения о размежевании тематики между рубриками и другие уточ­нения, например:

Радиовещание

Справка. В рубрике собирается литература о радиовещании как

одном из средств массовой информации. Литературу о радио как

виде искусства см. в рубрике «Радиоискусство». Литературу о технике радио см. в рубрике «Радиотехника».

Язык предметных рубрик оформляется в виде словарей, используемых для предметизации документов и создания поискового аппарата в виде предметного каталога, картотеки, библиографического указателя, элект­ронного каталога и др.

Словарь предметных рубрик представляет собой единый алфавитный перечень синонимов, предметных рубрик (простых и сложных) с установ­ленными между ними парадигматическими отношениями, выраженными ссылочным аппаратом. Рубрики располагаются в алфавите заголовков, при расстановке которых учитывается алфавит каждого слова. За каждым заголовком в алфавитном порядке располагаются подзаголовки.


Поделиться с друзьями:

mylektsii.su - Мои Лекции - 2015-2024 год. (0.01 сек.)Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав Пожаловаться на материал