![]() Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Целостность реляционной БД
Важнейшим свойством базы данных является её целостность, которая понимается как правильность данных в любой момент времени. Эта цель может быть достигнута лишь в определенных пределах: СУБД не может контролировать правильность каждого отдельного значения, вводимого в базу данных (хотя каждое значение можно проверить на правдоподобность). Например, нельзя обнаружить, что вводимое значение 5 (представляющее номер дня недели) в действительности должно быть равно 3. С другой стороны, значение 9 явно будет ошибочным и СУБД должна его отвергнуть. Однако для этого ей следует сообщить, что номера дней недели должны принадлежать набору (1, 2, 3, 4, 5, 6, 7). Для реляционной БД выделяют три группы правил целостности: 1. Целостность по сущностям (не допускается, чтобы какой-либо атрибут, участвующий в первичном ключе, принимал неопределенное значение). 2. Целостность по ссылкам (значение внешнего ключа должно либо быть равным значению первичного ключа цели, либо быть полностью неопределенным, т.е. каждое значение атрибута, участвующего во внешнем ключе должно быть неопределенным). 3. Целостность, определяемая пользователем. Для любой конкретной базы данных существует ряд дополнительных специфических правил, которые относятся к ней одной и определяются разработчиком. Чаще всего контролируются: уникальность тех или иных атрибутов; диапазон значений (экзаменационная оценка от 2 до 5); принадлежность набору значений (пол " М" или " Ж"). Для того чтобы была обеспечена целостность по ссылкам, для каждого внешнего ключа необходимо решить три вопроса: 1. Может ли данный внешний ключ принимать неопределенные значения (NULL-значения)? Иначе говоря, может ли существовать некоторый экземпляр сущности данного типа, для которого неизвестна целевая сущность, указываемая внешним ключом? В рассмотренном выше примере такая ситуация могла бы иметь смысл для внешнего ключа режиссер из таблицы фильмы (т.е. в таблицу занесен фильм, режиссер которого еще не занесен в базу). Но рассмотрим еще две таблицы, одна из которых содержит сведения обо всех клиентах видеопрокатного салона, а в другой хранится информация о взятых напрокат фильмах. Очевидно, что внешний ключ клиент из таблицы заказ не может принимать неопределенное значение. В противном случае фильм могут не вернуть вовремя, а установить клиента, взявшего фильм, окажется невозможно. 2. Что должно случиться при попытке удаления целевой сущности, на которую ссылается внешний ключ? Например, при удалении клиента (может быть, он умер), который имеет на руках, по крайней мере, один фильм. Существует три возможности: — каскадируется — операция удаления " каскадируется" с тем, чтобы удалить также заказы этого клиента; — ограничивается — удаляются лишь те клиенты, у которых нет на руках фильмов. Иначе операция удаления отвергается (для рассматриваемого внешнего ключа это наиболее логичный вариант); — устанавливается — для всех заказов удаляемого клиента внешний ключ устанавливается в неопределенное значение, а затем этот клиент удаляется. Такая возможность, конечно, неприменима, если данный внешний ключ не должен содержать NULL-значений (как в данном случае). 3. Что должно происходить при попытке обновления первичного ключа целевой сущности, на которую ссылается некоторый внешний ключ? Например, может быть предпринята попытка обновить номер такого клиента, который имеет на руках, по крайней мере, один фильм. Имеются те же три возможности, как и при удалении: — каскадируется — операция удаления " каскадируется" с тем, чтобы обновить также заказы этого клиента (этот вариант подходит для абсолютного большинства внешних ключей); — ограничивается — обновляются первичные ключи лишь тех клиентов, которые еще не осуществляли поставок, иначе операция обновления отвергается; — устанавливается — для всех заказов такого клиента внешний ключ устанавливается в NULL-значение, а затем обновляется первичный ключ клиента. Таким образом, для каждого внешнего ключа в проекте проектировщик БД должен указать не только поле или комбинацию полей, составляющих этот внешний ключ, и целевую таблицу, которая идентифицируется этим ключом, но также и ответы на перечисленные выше вопросы.
СУБД Access входит в состав Microsoft Office и предназначена для работы с реляционными БД, т.е. представленными в табличной форме. В отличие от табличного процессора Excel, Access имеет более развитые средства для отбора данных из взаимосвязанных таблиц, формирования новых таблиц и отчетов. Характерной особенностью баз данных, созданных в Access, является хранение создаваемых таблиц и средств для обработки данных в одном файле, имеющем расширение.mdb. Достоинством Access является возможность создания СУБД (т.е. программы управления) без программирования. Однако, для сложных СУБД применение программирования на встроенном языке Visual Basic for Applications (VBA) позволяет повысить эффективность системы управления. Основным элементом БД является таблица. Столбцы таблицы БД называются полями, а строки — записями. Первым этапом создания таблицы БД является задание ее структуры, т.е. определение количества и типа полей. Вторым этапом является ввод и редактирование записей в таблицу. БД считается созданной, даже если она пустая. Поля таблицы просто определяют ее структуру и групповые свойства данных, записываемых в ячейках. Рассмотрим основные свойства полей БД. 1. Имя поля — определяет как надо обращаться к данным поля (имена используются как заголовки таблиц). 2. Тип поля — определяет тип данных, которые могут содержаться в данном поле (текстовые, числовые, дата, Memo, денежный, счетчик и др.). 3. Размер поля — определяет предельную длину данных, которые могут размещаться в поле. 4. Формат поля — способ форматирования данных в ячейках. Запрос – требование на поиск, изменение или обработку данных в БД.Запросы можно использовать в качестве источников записей для форм, отчетов истраниц доступа к данным. Запрос в Access является объектом, которыйсохраняется в файле БД и может многократно исполняться.В Access существует несколько типов запросов: · запросы на выборку; · запросы с параметрами; · перекрестные запросы; · запросы на изменение (запросы на создание таблицы, удаление, · обновление, добавление записей); · запросы SQL (запросы на объединение, запросы к серверу, управляющиезапросы, подчиненные запросы). Запросы на выборку используются для выбора данных из таблиц по заданномупользователем условию. Результатом запроса является динамическая таблица, называемая также выборкой. Выборка формируется каждый раз заново на основереальных таблиц базы данных. Простой запрос – запрос на выборку, для формирования которогоиспользуется, как правило, одна базовая таблица. Простые запросы используютсядля элементарной обработки данных. Сложный запрос – запрос, который позволяет соединять воедино данные изразных таблиц и запросов, а также из разных баз данных. Таблицы (запросы) втаком запросе могут связываться с использованием внутренних, внешних, рекурсивных соединений и соединений по отношению. С помощью таких запросовможно создавать, обновлять, удалять таблицы, получать ответы на самыеразнообразные вопросы. Внутренние соединения чаще всего применяются для создания запросов навыборку. Если таблицы связаны соотношением “один-ко-многим”, объединения основываются на значении поля первичного ключа одной таблицы изначениях поля внешнего ключа другой таблицы. В результирующее множествозапроса попадают все записи из главной таблицы (таблица “один”), для которыхимеются соответствующие записи в подчиненной таблице (таблице “многие”).Внутренние соединения отображают в динамическом наборе соответствующие записив объединенных полях таблиц как одну запись. Подобного рода соединения междутаблицами создаются автоматически, если в таблицах имеются поля с одинаковымиименами и согласованными типами, причем одно из полей является ключевым либоэто соединение явно задано в окне Схема данных. “Согласованные типы” вбольшинстве случаев означают одинаковые типы. Исключением является поле типа Счетчик, которое может иметь размер длинного целого или кодарепликации и может связываться с числовыми полями соответствующего размера.Для обозначения внутренних соединений в Access используютсязарезервированные слова INNER JOIN. Для создания запроса, объединяющего все записи из одной таблицы и только тезаписи из второй таблицы, в которых связанные поля совпадают, используют внешнее соединение. В Access применяются правые (RIGHT JOIN) илевые (LEFT JOIN) внешние соединения. Запрос, основанный на таблицах слевым внешним соединением, отображает все записи главной таблицы (таблица“один”) с уникальным ключевым полем, независимо от того, имеются ли в связанныхполях подчиненной таблицы (таблице “многие”) совпадающие значения. Запрос, основанный на таблицах с правым внешним соединением, отображает все записитаблицы многие, независимо от того, существуют ли в связанных с нимиполях главной таблицы совпадающие значения. Записи в таблице со стороны многие, не имеющие связанных с ними записей в таблице один, обычно, но не обязательно, относятся к зависшим записям. Поэтому внешние соединенияиспользуются в системе поддержки БД для удаления из таблиц “зависших” записей идублирования данных в результате создания новых таблиц, содержащих записи суникальными значениями. Рекурсивные соединения (самообъединения) связывают данные в одной и тойже таблице. В Access самообъединения создаются в результате включения взапрос дубликата таблицы (Access назначает дубликату псевдоним), споследующим объединением между полями копий. Соединения по отношению (тэта-соединения) связывают данные с помощьюоператоров сравнения, отличных от оператора равенства (=). Запрос на изменение – запрос, с помощью которого создают новые таблицыбазы данных из таблиц запросов или вносят в таблицы значительные изменения.Такие запросы позволяют добавлять в таблицу новые записи или удалять их, иливносить изменения в записи с помощью выражений, встроенных в конструкциюзапроса. Перекрестный запрос – запрос, по требованию которого выполняютсяитоговые вычисления из одной или нескольких таблиц, и результаты которогопредставляются в виде сводной кросс-таблицы. Строки и столбцы кросс-таблицыименованные. Примеры перекрестных запросов: определить среднюю почасовуюоплату, сгруппированную по виду работ и названию области; определить итоговыесуммы продаж по месяцам для каждого типа изделий. Запросы с параметрами. Для того, чтобы не формировать множествоаналогичных по смыслу и структуре запросов, но с различными значениями вусловиях отбора, создаются запросы с параметрами. Параметрический запроспозволяет создать один-единственный запрос и ввести условие отбора посредствомдиалогового окна, который Access отображает при каждом запуске этогозапроса. Запросы с параметрами фактически не являются отдельным типомзапросов, поскольку функции запросов с параметрами можно добавить к запросамдругих типов.
Базой данных (БД) называется организованная в соответствии с определенными правилами и поддерживаемая в памяти компьютера совокупность сведений об объектах, процессах, событиях или явлениях, относящихся к некоторой предметной области, теме или задаче. Она организована таким образом, чтобы обеспечить информационные потребности пользователей, а также удобное хранение этой совокупности данных, как в целом, так и любой ее части. Реляционная база данных представляет собой множество взаимосвязанных таблиц, каждая из которых содержит информацию об объектах определенного вида. Каждая строка таблицы содержит данные об одном объекте (например, автомобиле, компьютере, клиенте), а столбцы таблицы содержат различные характеристики этих объектов - атрибуты (например, номер двигателя, марка процессора, телефоны фирм или клиентов). Строки таблицы называются записями. Все записи таблицы имеют одинаковую структуру - они состоят из полей (элементов данных), в которых хранятся атрибуты объекта (рис. 1). Каждое поле записи содержит одну характеристику объекта и представляет собой заданный тип данных (например, текстовая строка, число, дата). Для идентификации записей используется первичный ключ. Первичным ключом называется набор полей таблицы, комбинация значений которых однозначно определяет каждую запись в таблице. Для работы с данными используются системы управления базами данных (СУБД). Основные функции СУБД: - определение данных (описание структуры баз данных); - обработка данных; - управление данными. Разработка структуры БД - важнейшая задача, решаемая при проектировании БД. Структура БД (набор, форма и связи ее таблиц) - это одно из основных проектных решений при создании приложений с использованием БД. Созданная разработчиком структура БД описывается на языке определения данных СУБД. Любая СУБД позволяет выполнять следующие операции с данными: - добавление записей в таблицы; - удаление записей из таблицы; - обновление значений некоторых полей в одной или нескольких записях в таблицах БД; - поиск одной или нескольких записей, удовлетворяющих заданному условию. Для выполнения этих операций применяется механизм запросов. Результатом выполнения запросов является либо отобранное по определенным критериям множество записей, либо изменения в таблицах. Запросы к базе формируются на специально созданном для этого языке, который так и называется «язык структурированных запросов» (SQL - Structured Query Language). Под управлением данными обычно понимают защиту данных от несанкционированного доступа, поддержку многопользовательского режима работы с данными и обеспечение целостности и согласованности данных.
29. Информационный поиск. ИПС, их типы, использование. Лингвистические основы разработки и функционирования ИПС. Резкое возрастание объемов научно-технической информации в 50-60 гг. XX столетия привело к развитию информационных технологий и созданию автоматизированных информационно-поисковых систем — ИПС или АИПС. Структура и организация информационно-поисковых систем определялись следующей проблемной ситуацией: имеется множество документов; имеется коммуникативное задание, информационная потребность; требуется найти во множестве документов тексты, соответствующие запросу. Понятия запроса и документа стоят в центре информационной деятельности. В процессе поиска информации происходит сравнение содержания запроса и документа. Степень соответствия документа запросу задается категорией релевантности. Каждый документ в ИПС получает определенный информационный код — кодируется с помощью информационно-поискового языка. Этот код называется поисковым образом документа (ПОД). Аналогичное выражение на информационно-поисковом языке — поисковое предписание (ПП) — сопоставляется запросу. Соответствие поискового образа документа поисковому предписанию называется формальной релевантностью. Действительное соответствие содержания выданного документа содержанию запроса называется смысловой релевантностью. Результаты поиска могут характеризоваться с двух точек зрения: с т.з. точности и с т.з. полноты. Полнота поиска определяется соотношением между количеством выданных релевантных документов к общему числу релевантных документов, имеющихся в информационной системе. Точность поиска задается отношением между количеством выданных релевантных документов к общему количеству документов в выдаче. В идеальном случае количественное выражение полного и точного поиска равно единице. Типы информационно-поисковых систем. По типу хранимой и обрабатываемой информации и особенностям поиска ИПС — документальные и фактографические. В документальных хранятся тексты документов или их описания (рефераты и пр.). Фактографические имеют дело с описанием конкретных фактов, причем не обязательно в текстовой форме. Это могут быть таблицы, формулы и пр. Существуют и смешанные ИПС, включающие как документы, так и фактографическую информацию. В настоящее время фактографические ИПС строятся на основе технологий баз данных (БД). С теоретической точки зрения база данных представляет собой совокупность признаков описываемых объектов с указанием отношений между ними. В качестве описываемого объекта может выступать, напр., книга, номер и пр. Объект в базе данных характеризуется по признакам или атрибутам. Так, книга может иметь атрибуты: 1) автор; 2) название. Базы данных по своей структуре разделяются на иерархические, сетевые и реляционные. Наиболее распространены реляционные базы данных, которые можно представить в виде таблиц с очень большим количеством строк и столбцов. Информационно-поисковые языки. Центральное место в информационно-поисковой системе занимает информационно-поисковый язык. ИПЯ — формальный язык для описания отдельных аспектов плана содержания документов, хранящихся в ИПС, и запроса. Процедура описания документа на ИПЯ называется индексированием. В результате индексирования каждому документу приписывается его формальное описание на ИПЯ — поисковый образ документа. Аналогичным образом индексируется и запрос, которому приписывается поисковый образ запроса или поисковое предписание. Алгоритмы информационного поиска основаны на сравнении поискового предписания с поисковым образом запроса. К ИПЯ предъявляется требование достаточной разрешительной силы — способности дифференцировать важные для данной проблемной области семантические различия между документами, требование однозначности: в записи на ИПЯ недопустима полисемия и омонимия. Кроме того, ИПЯ должен иметь достаточно гибкую структуру, допускающую модификацию — прежде всего в отношении лексических средств ИПЯ. ИПЯ делятся на языки-классификации и язык и дескрипторного типа. Языки-классификации, или языки классификационного типа основываются на иерархических классификациях понятий. Наиболее известна из языков классификационного типа универсальная десятичная классификация (УДК), используемая, например, в библиотечном деле для индексирования книг. Они ограничены крупными классами (таксонами) понятий и не позволяют выйти на достаточную глубину описания документов, обеспечить точность индексирования, не позволяют характеризовать документ с различных точек зрения, что делает невозможным многоаспектное индексирование. Видом языков классификационного типа можно считать фасетные классификации. Структура языков этого типа предусматривает индексирование документа по нескольким основаниям — фасетам (англ. facet — аспект). Напр., газетные и журнальные статьи в информационном компоненте Корпуса текстов по современной российской публицистике характеризуются по параметрам источника, автора, времени публикации, темы текста, жанра текста. В автоматизированных ИПС чаще используются дескрипторные информационно-поисковые языки. Тематика документа описывается совокупностью дескрипторов. В качестве дескрипторов выступают слова, термины, обозначающие простые, достаточно элементарные категории и понятия проблемной области. В поисковый образ документа вводится столько дескрипторов, сколько различных тем затрагивается в документе. Количество дескрипторов не ограничивается, что позволяет описать документ в многомерной матрице признаков. На следующем этапе возникла технология лингвистического контроля, заключавшегося в унификации языка индексирования запросов и документов. Наиболее удачной формой унификации оказался дескрипторный словарь, в котором в эксплицитной Форме перечислялись те слова (дескрипторы), которые допускаются в индексировании. Дескрипторный словарь с указанными в нем парадигматическими отношениями получил название информационно-поискового тезауруса (ИПТ). Разработка ИПТ стоит в центре создания любой информационно-поисковой системы. Среди парадигматических отношений в тезаурусе обычно отражаются отношения «род—вид», «часть—целое», «процесс—результат», «причина—следствие». В обычном случае ИПТ состоит из двух основных частей — собственно тезауруса, в котором представлены все дескрипторы с указанием связей между ними, и комплекса указателей, позволяющих перейти от дескриптора к структуре тезауруса. Именно в этом направлении идет развитие современных информационно-поисковых систем. Лингвистическое обеспечение информационно-поисковых систем - разработка специальных информационно-поисковых языков и информационно-поисковых тезаурусов, а также других специализированных лексикографических ресурсов для обеспечения информационного поиска. В современных поисковых системах, в которых тематически значимые элементы (ключевые слова или понятия) выделяются статистическими методами, в задачи лингвистического обеспечения входит разработка лингвистических методов оптимизации выделения тематически значимых единиц в тексте. Одной из прикладных задач обработки текста является информационный поиск. Основные методы информационного поиска разрабатываются в рамках одноименной научной дисциплины. Однако большинство таких систем включают лингвистический компонент. По мере развития технологий информационного поиска состав и задачи лингвистического компонента менялись. В информационно-поисковых системах (ИПС) для поиска документов используется метод индексирования - составление " информационного" портрета документа на основе ключевых слов, т.е. выделение множества признаков, в простом случае ключевых слов (тематических элементов, терминов, термов, а также иногда связей между ними), которые отражают основную тематику текста. В ранних системах такой портрет составлялся вручную на специальном информационно-поисковом языке. Они в основном использовались для библиотечного поиска. В них использовалась процедура индексации документа: процедура приписывания документу формального описания на специальном информационно-поисковом языке (ср. процедуру приписывания единице хранения в библиотеке одного или нескольких ключевых слов - предметных рубрик). Достаточно широко в системах ИПС использовались дескрипторные информационно-поисковые языки. В качестве дескрипторов выступают слова и словосочетания, представляющие собой термины, обозначающие понятия предметной области. В задачи лингвистического обеспечения системы информационного поиска входило создание и унификация словарей некоторой предметной области, предполагающее установление соответствия между терминами, используемыми в области, и дескрипторами (элементами формального информационно-поискового языка - нормативного языкового выражения для обозначения некоторого понятия). Одни и те же понятия могут иметь разное языковое выражение (ср., например, “поваренная соль” и “хлорид натрия”). Информация о дескрипторах и возможных их языковых коррелятах (например, синонимах) отражается в специальных информационно-поисковых тезаурусах. В настоящее время выделение ключевых слов (словосочетаний) происходит автоматически на основе статистических процедур. Фактически все слова текста являются ключевыми, наиболее значимые отбираются с использованием специальной статистической процедуры - приписывания ключевому слову или выражению тематического веса. Документу при таком подходе ставится в соответствие числовой вектор, отражающий важность использования термина в каждом документе. Аналогичный вектор ставится в соответствие запросу. Релевантность некоторого документа запросу определяется расстоянием между соответствующими векторами: чем вектора ближе, тем более соответствует документ запросу пользователя. Такой метод, основываясь на частотности конкретного слова игнорирует тот факт, что в тексте присутствуют обычно синонимические и анафорические замены. Для улучшения поиска документов помимо чисто квантитативного подхода применяются дополнительные лингвистически-ориентированные технологии. Таким образом, при обоих подходах используются специальные лексикографические источники - информационно-поисковые тезаурусы.
30. Контент-анализ, его идеология, основные понятия, использование.
|