Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Глоссарий 4 страница
Ключевое поле — поле в структуре записи. Поле определяют как ключевое (или индексированное) для убыстрения или упрощения операций поиска и/или для модификации операций обработки данных. Ключевое слово — предметное слово, выбираемое из некоторого текста (документа) и используемое для координатного индексирования этого текста (документа). Код — система представления информации в виде данных, состоящая из набора условных знаков и правил присвоения им значений. Код ASCII (от англ. American Standard Code for Information Interchange — Американский стандартный код для обмена информацией) — стандарт кодирования символов латинского алфавита, цифр и вспомогательных символов или действий в виде однобайтового двоичного кода (1 байт = 8 бит). Первоначально стандарт определял только 128 символов, используя 7 битов (от 0 до 127). Использование всех восьми битов позволяет кодировать еще 128 символов. В этом случае говорят о расширенном ASCII-коде. Дополнительные символы могут быть любыми, им отводятся коды от 128 до 255. Символы кириллицы кодируются именно в этой части ASCII-кода. Код Unicode — стандарт для представления символов с использованием 16-разрядных кодов (2 байта). Допускает 65 536 символов. Стандарт должен в перспективе заменить ASCII, так как удобнее пользоваться одним кодом для разных языков, чем менять перекодировочные таблицы в ASCII-коде. Кодек (от англ. Codec — COmpress-DECompress — сжимать — восстанавливать) — аппаратно-программный комплекс, обеспечивающий работу персонального компьютера с видеоинформацией. Кодек позволяет добиваться качества работы видеомагнитофона за счет использования аппаратных и программных методов сжатия данных. Кодирование (coding) — установление согласованного (узаконенного) соответствия между набором символов и сигналами или битовыми комбинациями, представляющими каждый символ для передачи, хранения или обработки данных. КОИ (ГОСТ 19768—74) — распространенная в РФ кодировка символьной информации на базе кода ASCII с расширением его до 256 символов: используется в ряде систем типа UNIX; в части кириллицы эта кодировка не отсортирована по алфавиту и, следовательно, не позволяет использовать большинство зарубежных программ без соответствующих модификаций. Коммуникативные (обменные) форматы данных — соглашения о представлении агрегатов информации при передаче. Композитное видео (composite video) — видеосигналы, в которых сигналы яркости и цвета передаются вместе (смешиваются). Для домашних видеоустройств обычно используются сигналы форматов NTSC, PAL и SECAM. Находящиеся в цветной полосе несущий сигнал k Y (сигнал яркости) и сигнал цвета накладываются друг на друга, образуя результирующий сигнал. Компонентное видео (component video) — видеосигналы, в которых для улучшения качества передачи изображений сигналы яркости и цветности передаются раздельно. В телевидении высокой четкости (HDTV) это относится к изображениям, которые состоят из трех независимых сигналов — Y (сигнал яркости) и РЬ и Рг (цветоразностные сигналы). Контекстный поиск — разновидность операции поиска определенного набора символов, в ходе которой пользователь может указать, что просматривать нужно только некоторые файлы (выбранные по какому-то признаку). Контроллер (от англ. control — управлять) — устройство, которое связывает периферийное оборудование или каналы связи с центральным процессором, освобождая процессор от непосредственного управления функционированием данного оборудования. Контроллер выполняет интерпретацию команд процессора для отдельных устройств. Контрастность — параметр, показывающий, насколько самый темный участок изображения отличается от самого светлого. Влияет на качество распознавания. Курсор — светящийся участок на экране дисплея, указывающий позицию, на которой будет отображаться следующий вводимый с клавиатуры знак. Лемматизация — нахождение начальной формы слова по любой его словоформе. Например, дано слово «погоняемый» — найдено слово «погонять». Лемматизация реализована в ABBYY Retrieval & Morphology Engine, что позволяет этой системе значительно эффективнее проводить полнотекстовую индексацию документов, в том числе и многоязычных. Логическая структура БД — определение БД на физически независимом уровне. Логическая структура документа — в ODA предназначена для представления произвольных иерархических видов организации информации. Например, рубрикация документа, включение в текст таблиц и рисунков. Логический файл — файл в представлении прикладной задачи, состоящий из логических записей, структура которых может отличаться от структуры физических записей, представляющих информацию в памяти. Локальная вычислительная сеть (ЛВС) — коммуникационная система, поддерживающая в пределах одного здания или некоторой ограниченной территории один или несколько высокоскоростных каналов передачи цифровой информации, предоставляемых подключаемым устройствам для кратковременного монопольного использования. Манипулятор (от лат. manus — рука) — устройство, позволяющее управлять состоянием компьютера, в том числе и вводить данные с помощью рук. К манипуляторам относятся: джойстик, мышь, трекбол, сенсорная панель, перо, трекпойнт, J-клавиша. Массив дисков RAID (от англ. Redundant Arrays of Independent/ Inexpensive Disks — массив независимых дисков с избыточностью) — набор НЖМД, конструктивно объединенных в один блок с общим контроллером. Как правило, используется в серверах для обеспечения надежности за счет дублирования данных. Матричный принтер — принтер, у которого печатающий узел представляет собой металлическую пластину с отверстиями (матрицу), в которых свободно двигаются штырьки (иголочки). Штырьки, управляемые магнитом, бьют по красящей ленте (такой же, как у пишущей машинки), и на бумаге точками создается символ. Мегабайт (Мбайт) — единица измерения количества данных или объема памяти, равная 106= 1000 000 байт. Альтернативой является предложенная IEC единица MiB (Mibibyte) — 1024 Kibibyte. Расхождение составляет более 4, 8 %. Метаданные — информация, которая описывает другие данные с помощью таких атрибутов, как их структура, ассоциации, типы и диапазоны. Методы поиска — совокупность моделей и алгоритмов реализации отдельных технологических этапов, таких, как построение поискового образа запроса, отбор документов (сопоставление поисковых образов запросов и документов), расширение и реформулирование запроса, локализация и оценка выдачи. Механизмы поиска — реализованные в системе модели и алгоритмы процесса формирования выдачи документов в ответ на поисковый запрос. Микросекунда (мс) — 10-б с, 1000 наносекунд (не). Многоуровневый анализ документа (MDA) — разновидность анализа документа. При многоуровневом анализе OCR-система последовательно делит документ на блоки разного вида — текстовые, табличные, графические. Затем каждый из блоков также разделяется на составные части, те, в свою очередь, тоже подвергаются подобной обработке. В конце концов, система «добирается» до нижнего уровня — уровня отдельных символов и их составных частей. После распознавания символов начинается последовательная «сборка» электронного документа, результатом которой становится редактируемая копия, полностью соответствующая оригиналу. ABBYY FineReader реализует одну из разновидностей MDA, причем в процессе анализа система действует в соответствии с принципами IPA. На каждом уровне документа ABBYY FineReader использует информацию с других иерархических уровней, что позволяет достичь высочайшей точности распознавания. Модель данных — базовый инструментарий, обеспечивающий на формальном абстрактном уровне конкретные способы представления объектов и связей. Модель документа — понятие, охватывающее аспекты создания, преобразования, хранения, поиска, передачи и отображения документов. Морфологический поиск — поиск с учетом морфологии (всех возможных форм слова). Например, в строке поиска введено «хрюкать» — в результатах поиска присутствуют «хрюкающий», «хрюкало» и другие производные от заданного слова. Морфологический поиск реализован в системе электронных словарей ABBYY Lingvo. Мультимедиа — собирательное понятие для различных компьютерных технологий, при которых используется несколько информационных сред, таких, как графика, текст, видео, фотография, движущиеся образы (анимация), звуковые эффекты, высококачественное звуковое сопровождение. Мультимедиа-компьютер — это компьютер, снабженный аппаратными и программными средствами, реализующими технологию мультимедиа. Мэйнфрейм — компьютер высокой мощности, разработанный для решения наиболее интенсивных вычислительных задач. Обычно используется одновременно многими пользователями. Навигатор (обозреватель, browser) — программа навигации и просмотра, размещающаяся на рабочем месте пользователя, клиентская программа в сети Internet. Навигация — целенаправленная, определяемая стратегией последовательность использования методов, средств и технологий конкретной АИПС для получения и оценки результата поиска. Накопитель — устройство для записи /чтения данных на/с опреде-ленный(ого) носитель(я). Накопители относятся к внешним запоминающим устройствам. Различают накопители на дисках (МД, CD), лентах (МЛ), картах. Различают также накопители: со съемными носителями (в этом случае носитель данных можно заменить, например, гибкие магнитные диски, магнитные ленты); с постоянными носителями (в этом случае носитель встроен в накопитель и его нельзя сменить, например, жесткий магнитный диск). Независимость данных логическая (физическая) — свойство системы, обеспечивающее возможность изменять логическую (физическую) структуры данных без изменения физической (логической). Носители информации (данных) — средства регистрации, хранения, передачи информации (данных). Операционная система (ОС) — общее название программ и программных комплексов, расширяющих функциональные возможности аппаратуры вычислительных машин, повышающих эффективность использования вычислительных средств и облегчающих взаимодействие пользователя с машиной. Открытая система — 1) система, имеющая возможность расширения за счет средств среды, в которой она функционирует; 2) система, независимая от изготовителей ИС, удовлетворяющая требованиям ряда международных стандартов. Отношение ( relation) — агрегат данных, хранящийся в одной из таблиц (строка таблицы) табличной, реляционной БД или создаваемый виртуально в процессе выполнения операции над базой данных при выполнении запросов к данным. Парадигма — совокупность всех словоформ данного слова. Если дано некое существительное (например, «котенок»), его парадигму составят слова, образуемые при изменении по падежам и числам («котенок», «котята», «котенка», «котят» и т. д.). В том случае, когда исходное существительное не изменяется по числам (например, «сумерки»), парадигма будет состоять только из падежных форм («сумерки», «сумерек» и т. д.). В электронном словаре ABBYY Lingvo предусмотрены функции «Показать парадигму слова» и «Добавить парадигму слова». Поисковый образ документа (ПОД) — описание документа, выраженное средствами ИПЯ и характеризующее основное смысловое содержание или какие-либо другие признаки этого документа, необходимые для его поиска по запросу. Полнотекстовые документы (записи) — полный (или почти) исходный текст журнальной статьи или другого документа. Примитив (от англ. primitive — первичный, простой, основной) — один из простейших элементов, образующих векторные изображения. Базовыми примитивами являются такие геометрические объекты как точки и отрезки. Отрезок может быть как прямым, так и кривым. Прямые отрезки задаются координатами опорных точек, а для кривых отрезков задаются дополнительные параметры, которые определяют степень и форму кривизны. Иногда к примитивам относят и другие фигуры — квадрат, окружность, прямоугольник, эллипс и т. д. Прогрессивная развертка (progressive scanning) — метод сканирования изображения, при котором данные изображения сканируются последовательно сверху вниз, а не через строку, как это происходит при чересстрочной развертке. Протокол — совокупность определений (соглашений, правил), регламентирующих формат и процедуры обмена информацией между двумя или несколькими независимыми устройствами или процессами, т. е. описание того, как программы, компьютеры или иные устройства должны действовать, когда они взаимодействуют друг с другом. Протокольные определения охватывают диапазон от порядка следования битов по проводу до формата сообщения электронной почты. Стандартные протоколы позволяют компьютерам различных производителей связываться друг с другом. Компьютеры могут использовать совершенно различное программное обеспечение, лишь бы они поддерживали соглашение о том, как посылать и понимать принимаемые данные. Протокол коммуникации — согласованный набор конкретных правил обмена информацией между разными устройствами передачи данных. Имеются протоколы для скорости передачи, форматов данных, контроля ошибок и др. Профиль документа — в ODA набор свойств документа, которые относятся к документу в целом. Рабочая станция — комбинация устройств ввода-вывода и вычислительных аппаратных средств, используемых отдельным пользователем. Однако чаще так называют мощный автономный компьютер для выполнения прикладных программ, требующих высокоэффективных, обычно дорогих средств обработки информации со значительными вычислительными или графическими возможностями. В последнее время так называют еще персональные компьютеры или терминалы вычислительной сети. Разметка — дополнительная информация, включаемая в документ и выполняющая функции выделения логических элементов данного документа и задания процедур обработки выделенных элементов. Разрешение дисплея (проектора) — физическое количество элементов (пикселей, pixel — picture element) в столбцах и строках изображения. Существуют стандартные типы разрешений, например VGA (640x480), SVGA (800x600), XGA (1024x768), SXGA (1200 x 1024), UXGA (1600 x 1200), QXGA (2048 x 1536). Разрешение оптическое — параметр сканера, характеризующий предельно достижимую детальность считывания информации с оригинала. Один из основных параметров; указывается в точках на дюйм (dots per inch, dpi). Распознавание документа — построение редактируемой электронной копии бумажного документа. Как правило, проводится в два этапа; сначала с помощью сканера получают электронную «фотографию» страницы, затем обрабатывают ее специальной OCR-программой. Результатом работы OCR-программы становится точная электронная копия документа, которую можно редактировать, сохранять в различных форматах, распечатывать и т. д. Распределенная база данных — совокупность баз данных, которые обрабатываются и управляются по отдельности, а также могут разделять информацию. Редактор — программа, обычно используемая для создания текстовых файлов или внесения изменений в существующий текстовый файл. Редактор обладает некоторыми возможностями текстового процессора, но уступает ему в мощности. Релевантность — свойство некоторой информации (документ, факт и пр.) удовлетворять информационную потребность пользователя АИС (relevant — относящийся к делу). Реляционная алгебра — алгебра (язык), включающая набор операций для манипулирования отношениями. Реляционная база данных — база данных, состоящая из отношений. Здесь вся информация, доступная пользователю, организована в виде таблиц, обычно имеющих уникальные имена, состоящих из строк и столбцов, на пересечении которых содержатся значения данных, а операции над данными сводятся к операциям над этими таблицами. Сетевая модель данных (модель CODASYL). Предложенная CODASYL модификация иерархической модели, в которой одна запись могла участвовать в нескольких отношениях предок/потомок. Сетевой сервер — сетевой (хост) компьютер, выполняющий системные функции отработки сетевых протоколов для связанных с сервером других сетевых компьютеров, обычно рабочих станций. Сетевой сервер обычно выполняет одну или несколько обслуживающих функций, таких, как файловый сервер, FTP-сервер, Web-сервер и др. Система управления базами данных (СУБД) — совокупность языковых и программных средств, предназначенных для создания, ведения и совместного использования БД многими пользователями. Сканер — устройство для ввода в компьютер документов — текстов, чертежей, графиков, рисунков, фотографий. Создает оцифрованное изображение документа и помещает его в память компьютера. Словарь данных — исчерпывающий набор таблиц БД или файлов, представляющий собой каталог всех описаний данных (имен, типов). Может содержать также информацию о пользователях, привилегиях и т. д., доступную только администратору базы данных. Является центральным источником информации для СУБД, АБД и всех пользователей. Стратегия поиска — общий план (концепция, предпочтение, предрасположенность, установка) поведения пользователя для выражения и удовлетворения информационной потребности, обусловленный характером цели и типом поиска, архитектурой БД, а также методами и средствами поиска конкретной АИПС. Структура данных — атрибутивная форма представления свойств и связей предметной области, ориентированная на выражение описания данных средствами формальных языков, и таким образом учитывающая возможности и ограничения конкретных средств с целью сведения описаний к стандартным типам и регулярным связям. Структура данных с точки зрения программирования — это способ отображения значений в памяти — размер области и порядок ее выделения (который и определит характер процедуры адресации-выборки). Таблица — основная единица информации в системе управления реляционной базой данных. Состоит из одной или более единиц информации (строк), каждая из которых содержит значения некоторого вида (столбцы). Тег (таг, tag) — признак, метка. Часть элемента данных (обычно один или несколько разрядов), определяющих его тип. Тезаурус — семантическая сеть, в которой понятия связаны регулярными и устойчивыми семантическими отношениями — иерархическими (например, род—вид, целое—часть), ассоциативными, а также отношениями эквивалентности. Текстовый слой (PDF-документа) — часть документа, сохраненного в формате PDF, которая содержит часть текста или даже весь текст документа. ABBYY FineReader способен «читать» текстовые слои PDF, что резко повышает качество распознавания подобных документов. Терабайт (Тбайт) — единица количества данных, равная 1000 Гбайт. В качестве альтернативной IEC предложила в 1998 г. TiB (TibiByte) = = 1024 GiB (GibiByte). Терминал (terminal) — терминальное устройство, сочетание устройств ввода и вывода данных в ЭВМ. Технологии поисковые — унифицированные (оптимизированные в рамках конкретной АИПС) последовательности эффективного использования в процессе взаимодействия пользователя с системой отдельных средств поиска для устойчивого получения конечного и, возможно, промежуточных результатов. Типы данных — совокупность соглашений о программно-аппаратурной форме представления и обработки, а также ввода, контроля и вывода элементарных данных; к типам данных прежде всего, относятся классические типы — целое число, действительное число, булевское значение. Топология БД — схема распределения компонент базы данных по физическим носителям, в том числе различным узлам вычислительной сети. Точность распознавания — основной параметр, характеризующий качество работы OCR-программы. Численно равен отношению количества правильно распознанных символов к общему количеству символов в документе; выражается в процентах. Транзакция — последовательность операций над данными базы, переводящая БД из одного непротиворечивого состояния в другое, которое может быть представлено как одно «событие». Триггер (включения, запросы, удаления и пр.) — группа команд языка запросов или программирования (в среде СУБД), которая испол няется при наступлении определенного условия/события (конец файла, считывание записи, изменение значения поля и пр.). Уровни представления данных — концептуальный, внутренний и внешний. Внутренний уровень — глобальное представление БД, определяет необходимые условия в первую очередь для организации хранения данных на внешних запоминающих устройствах. Представление на концептуальном уровне представляет собой обобщенный взгляд на данные с позиций предметной области. Внешний уровень представляет потребности пользователей и прикладных программ. Утилита СУБД — программа, которая запускается в работу командой операционной системы главного компьютера и выполняет какую-то функцию над базой данных (обычно на физическом уровне данных), либо команда (функция ядра СУБД, доступная только АБД), реализующая аналогичную операцию. Файл (file) — именованный организованный набор данных определенного типа и назначения, находящийся под управлением операционной системы. Это однородная по своему составу и назначению совокупность информации, хранящаяся на носителе информации и имеющая имя. Файл ASCII (ASCII-File) — файл, содержащий символьную информацию, представленную только ASCII-кодами «левой части» (первые 128 символов кодовой таблицы, или код Latin-1) и символьную разметку. Файл базы данных — физический файл ОС, используемый для размещения БД. Управление данными в таком файле производится совместно ОС и СУБД. Крайние варианты размещения БД по файлам — 1) все данные БД — в одном файле (файл DATA, СУБД ADABAS); 2) каждая таблица БД — в отдельном файле ОС (DBF-файлы, системы FoxPro). Промежуточный вариант размещения, например ORACLE — база данных состоит из одного или более табличных пространств, которые в свою очередь состоят из одного или более файлов базы данных. Файловая система (file management system) — динамически поддерживаемая информационная структура на устройствах прямого доступа (диски), обеспечивающая функцию управления данными ОС путем связи «имя—адрес». Формат — способ расположения и представления данных на носителе информации. Форматы файлов — представление информации на уровне взаимодействия операционной системы с прикладными программами. Цветоразностный сигнал (color differential signal) — передача сигналов по трем кабелям — Red-Bright (ярко-красный, R-Y), Bright (яркий, Y) и Blue-Bright (ярко-синий, B-Y). Это позволяет более четко проецировать композитные сигналы (RGB и сигналы их яркости передаются по одному кабелю). Целостность — свойство БД, при котором она удовлетворяет некоторым определенным ограничениям значений данных и сохраняет это свойство при всех модификациях (замена, добавление или удаление) данных. Централизованное управление данными, осуществляемое средствами, входящими в состав СУБД, обеспечивает: сокращение избыточности в хранимых данных; устранение несовместимости в хранимых данных многими приложениями; совместное использование хранимых данных, что достигается необходимой интеграцией данных; целостность данных, которая достигается с помощью процедур, предотвращающих внесение в БД неверных данных и ее восстановление после отказов системы; лучший учет противоречивых требований к использованию БД в различных приложениях, с соответствующим структурированием БД. Чересстрочная развертка (interlaced scanning) — метод сканирования, при котором данные изображения разделяются на горизонтальные линии, которые воспроизводятся последовательно слева направо и сверху вниз по экрану. Четные и нечетные строки воспроизводятся поочередно. Численные данные — записи, содержат таблицы статистических, финансовых и других сведений. Шлюз — устройство для соединения разнотипных сетей, работающих по разным протоколам связи, в целях обеспечения передачи информации из одной сети в другую. Экспорт (выгрузка, upload) — утилита (функция, команда) СУБД, служащая для вывода информации из БД (обычно одной из таблиц) в файл(ы) операционной системы, организованные в некотором коммуникативном формате. Электронная почта — передача сообщений по компьютерной сети. Электронная почта представляет собой вариант почтовой службы, который предназначен для взаимодействия компьютеров (или терминалов). Дает пользователю возможность отправлять и принимать сообщения и (в некоторых случаях) изображения или речевые послания, предназначенные как индивидуальным адресатам, так и группам пользователей (конференции). Электронная таблица — прикладная программа, используемая обычно для составления бюджета, прогнозирования и других задач, связанных с финансами. Документ электронной таблицы состоит из ячеек, сформированных по строкам и колонкам. Каждая ячейка может содержать текст, числовые данные или формулу, использующую значения из других ячеек. Для облегчения расчетов в электронной таблице имеются встроенные функции стандартных вычислений. Элемент данных (элементарное данное) — неделимое именованное данное, характеризующееся типом (напр., символьный, числовой, логический и пр.), длиной (в байтах) и обычно рассчитанное на размещение в одном машинном слове соответствующей разрядности. Это минимальная адресуемая (идентифицируемая) часть памяти — единица данных, на которую можно ссылаться при обращении к данным. Ранние языки программирования (Алгол, Фортран) были рассчитаны на обработку элементарных данных или их простейших агрегатов — массивов (матрицы, векторы). С появлением ЯП Кобол появляется возможность представления и обработки агрегатов разнотипных данных (записей). В реляционных БД элементарное данное есть элемент таблицы. Иногда используется термин «поле записи» в качестве синонима. Элемент текста — часть текста, ограниченная начальной и конечной метками (при использовании SGML). Язык манипулирования данными (НМД). ЯМД обычно включает в себя средства запросов к базе данных и поддержания базы данных (добавление, удаление, обновление данных, создание и уничтожение БД, изменение определений БД, обеспечение запросов к справочнику БД). Язык описания данных (ЯОД) — средство внутрисистемного определения данных, представляющего обобщение внешних взглядов. Описание представляет собой модель данных и их отношений, т. е. структур, из которых образуется БД. Язык структурированных запросов (SQL). Основной интерфейс пользователя и АБД для запоминания и поиска информации в базе данных для ряда СУБД (Oracle, MS SQL Server и пр.). Включает в себя в качестве подмножеств следующие категории операторов: 1) язык описания данных (ЯОД). Эти операторы определяют (create) или удаляют (drop) объекты базы данных. Примеры: create table, create index, DROP TABLE, rename table; 2) язык управления данными (ЯУД). Эти операторы управляют доступом к данным и к базе данных. Примеры: GRANT CONNECT, GRANT SELECT, UPDATE ON, REVOKE DBA; 3) ЯЗЫК манипулирования данными (ЯМД). Эти операторы запрашивают и обновляют реальные данные. Примеры: select, insert, delete, update.
|