![]() Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Системы поддержки принятия решений
Понятия и определения. Современные информационные системы интел- лектуальной поддержки процессов разработки и реализации управленческих решений (Системы поддержки принятия решений – СППР) представляют собой системы, максимально приспособленные к решению задач повседневной управленческой деятельности, являются инструментом, призванным оказать помощь лицам, принимающим решения (ЛПР). С помощью СППР может про- изводится выбор решений некоторых неструктурированных и слабоструктури- рованных задач, в том числе и многокритериальных. Система Поддержки (процессов) Принятия Решений (СППР) (англ. Decision Support System, DSS) – это компьютерная автоматизированная система, целью которой является помощь лицам, принимающим решение в сложных ус- ловиях, для полного и объективного анализа предметной деятельности2. Ранние определения СППР (в начале 70-х годов прошлого века) отражали следующие три момента: 1) возможность оперировать с неструктурированными или слабоструктурированными задачами, в отличие от задач, с которыми имеет дело исследование операций; 2) интерактивные автоматизированные (то есть реализованные на базе компьютера) системы; 3) разделение данных и моделей. Последнее определение не отражает участия компьютера в создании СППР, во- просы возможности включения нормативных моделей в состав СППР и др. В настоящее время нет общепринятого определения СППР, поскольку конструкция СППР существенно зависит от вида задач, для решения которых она разрабатывается, от доступных данных, информации и знаний, а также от пользователей системы. Можно привести, тем не менее, некоторые элементы и характеристики, общепризнанные, как части СППР: СППР – это «совокупность процедур по обработке данных и суждений, помогающих руководителю в принятии решений, основанная на использовании моделей»3. СППР – это «интерактивные автоматизированные системы, помогающие лицу, принимающему решения, использовать данные и модели для решения слабо структурированных проблем»4. СППР – это «система, которая обеспечивает пользователям доступ к дан- ным и/или моделям, так что они могут принимать лучшие решения»5.
2 https://ru.wikipedia.org/ 3 Little I.D.C. Models and Managers: The Concept of a Decision Calculus // Management Science, 1970. – v. 16. – № 8. 4 Power D. J. Web-based and model-driven decision support systems: concepts and issues. Ameri- cas Conference on Information Systems, Long Beach, California, 2000. 5 Edwards J.S. Expert Systems in Management and Administration – Are they really different from De- cision Support Systems? // European Journal of Operational Research, 1992. – Vol. 61. – pp. 114-121.
Рассматривая процессы принятия решений, можно выделить информаци- онную, модельную и экспертную поддержки принимаемых решений, реализуе- мых в СППР, которые представляют собой информационные системы, предна- значенные для решения неструктурированных задач и генерирования альтерна- тивных решений (рис. 7.1).
Рис. 7.1. Место СППР среди существующих ИС
Рассматривая процессы поддержки решений в ИС, мы видим, что инфор- мационная поддержка решений основана на Информационных системах управ- ления (ИСУ) и Системах автоматизации офиса (САО). Модельная поддержка решений строится на базе СППР, а экспертная – на базе экспертных систем (рис. 7.2).
Рис. 7.2. Разновидности существующих ИС
Анализируя вышеприведенные определения, мы видим, что СППР прин- ципиально отличается от традиционных систем аналогичного назначения тем, что она ориентирована на конкретного пользователя, на его знания, опыт и ин- туицию, его систему ценностей. В основу СППР положено признание того фак- та, что процесс принятия решений носит субъективный характер. По существу
это означает, что пользователь является полностью самостоятельным и дейст- вует на основании своих собственных знаний, опыта и интуиции. Естественно, что при этом не исключено привлечение любых экспертов и консультантов по его усмотрению. Таким образом, система СППР помогает пользователю найти решения, которые именно ему представляются наилучшими, но которые без ее помощи было бы трудно, или даже невозможно отыскать из-за очень большой сложности решаемой задачи.
баз данных (Data Base – DB) и баз знаний (Data Knowledge – DK); искусственного интеллекта (Artificial Intelligence – AI); интерактивных компьютерных систем; методов имитационного моделирования и др. Системы Поддержки Принятия Решений возникли в результате слияния управленческих информационных систем и систем управления базами данных.
средства оперативной (в реальном масштабе времени) аналитиче- ской обработки информации (On-Line Analytical Processing – OLAP);
Еще одна принципиальная особенность современных СППР связана с тем, что в настоящее время математические методы не позволяют осуществлять оптимизацию и ранжирование значений совокупностей показателей непосред- ственно на основе полной совокупности критериев и требуют предварительного сведения их к единой числовой оценке (свертка). Различных формальных спо- собов свертки достаточно много, и то, какой из них будет выбран, может суще- ственно (а порой и нежелательно) повлиять на результаты оптимизации и ран- жирования. Кроме того, свертка совокупности критериев в один обедняет про- цесс принятия решений в содержательном и информационном плане. Необхо- димо иметь в виду, что пользователь, будучи весьма компетентным в своей об- ласти, вовсе не должен разбираться в том, какие алгоритмы свертки использо- ваны в системе поддержки решений. А это значит, что решения, принятые раз- работчиком в процессе создания системы, могут оказывать на выбор альтерна- тив влияние, не контролируемое пользователем. Этот принципиальный недос- таток традиционных систем поддержки решений, опирающихся на формальные методы свертки, в современной системе СППР сведен к минимуму. Достигается это за счет того, что пользователь в диалоге с такой системой сопоставляет ме- жду собой возможные значения совокупностей показателей, в соответствии с которыми он хочет принимать решения, и определяет их относительные пред- почтительности. В результате таких сопоставлений в системе формируется функция предпочтений (ФП) пользователя, на основе которой в дальнейшем выполняются операции оптимизации и ранжирования. Таким образом, фор- мальная свертка критериев заменяется неформальной процедурой выявления
предпочтений, результаты которой не зависят от разработчика и отражают ин- дивидуальный подход пользователя к задаче. История развития СППР. До середины 60-х годов прошлого века созда- ние больших информационных систем (ИС) было чрезвычайно дорогостоящим, поэтому первые ИС менеджмента (так называемые Management Information Systems – MIS) были созданы в эти годы лишь в достаточно больших компани- ях. MIS предназначались для подготовки периодических структурированных отчетов для менеджеров. В конце 60-х годов появляется новый тип ИС – модель-ориентированные СППР (Model-oriented Decision Support Systems – DSS) или системы управлен- ческих решений (Management Decision Systems – MDS). По мнению первооткрывателей СППР Keen P. G. W., Scott Morton M. S6. (1978), концепция поддержки решений была развита на основе «теоретических исследований в области принятия решений… и технических работ по созданию интерактивных компьютерных систем». В 1971 г. – опубликована книга Scott Morton‘а7, в которой впервые были описаны результаты внедрения СППР, основанной на использовании матема- тических моделей. 1974 г. – дано определение ИС менеджмента8– MIS (Management Information System): «MIS – это интегрированная человеко-машинная система обеспечения информацией, поддерживающая функции операций, менеджмента и принятия решений в организации. Системы используют компьютерную тех- нику и программное обеспечение, модели управления и принятия решений, а также базу данных»9. 1975 г. – J.D.C. Little10в своей работе предложил критерии проектирова- ния СППР в менеджменте. 1978 г. – опубликован учебник по СППР11, в котором исчерпывающе опи- саны аспекты создания СППР: анализ, проектирование, внедрение, оценка и разработка. 1980 г. – опубликована диссертация S. Alter12, в которой он дал основы классификации СППР.
6 Keen P.G.W., Scott Morton M. S. Decision support systems: an organizational perspective. Read- ing, Mass.: Addison-Wesley Pub. Co., 1978. 7 Scott Morton M. S. Management Decision Systems: Computer-based Support for Decision Mak- ing. – Boston: Harvard University, 1971. 8 Ginzberg M.I., Stohr E.A. Decision Support Systems: Issues and Perspectives // Processes and Tools for Decision Support / ed. by H.G. Sol. – Amsterdam: North-Holland Pub.Co, 1983. 9 Davis G. Management Information Systems: Conceptual Foundations, Structure, and Develop- ment. – New York: McGraw-Hill, 1974. 10 Little I.D.C. Models and Managers: The Concept of a Decision Calculus // Management Science, 1970. – v. 16. – № 8. 11 Keen P.G.W., Scott Morton M. S. Decision support systems: an organizational perspective. Reading, Mass.: Addison-Wesley Pub. Co., 1978. 12 Alter S. L. Decision support systems: current practice and continuing challenges. Reading, Mass.: Addison-Wesley Pub., 1980.
1981 г. – Bonczek, Holsapple и Whinston13в своей книге создали теорети- ческие основы проектирования СППР. Они выделили четыре необходимых компонента, присущих всем СППР: 1) Языковая система (Language System – LS) – СППР может принимать все сообщения; 2) Система презентаций (Presentation System (PS)) (СППР может выдавать свои сообщения); 3) Система знаний (Knowledge System – KS) – все знания СППР сохраняет; 4) Система об- работки задач (Problem-Processing System (PPS)) – программный «механизм», который пытается распознать и решить задачу во время работы СППР. 1981 г. – В своей книге R.Sprague и E.Carlson14описали, каким образом на практике можно построить СППР. Тогда же была разработана информационная система руководителя (Executive Information System (EIS) – компьютерная сис- тема, предназначенная для обеспечения текущей адекватной информации для поддержки принятия управленческих решений менеджером. Начиная с 1990-х, разрабатываются так называемые Data Warehouses – хранилища данных. В 1993 г Е. Коддом (E.F. Codd) для СППР специального вида был пред- ложен термин OLAP (Online Analytical Processing)- оперативный анализ дан- ных (онлайновая аналитическая обработка данных) для поддержки принятия важных решений. Исходные данные для анализа представлены в виде много- мерного куба, по которому можно получать нужные разрезы – отчёты. Вы- полнение операций над данными осуществляется OLAP-машиной. По способу хранения данных различают OLAP со многими измерениями (Multidimensional OLAP MOLAP ), реляционный OLAP (Relational OLAP – ROLAP ) и гибрид- ный OLAP (Hybrid OLAP – HOLAP ). По месту размещения OLAP-машины различаются OLAP-клиенты и OLAP-серверы. OLAP-клиент производит по- строение многомерного куба и вычисления на клиентском ПК, а OLAP-сервер получает запрос, вычисляет и хранит агрегатные данные на сервере, выдавая только результаты. В 2005 г. (27 октября) в Москве на Международной конференции «Ин- формационные и телемедицинские технологии в охране здоровья» (ITTHC 2005), А. Пастухов (Россия) представил СППР нового класса – PSTM (Personal Information Systems of Top Managers). Основным отличием PSTM от сущест- вующих СППР является построение системы для конкретного лица, прини- мающего решение, с предварительной логико-аналитической обработкой ин- формации в автоматическом режиме и выводом информации на один экран. В начале нового тысячелетия была создана СППР на основе Web – семан- тический Web, которая обеспечивала поиск информации с использованием формализации представления содержания, семантики, смысла искомых объек- тов, что позволило обеспечить необходимые условия сходимости поискового процесса к желаемому результату, существенно сократить время поиска при
13 Bonczek R.H., Holsapple C., Whinston A.B. Foundations of Decision Support Systems.- New York: Academic Press,, 1981. 14 Sprague R. H., Carlson E. D. Building Effective Decision Support Systems. — Englewood Cliffs, NJ: Prentice-Hall, 1982.
«расплывчатом» формулировании запроса и «недетерминированной» постанов- ки целей. Таким образом, СППР – в большинстве случаев – это интерактивная ав- томатизированная система, которая помогает менеджеру (ЛПР) использовать данные и модели для идентификации и решения задач и принятия решений. Система должна обладать возможностью работать с интерактивными запроса- ми с достаточно простым для изучения языком запросов. Дальнейшее развитие СППР происходит по пути усложнения интеллекту- альных информационных технологий (ИИТ), позволяющих более глубоко опи- сывать проблемные ситуации. Описание проблемной ситуации опирается как на саму выделенную ситуацию, так и на индивидуальное восприятие ее челове- ком, т.е. проблемная ситуация описывается внешними и внутренними фактора- ми, пропорция между которыми меняется с изменением ситуации. ИИТ, при- меняемые для описания проблемной ситуации, как правило, реализуют методы: решения обратных задач, нечетких топологических пространств, эволюцион- ных вычислений, теории катастроф, рефлексивной и когнитивной психологии, нейролингвистического программирования, активных и многоагентных систем, квантовых вычислений и др.
Характеристики СППР. Согласно E. Turban15, СППР обладает следую- щими четырьмя основными характеристиками: 1. СППР использует и данные, и модели; 2. СППР предназначены для помощи менеджерам в принятии реше- ний для слабоструктурированных и неструктурированных задач; 3. Они поддерживают, а не заменяют, выработку решений менедже- рами; 4. Цель СППР – улучшение эффективности решений. E. Turban предложил список характеристик идеальной СППР (которая имеет мало общих элементов с определением, приведенным выше). Идеальная СППР: 1) оперирует со слабоструктурированными решениями; 2) предназначена для ЛПР различного уровня; 3) может быть адаптирована для группового и индивидуального ис- пользования; 4) поддерживает как взаимозависимые, так и последовательные реше- ния; 5) поддерживает 3 фазы процесса решения: интеллектуальную часть, проектирование и выбор; 6) поддерживает разнообразные стили и методы решения, что может быть полезно при решении задачи группой ЛПР;
15 Turban, E. Decision support and expert systems: management support systems. – Englewood Cliffs, N.J.: Prentice Hall, 1995. – 887 p.
7) является гибкой и адаптируется к изменениям как организации, так и ее окружения; 8) проста в использовании и модификации; 9) улучшает эффективность процесса принятия решений; 10) позволяет человеку управлять процессом принятия решений с по- мощью компьютера, а не наоборот; 11) поддерживает эволюционное использование и легко адаптируется к изменяющимся требованиям; 12) может быть легко построена, если может быть сформулирована логика конструкции СППР; 13) поддерживает моделирование; 14) позволяет использовать знания.
Классификации СППР. Для СППР отсутствует не только единое обще- принятое определение, но и исчерпывающая классификация. Разные авторы предлагают разные классификации. На уровне пользователя P. Haettenschwiler16(1999) делит СППР на пас- сивные, активные и кооперативные СППР. Пассивной СППР называется систе- ма, которая помогает процессу принятия решения, но не может вынести пред- ложение, какое решение принять. Активная СППР может сделать предложение, какое решение следует выбрать. Кооперативная позволяет ЛПР изменять, по- полнять или улучшать решения, предлагаемые системой, посылая затем эти из- менения в систему для проверки. Система изменяет, пополняет или улучшает эти решения и посылает их опять пользователю. Процесс продолжается до по- лучения согласованного решения. На концептуальном уровне D.J. Power17(2003) отличает СППР, управляе- мые сообщениями (Communication-Driven DSS), СППР, управляемые данными (Data-Driven DSS), СППР, управляемые документами (Document-Driven DSS), СППР, управляемые знаниями (Knowledge-Driven DSS) и СППР, управляемые моделями (Model-Driven DSS). СППР, управляемые моделями, характеризуют- ся в основном доступ и манипуляции с математическими моделями (статисти- ческими, финансовыми, оптимизационными, имитационными). Отметим, что некоторые OLAP-системы, позволяющие осуществлять сложный анализ дан- ных, могут быть отнесены к гибридным СППР, которые обеспечивают модели- рование, поиск и обработку данных. Управляемая сообщениями (Communication-Driven DSS) (ранее групповая СППР – GDSS) СППР поддерживает группу пользователей, работающих над выполнением общей задачи.
16 Haettenschwiler P. Neues anwenderfreundliches Konzept der Entscheidungs-unterstutzung. Gutes Entscheiden in Wirtschaft, Politik und Gesellschaft. Zurich: Hochschulverlag AG, 1999. – S. 189- 208. 17 Power D.J. A Brief History of Decision Support Systems. DSSResources.COM, World Wide Web, https://DSSResources.COM/history/dsshistory.html, version 2.8, May 31, 2003.
СППР, управляемые данными (Data-Driven DSS) или СППР, ориентиро- ванные на работу с данными (Data-oriented DSS) в основном ориентируются на доступ и манипуляции с данными. СППР, управляемые документами (Document-Driven DSS), управляют, осуществляют поиск и манипулируют не- структурированной информацией, заданной в различных форматах. Наконец, СППР, управляемые знаниями (Knowledge-Driven DSS) обеспечивают решение задач в виде фактов, правил, процедур. На техническом уровне D. Power18(1997) различает СППР всего предпри- ятия и настольную СППР. СППР всего предприятия подключена к большим хранилищам информации и обслуживает многих менеджеров предприятия. На- стольная СППР – это малая система, обслуживающая лишь один компьютер пользователя. Существуют и другие классификации (Alter19, Holsapple и Whinston20, Golden, Hevner и Power21). Отметим лишь, что превосходная для своего времени классификация Alter‘a, которая разбивала все СППР на 7 клас- сов, в настоящее время несколько устарела. В зависимости от данных, с которыми эти системы работают, СППР ус- ловно можно разделить на оперативные и стратегические. Оперативные СППР предназначены для немедленного реагирования на изменения текущей ситуа- ции в управлении финансово-хозяйственными процессами компании. Страте- гические СППР ориентированы на анализ значительных объемов разнородной информации, собираемых из различных источников. Важнейшей целью этих СППР является поиск наиболее рациональных вариантов развития бизнеса компании с учетом влияния различных факторов, таких как конъюнктура целе- вых для компании рынков, изменения финансовых рынков и рынков капиталов, изменения в законодательстве и др. СППР первого типа получили название Информационных Систем Руководства (Executive Information Systems – EIS). По сути, они представляют собой конечные наборы отчетов, построенных на основании данных из транзакционной информационной системы предприятия, в идеале адекватно отражающих в режиме реального времени основные аспек- ты производственной и финансовой деятельности. Для EIS характерны сле- дующие основные черты:
18 Power D. J. «What is a DSS?» // The On-Line Executive Journal for Data-Intensive Decision Support, 1997. – v. 1. – № 3. 19 Alter S. L. Decision support systems: current practice and continuing challenges. Reading, Mass.: Addison-Wesley Pub., 1980. 20 Holsapple C.W., Whinston A.B. Decision Support Systems: A Knowledge-based Approach. – Minneapolis: West Publishing Co., 1996. 21 Golden B., Hevner A., Power D.J. Decision Insight Systems: A Critical Evaluation // Computers and Operations Research, 1986. – v. 13. – № 2/3. – p. 287-300.
СППР второго типа предполагают достаточно глубокую проработку дан- ных, специально преобразованных так, чтобы их было удобно использовать в ходе процесса принятия решений. Неотъемлемым компонентом СППР этого уровня являются правила принятия решений, которые на основе агрегированных данных дают возможность менеджерам компании обосновывать свои решения, использо- вать факторы устойчивого роста бизнеса компании и снижать риски. СППР второ- го типа в последнее время активно развиваются. Технологии этого типа строятся на принципах многомерного представления и анализа данных (OLAP). При создании СППР можно использовать Web-технологии. В настоящее время СППР на основе Web-технологий для ряда компаний являются синони- мами СППР предприятия. Архитектура СППР. Архитектура СППР представляется разными авторами по-разному. При- ведем пример. G.M. Marakas22(1999) предложил обобщенную архитектуру, со- стоящую из 5 различных частей: (a) система управления данными (the data management system – DBMS), (b) система управления моделями (the model management system – MBMS), (c) машина знаний (the knowledge engine (KE)), (d) интерфейс пользователя (the user interface) и (e) пользователи (the user). На сегодняшний день можно выделить четыре наиболее популярных типа архитектур систем поддержки принятия решений: 1. Функциональная СППР. 2. Независимые витрины данных. 3. Двухуровневое хранилище данных. 4. Трехуровневое хранилище данных.
Функциональная СППР. Функциональная СППР (рис. 7.3) является наи- более простой с архитектурной точки зрения. Такие системы часто встречаются на практике, в особенности в организациях с невысоким уровнем аналитиче- ской культуры и недостаточно развитой информационной инфраструктурой. Характерной чертой функциональной СППР является то, что анализ осу- ществляется с использованием данных из оперативных систем.
Рис. 7.3. Функциональная СППР
22 Marakas G. M. Decision support systems in the twenty-first century. Upper Saddle River, N.J.: Prentice Hall, 1999.
Преимущества:
Недостатки:
СППР с использованием независимых витрин данных. Независимые вит- рины данных (рис. 7.4) часто появляются в организации исторически и встре- чаются в крупных организациях с большим количеством независимых подраз- делений, зачастую имеющих свои собственные отделы информационных тех- нологий.
Витрины данных можно внедрять достаточно быстро. Витрины проектируются для ответов на конкретный ряд вопросов. Данные в витрине оптимизированы для использования определенными группами пользователей, что облегчает процедуры их наполнения, а так- же способствует повышению производительности.
Рис. 7.4. Независимые витрины данных
Недостатки:
хранение и потенциальным проблемам, связанным с необходимостью поддержания непротиворечивости данных.
СППР на основе двухуровневого хранилища данных. Двухуровневое хра- нилище данных (рис. 7.5) строится централизованно для предоставления ин- формации в рамках компании. Для поддержки такой архитектуры необходима выделенная команда профессионалов в области хранилищ данных.
Рис. 7.5. Двухуровневое хранилище данных
Это означает, что вся организация должна согласовать все определения и процессы преобразования данных.
Данные хранятся в единственном экземпляре. Минимальные затраты на хранение данных. Отсутствуют проблемы, связанные с синхронизацией нескольких копий данных.
Недостатки:
Возможны проблемы с производительностью системы. Возможны трудности с разграничением прав пользователей на доступ к данным.
СППР на основе трёхуровневого хранилища данных. Хранилище данных (рис. 7.6) представляет собой единый централизованный источник корпоратив-
ной информации. Витрины данных представляют подмножества данных из хранилища, организованные для решения задач отдельных подразделений ком- пании. Конечные пользователи имеют возможность доступа к детальным дан- ным хранилища, в случае если данных в витрине недостаточно, а также для по- лучения более полной картины состояния бизнеса.
Рис. 7.6. Трёхуровневое хранилище данных
Преимущества:
Недостатки:
ного варианта зависит от условий, в которые поставлена проектная группа. На выбор архитектуры влияют ответы на такие вопросы как: нужен ли быстрый возврат от инвестиций; является ли проектная группа профессиональной; суще- ствует ли формализованная методология.
7.2. Методы поддержки принятия решений на основе информационных технологий
Для поддержки принятия решений c помощью информационных техноло- гий, включая анализ и выработку альтернатив, в СППР используются следую- щие методы: 1) информационный поиск; 2) интеллектуальный анализ данных; 3) извлечение (поиск) знаний в базах данных; 4) рассуждение на основе преце- дентов; 5) имитационное моделирование; 6) генетические алгоритмы; 7) искусственные нейронные сети; 8) методы искусственного интеллекта. Рас- смотрим подробно каждый из них. Информационный поиск (Information retrieval). Информационный поиск (ИП) (англ. Information retrieval) – процесс поиска неструктурированной доку- ментальной информации и наука об этом поиске23. Термин «информационный поиск» был впервые введён Кельвином Муром в 1948 г. в его докторской дис- сертации, опубликован и употребляется в литературе с 1950 г. Сначала системы автоматизированного информационного поиска, или информационно-поисковые системы (ИПС), использовались лишь для управле- ния информационным взрывом в научной литературе. Многие университеты и публичные библиотеки стали использовать ИПС для обеспечения доступа к книгам, журналам и другим документам. Широкое распространение ИПС полу- чили с появлением сети Интернет. У русскоязычных пользователей наиболь- шей популярностью пользуются поисковые системы Google, Яндекс и Рамблер. Поиск информации представляет собой процесс выявления в некотором множестве документов (текстов) всех таких, которые посвящены указанной те- ме (предмету), удовлетворяют заранее определенному условию поиска (запро- су) или содержат необходимые (соответствующие информационной потребно- сти) факты, сведения, данные. Процесс поиска включает последовательность операций, направленных на сбор, обработку и предоставление необходимой информации заинтересован- ным лицам. В общем случае поиск информации состоит из четырех этапов: 1) определение (уточнение) информационной потребности и форму- лировка информационного запроса; 2) определение совокупности возможных держателей информацион- ных массивов (источников); 3) извлечение информации из выявленных информационных масси- вов; 4) ознакомление с полученной информацией и оценка результатов по- иска. Полнотекстовый поиск – поиск по всему содержимому документа. При- мер полнотекстового поиска – любой интернет-поисковик, например www.yandex.ru, www.google.com. Как правило, полнотекстовый поиск для ус-
23 https://ru.wikipedia.org/
корения поиска использует предварительно построенные индексы. Наиболее распространенной технологией для индексов полнотекстового поиска являются инвертированные индексы. Поиск по метаданным – это поиск по неким атрибутам документа, под- держиваемым системой – название документа, дата создания, размер, автор и т.д. Пример поиска по реквизитам – диалог поиска в файловой системе (на- пример, MS Windows). Поиск по изображению – поиск по содержанию изображения. Поисковая система распознает содержание фотографии (загружена пользователем или до- бавлен URL изображения). В результатах поиска пользователь получает похо- жие изображения. Так работают поисковые системы: Xcavator; Retrievr; PolarRose; Picollator Online by Recogmission.
Методы информационного поиска. Адресный поиск – процесс поиска до- кументов по чисто формальным признакам, указанным в запросе. Для осуществления нужны следующие условия: 1. Наличие у документа точного адреса. 2. Обеспечение строгого порядка расположения документов в запо- минающем устройстве или в хранилище системы. Адресами документов могут выступать адреса веб-серверов и веб- страниц и элементы библиографической записи, и адреса хранения документов в хранилище. Семантический поиск – процесс поиска документов по их содержанию. Условия: Перевод содержания документов и запросов с естественного языка на информационно-поисковый язык и составление поисковых образов документа и запроса. Составление поискового описания, в котором указывается дополнительное условие поиска. Принципиальная разница между адресным и семантическим поисками состоит в том, что при адресном поиске документ рассматривается как объект с точки зрения формы, а при семантическом поиске – с точки зрения содержания. При семантическом поиске находится множество документов без указания ад- ресов. В этом принципиальное отличие каталогов и картотек. Библиотека – со- брание библиографических записей без указания адресов. Документальный поиск – процесс поиска в хранилище информационно- поисковой системы первичных документов или в базе данных вторичных доку- ментов, соответствующих запросу пользователя. Два вида документального по- иска: 1. Библиотечный, направленный на нахождение первичных докумен- тов. 2. Библиографический, направленный на нахождение сведений о до- кументах, представленных в виде библиографических записей. Фактографический поиск – процесс поиска фактов, соответствующих информационному запросу.
К фактографическим данным относятся сведения, извлеченные из доку- ментов, как первичных, так и вторичных и получаемые непосредственно из ис- точников их возникновения. Различают два вида поиска: 1. Документально-фактографический, заключается в поиске в доку- ментах фрагментов текста, содержащих факты. 2. Фактологический (описание фактов), предполагающий создание новых фактографических описаний в процессе поиска путем логи- ческой переработки найденной фактографической информации.
Информационный поиск как наука. Информационный поиск – большая междисциплинарная область науки, стоящая на пересечении когнитивной пси- хологии, информатики, информационного дизайна, лингвистики, семиотики, и библиотечного дела. Информационный поиск рассматривает поиск информации в документах, поиск самих документов, извлечение метаданных из документов, поиск текста, изображений, видео и звука в локальных реляционных базах данных, в гипер- текстовых базах данных таких, как Интернет и локальные интранет-системы. Существует некоторая путаница, связанная с понятиями поиска данных, поиска документов, информационного поиска и текстового поиска. Тем не менее, каж- дое из этих направлений исследования обладает собственными методиками, практическими наработками и литературой. В настоящее время информационный поиск – это бурно развивающаяся об- ласть науки, популярность которой обусловлено экспоненциальным ростом объе- мов информации, в частности в сети Интернет. Информационному поиску посвя- щена обширная литература и множество конференций. Одной из наиболее извест- ных является TREC, организованной в 1992 Министерством обороны США со- вместно с Институтом Стандартов и Технологий (NIST) с целью консолидации исследовательского сообщества и развития методик оценки качества ИП. Говоря о системах информационного поиска, употребляют термины за- прос и объект запроса. Запрос – это формализованный способ выражения информационных по- требностей пользователем системы. Для выражения информационной потреб- ности используется язык поисковых запросов, синтаксис варьируется от систе- мы к системе. Кроме специального языка запросов, современные поисковые системы позволяют вводить запрос на естественном языке. Объект запроса – это информационная сущность, которая хранится в базе автоматизированной системы поиска. Несмотря на то, что наиболее распро- страненным объектом запроса является текстовый документ, не существует ни- каких принципиальных ограничений. В частности, возможен поиск изображе- ний, музыки и другой мультимедиа информации. Процесс занесения объектов поиска в ИПС называется индексацией. Далеко не всегда ИПС хранит точную копию объекта, нередко вместо неё хранится суррогат. Задачи информационного поиска. Центральная задача ИП – помочь поль- зователю удовлетворить его информационную потребность. Так как описать
информационные потребности пользователя технически непросто, они форму- лируются как некоторый запрос, представляющий из себя набор ключевых слов, характеризующий то, что ищет пользователь. Классическая задача информационного поиска, с которой началось раз- витие этой области, – это поиск документов, удовлетворяющих запросу, в рам- ках некоторой статической коллекции документов. Но список задач ИП посто- янно расширяется и теперь включает: вопросы моделирования; классификация документов; фильтрация документов; кластеризация документов; проектирова- ние архитектур поисковых систем и пользовательских интерфейсов; извлечение информации, в частности аннотирования и реферирования документов; языки запросов и др.
Оценки эффективности информационного поиска. Существует много способов оценить насколько хорошо документы, найденные ИПС, соответст- вуют запросу. К сожалению, понятие степени соответствия запроса, или други- ми словами релевантности, является субъективным понятием, а степень соот- ветствия зависит от конкретного человека, оценивающего результаты выполне- ния запроса. Точность (Precision) – отношение числа релевантных документов, най- денных ИПС, к общему числу найденных документов:
где Drel – это множество релевантных документов в базе, а Dretr – множество до- кументов, найденных системой. Полнота (recall) – отношение числа найденных релевантных документов, к общему числу релевантных документов в базе:
где Drel – это множество релевантных документов в базе, а Dretr – множество до- кументов, найденных системой. Выпадение (fall-out) – выпадение характеризует вероятность нахождения нерелевантного ресурса и определяется, как отношение числа найденных нере- левантных документов к общему числу нерелевантных документов в базе:
где Dnrel – это множество не релевантных документов в базе, а Dretr – множество документов, найденных системой.
F-мера (F-measure, мера Ван Ризбергена) – традиционно F-мера опреде- ляется, как гармоническое среднее точности и полноты:
Часто ее также называют F 1мерой, потому что точность и полнота при- сутствуют в этой формуле с одинаковым весом. Более общая формула для положительного вещественного α имеет вид:
Интеллектуальный анализ данных (Data Mining). Интеллектуальный анализ данных (англ. Data Mining) – выявление скрытых закономерностей или взаимосвязей между переменными в больших массивах необработанных дан- ных. Подразделяется на задачи классификации, моделирования и прогнозиро- вания и другие. Термин «Data Mining» введен Григорием Пятецким-Шапиро в 1989 году. Английский термин «Data Mining» не имеет однозначного перевода на русский язык (добыча данных, вскрытие данных, информационная проходка, извлечение данных/информации) поэтому в большинстве случаев используется в оригинале. Наиболее удачным непрямым переводом считается термин «ин- теллектуальный анализ данных». Data Mining включает методы и модели статистического анализа и ма- шинного обучения, дистанцируясь от них в сторону автоматического анализа данных. Инструменты Data Mining позволяют проводить анализ данных пред- метными специалистами (аналитиками), не владеющими соответствующими математическими знаниями. Задачи, решаемые Data Mining: 1. Классификация – отнесение входного вектора (объекта, события, наблюдения) к одному из заранее известных классов. 2. Кластеризация – разделение множества входных векторов на груп- пы (кластеры) по степени «похожести» друг на друга. 3. Сокращение описания – для визуализации данных, лаконизма мо- делей, упрощения счета и интерпретации, сжатия объемов собирае- мой и хранимой информации. 4. Ассоциация – поиск повторяющихся образцов. Например, поиск «устойчивых связей в корзине покупателя» (англ. market basket analysis) – вместе с пивом часто покупают орешки. 5. Прогнозирование. 6. Анализ отклонений – Например, выявление нетипичной сетевой ак- тивности позволяет обнаружить вредоносные программы. 7. Визуализация. В литературе можно встретить еще ряд классов задач. Базовыми задачами являются первые три. Остальные задачи сводятся к ним тем или иным способом.
Для задач классификации характерно «обучение с учителем», при кото- ром построение (обучение) модели производится по выборке содержащей входные и выходные векторы. Для задач кластеризации и ассоциации применяется «обучение без учи- теля», при котором построение модели производится по выборке, в которой нет выходного параметра. Значение выходного параметра («относится к кла- стеру…», «похож на вектор …») подбирается автоматически в процессе обу- чения. Для задач сокращения описания характерно отсутствие разделения на входные и выходные векторы. Начиная с классических работ К. Пирсона по ме- тоду главных компонент, основное внимание здесь уделяется аппроксимации данных. Можно выделить типичный ряд этапов решения задач методами Data Mining: 1. Формирование гипотезы; 2. Сбор данных; 3. Подготовка данных (фильтрация); 4. Выбор модели; 5. Подбор параметров модели и алгоритма обучения; 6. Обучение модели (автоматический поиск остальных параметров модели); 7. Анализ качества обучения, если неудовлетворительный переход на п. 5 или п. 4; 8. Анализ выявленных закономерностей, если неудовлетворительный переход на п. 1, 4 или 5. Извлечение знаний в базах данных (Knowledge Discovery in Databases). Извлечение (поиск) знаний в базах данных (Knowledge Discovery in Databases – KDD) – процесс обнаружения полезных знаний в базах данных. Эти знания могут быть представлены в виде закономерностей, правил, про- гнозов, связей между элементами данных и др. Главным инструментом поиска знаний в процессе KDD являются аналитические технологии Data Mining, реа- лизующие задачи классификации, кластеризации, регрессии, прогнозирова- ния, предсказания и т.д. Однако, в соответствии с концепцией KDD, эффективный процесс поиска знаний не ограничивается их анализом. KDD включает последовательность операций, необходимых для поддержки аналитического процесса. К ним отно- сятся:
«приспособить» данные к решению аналитической задачи.
Knowledge Discovery in Databases не задает набор методов обработки или пригодные для анализа алгоритмы, он определяет последовательность дейст- вий, которую необходимо выполнить для того, чтобы из исходных данных по- лучить знания. Данный подход универсальный и не зависит от предметной об- ласти, что является его несомненным достоинством. Основоположниками концепции KDD считаются Григорий Пятецкий- Шапиро (Gregory Piatetsky-Shapiro) и Усама Файад (Usama Fayyad).
Рассуждение на основе прецедентов (Case-Based Reasoning). Прецедент – случай, имевший место ранее и служащий примером или оправданием для по- следующих случаев подобного рода. Вывод на основе прецедентов (CBR – Case-Based Reasoning) является подходом, позволяющим решить новую задачу, используя или адаптируя решение уже известной задачи. Как правило, такие методы рассуждений включают в себя четыре основных этапа, образующие так называемый цикл рассуждения на основе прецедентов или CBR-цикл. К преимуществам рассуждений на основе прецедентов можно отнести следующие аспекты:
К недостаткам рассуждений на основе прецедентов можно отнести сле- дующее:
Основная цель использования аппарата прецедентов в рамках СППР и, в частности, систем экспертной диагностики сложных объектов, заключается в выдаче готового решения ЛПР для текущей ситуации на основе прецедентов, которые уже имели место в прошлом при управлении данным объектом или процессом. На первом этапе CBR-цикла выполняется определение степени сходства текущей ситуации с прецедентами из библиотеки прецедентов системы и по- следующее их извлечение с целью разрешить новую проблемную ситуацию, сложившуюся на объекте.
Методы извлечения прецедентов. Для успешной реализации рассуждений на основе прецедентов необходимо обеспечить корректное извлечение преце- дентов из библиотеки прецедентов (БП) системы экспертной диагностики. Вы- бор метода извлечения прецедентов напрямую связан со способом представле- ния прецедентов и соответственно со способом организации БП.
параметрические; объектно-ориентированные; специальные (в виде деревьев, графов, логических формул и т.д.). В большинстве случаев для представления прецедентов достаточно про- стого параметрического представления, т.е. представления прецедента в виде набора параметров с конкретными значениями и решения (диагноз по проблем- ной ситуации и рекомендации ЛПР): CASE(x1, x2, …, xn, R),
Существует целый ряд методов извлечения прецедентов и их модифика- ций:
1) Метод ближайшего соседа (NN – Nearest Neighbor). Это самый рас- пространенный метод сравнения и извлечения прецедентов. Он позволяет до- вольно легко вычислить степень сходства текущей проблемной ситуации и прецедентов из БП системы. С целью определения степени сходства на множе- стве параметров, используемых для описания прецедентов и текущей ситуации, вводится определенная метрика. Далее в соответствии с выбранной метрикой определяется расстояние от целевой точки, соответствующей текущей про- блемной ситуации, до точек, представляющих прецеденты из БП, и выбирается ближайшая к целевой точка. Метод определения ближайшего соседа (ближайших соседей) также ши- роко применяется для решения задач классификации, кластеризации, регрессии и распознавания образов [Башмаков и др., 2005]. Основными преимуществами данного метода являются простота реализа- ции и универсальность в смысле независимости от специфики конкретной про- блемной области. К существенным недостаткам метода можно отнести слож- ность выбора метрики для определения степени сходства и прямую зависи- мость требуемых вычислительных ресурсов от размера БП, а также неэффек- тивность при работе с неполными и зашумленными исходными данными. На практике применяются различные модификации указанного метода [Варшавский и др., 2006]. Обычно решение выбирается на основе нескольких ближайших точек (соседей), а не одной (метод k ближайших соседей). Возмож- но использование метода ближайшего соседа, основанного на знаниях о пред- метной области (определенных зависимостях между параметрами объекта). 2) Метод извлечения прецедентов на основе деревьев решений. Этот ме- тод предполагает нахождение требуемых прецедентов путем разрешения вер- шин дерева решений. Каждая вершина дерева указывает, по какой ее ветви сле- дует осуществлять дальнейший поиск решения. Выбор ветви осуществляется на основе информации о текущей проблемной ситуации. Таким образом, необхо- димо добраться до концевой вершины, которая соответствует одному или не- скольким прецедентам. Если концевая вершина связана с некоторым подмно- жеством прецедентов, то тогда для выбора наиболее подходящего из них может использоваться метод ближайшего соседа. Такой подход рекомендуется приме- нять для больших БП, т.к. основная часть работы по извлечению прецедентов выполняется заранее на этапе построения дерева решений, что значительно со- кращает время поиска решения. 3) Метод извлечения прецедентов на основе знаний. В отличие от мето- дов, описанных выше, данный метод позволяет учесть знания экспертов (ЛПР) по конкретной предметной области (коэффициенты важности параметров, вы- явленные зависимости и т.д.) при извлечении. Метод может успешно приме- няться совместно с другими методами извлечения прецедентов, особенно когда БП имеет большие размеры и предметная область является открытой и динами- ческой. 4) Метод извлечения с учетом применимости прецедентов. В большин- стве систем, использующих механизмы рассуждений на основе прецедентов,
предполагается, что наиболее схожие с текущей проблемной ситуацией преце- денты являются наиболее применимыми в этой ситуации. Однако это не всегда так. В основе понятия извлечения на основе применимости (адаптируемости) лежит то, что извлечение прецедентов базируется не только на их сходстве с текущей проблемной ситуацией, но и на том, насколько хорошую для желаемо- го результата модель они собой представляют. Т.е. на выбор извлекаемых пре- цедентов влияет возможность их применения в конкретной ситуации. В неко- торых системах эта проблема решается путем сохранения прецедентов вместе с комментариями по их применению. Использование указанного подхода позво- ляет сделать поиск решения более эффективным, заранее отбрасывая часть за- ведомо неперспективных прецедентов. Помимо рассмотренных методов для извлечения прецедентов могут ус- пешно применяться и другие методы (например, аппарат искусственных ней- ронных сетей). Имитационное моделирование – это метод, позволяющий строить моде- ли, описывающие процессы так, как они проходили бы в действительности. Та- кую модель можно «проиграть» во времени как для одного испытания, так и за- данного их множества. При этом результаты будут определяться случайным характером процессов. По этим данным можно получить достаточно устойчи- вую статистику. Имитационное моделирование – это метод исследования, при котором изучаемая система заменяется моделью с достаточной точностью описывающей реальную систему и с ней проводятся эксперименты с целью получения ин- формации об этой системе. Экспериментирование с моделью называют имита- цией (имитация – это постижение сути явления, не прибегая к экспериментам на реальном объекте). Имитационное моделирование – это частный случай математического моделирования. Существует класс объектов, для которых по различным причи- нам не разработаны аналитические модели, либо не разработаны методы реше- ния полученной модели. В этом случае математическая модель заменяется ими- татором или имитационной моделью. Имитационная модель – логико-математическое описание объекта, кото- рое может быть использовано для экспериментирования на компьютере в целях проектирования, анализа и оценки функционирования объекта.
дорого или невозможно экспериментировать на реальном объекте; невозможно построить аналитическую модель: в системе есть вре- мя, причинные связи, последствие, нелинейности, стохастические (случайные) переменные;
Цель имитационного моделирования состоит в воспроизведении поведе- ния исследуемой системы на основе результатов анализа наиболее существен- ных взаимосвязей между ее элементами или другими словами – разработке си-
мулятора (английский термин – simulation modeling) исследуемой предметной области для проведения различных экспериментов. Имитационное моделирование позволяет имитировать поведение систе- мы, во времени. Причём плюсом является то, что временем в модели можно управлять: замедлять в случае с быстропротекающими процессами и ускорять для моделирования систем с медленной изменчивостью. Можно имитировать поведение тех объектов, реальные эксперименты с которыми дороги, невоз- можны или опасны. Имитация, как метод решения нетривиальных задач, получила начальное развитие в связи с созданием ЭВМ в 1950–1960-х годах.
Метод Монте-Карло (метод статистических испытаний). Метод имитационного моделирования (статистическое моделиро- вание).
Виды имитационного моделирования. Агентное моделирование – относи- тельно новое (1990–2000-е гг.) направление в имитационном моделировании, которое используется для исследования децентрализованных систем, динамика функционирования которых определяется не глобальными правилами и зако- нами (как в других парадигмах моделирования), а наоборот. Когда эти глобаль- ные правила и законы являются результатом индивидуальной активности чле- нов группы. Цель агентных моделей – получить представление об этих гло- бальных правилах, общем поведении системы, исходя из предположений об индивидуальном, частном поведении ее отдельных активных объектов и взаи- модействии этих объектов в системе. Агент – некая сущность, обладающая ак- тивностью, автономным поведением, может принимать решения в соответствии с некоторым набором правил, взаимодействовать с окружением, а также само- стоятельно изменяться. Дискретно-событийное моделирование – подход к моделированию, пред- лагающий абстрагироваться от непрерывной природы событий и рассматривать только основные события моделируемой системы, такие как: «ожидание», «об- работка заказа», «движение с грузом», «разгрузка» и другие. Дискретно- событийное моделирование наиболее развито и имеет огромную сферу прило- жений – от логистики и систем массового обслуживания до транспортных и производственных систем. Этот вид моделирования наиболее подходит для мо- делирования производственных процессов. Основан Джеффри Гордоном в 1960х годах. Системная динамика – парадигма моделирования, где для исследуемой системы строятся графические диаграммы причинных связей и глобальных влияний одних параметров на другие во времени, а затем созданная на основе этих диаграмм модель имитируется на компьютере. По сути, такой вид модели- рования более всех других парадигм помогает понять суть происходящего вы- явления причинно-следственных связей между объектами и явлениями. С по- мощью системной динамики строят модели бизнес-процессов, развития города,
модели производства, динамики популяции, экологии и развития эпидемии. Метод основан Форрестером в 1950-х годах. Популярные системы имитационного моделирования: AnyLogic; Arena; eM-Plant; Powersim; GPSS.
Генетические алгоритмы (genetic algorithm). Генетический алгоритм (англ. genetic algorithm) – это эвристический алгоритм поиска, используемый для решения задач оптимизации и моделирования путем последовательного подбора, комбинирования и вариации искомых параметров с использованием механизмов, напоминающих биологическую эволюцию. Является разновидно- стью эволюционных вычислений (англ. evolutionary computatio
|