Студопедия

Главная страница Случайная страница

КАТЕГОРИИ:

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Ввід та представлення зображень в ЕОМ






 

Розвиток інформаційного суспільства, яким на цей час стало людство, потребує все більш повної та швидшої передачі інформації від однієї точки до іншої. Вже давно недостатнім є спосіб передачі по електронних каналах лише літерно-цифрової інформації (тексту) - для більш повного уявлення про явища та події необхідно мати можливість сприймати їх акустичну та візуальну картини. Останню ми звикли називати зображенням, яке в загальному випадку означають як двовимірну функцію, що задає для кожної точки площини значення яскравості чи розподілу яскравостей між кольорами прийнятої (аддитивної, субконтрактивної чи ін.) системи кольорів.

Для опису і представлення зображень в ЕОМ необхідно подати дискретизовані в просторі значення положення пікселів та дискретизовані за величиною значення інтенсивності в кожному з цих пікселів. У випадку квантування значень інтенсивності двома рівнями (0 та 1) зображення називають бінарним, а при квантуванні більшою кількістю (як правило 2N) рівнів – півтоновим. Бінарне зображення отримується тоді, коли використовується фіксований поріг дискретизації для всього поля зображення. Для коректного вибору порогу будується гістограма яскравості – розподіл кількості пікселів за величинами яскравості. Після цього відшукується таке значення яскравості, яке відповідає мінімуму гістограми на впадині між двома основними її піками. Цей простий алгоритм дає цілком прийнятні результати при достатній контрастності зображень об'єктів і фону, коли вони дають два чітко відмінні один від одного піки, які відповідають приблизно постійним рівням яскравості. На практиці внаслідок неідеального контрасту реальна гістограма рідко буває бімодальною – поряд з двома основними вона налічує багато додаткових, що відображають наявність тіней, шумів та неоднорідність харак­теристик окремих елементів фотоприймача. У таких випадках проводять т.зв. «покращення» гістограм шляхом аналізу градієнтів яскравостей на площині зображення і віднесення певних пікселів на межі окремих елеметів до фону або до предмета, що приводить до розсування піків, проте втрачається точність контуру зображення. Поряд з алгоритмом пошуку загального порогу бінаризації застосовуються алгоритми розбиття зображення на окремі відносно великі елементи з пошуком локальних порогів бінаризації.

При описі півтонових зображень найбільш суттєвим є якомога більш повне співставлення діапазону дискретизації та діапазону яскравостей, що при успішному вирішенні цієї проблеми дозволяє отримати більш чіткі зображення. Поряд з цим також застосовується метод нерівномірного квантування, при якому ділянкам гістограми, які рідко зустрічаються ставлять у відповідність більший крок при квантуванні, що суттєво підвищує контрастність зображення.

Отримання просторових залежностей інтенсивності, тобто зображень, у вигляді, зручному для використання в ЕОМ проводиться за допомогою широкого набору приладів, серед яких переважають пристрої, в яких чутливим елементом є матриця приладів із зарядовим зв’язком (ПЗЗ) або КМОН-матриця. У поєднанні зі швидкими багаторозрядними аналого-цифровими перетворювачами (АЦП) ці структури дозволяють формувати не лише цифрові фотоапарати, а й цифрові відеокамери, що працюють в реальному режимі часу.

Отримане в цифровому вигляді зображення в ПЕОМ проходить первинну обробку як правило на апаратному чи, рідше, на програмному рівнях згідно міркувань, описаних вище. Подальша обробка зображень проводиться за допомогою більш складного математичного апарату, що дозволяє отримати результати, які не можна було б отримати попередньою обробкою.

Найбільш поширеним методом фільтрації зображень з метою виділення корисної інформації є використання Фур'є пере­творення. Реалізоване програмним шляхом дискретне перетворен­ня Фур'є дає спектр функції яскравості. У випадку наявності періодичного шуму (доволі поширена ситуація) такий спектр володіє рядом ізольованих піків. Виділяючи ці піки і замінюючи їх значення на локальні середні амплітуди, розраховані шляхом усереднення з сусідніми точками, можна після застосування оберненого перетворення Фур'є отримати «очищене» від шуму зображення.

Більш прості методи відсіювання шумових компонент ґрунтуються на згладжуванні шляхом усереднення декількох незалежно одержаних зображень однієї і тієї ж сцени. Про­водиться також локальне усереднення яскравості кожного пікселя з урахуванням яскравості його сусідів у вибраному вікні. Використовуються алгоритми, що здійснюють згортку зобра­ження у вікні зі спеціально підібраною згладжуючою матрицею.

Проте необхідно зазначити, що ці методи фільтрації зобра­жень, усуваючи високочастотні шуми, одночасно приводять до розмивання границь об'єктів та втрати дрібних деталей, що візуально нагадує ефект розфокусування.

Зображення в ЕОМ зберігаються, як і більшість інформації, у вигляді файлів, зокрема – у т.зв. файлах растрової графіки. Існує декілька форматів файлів растрової графіки, кожен з яких вирізняється власним методом кодування інформації про окремі пікселі (чи групи пікселів) зображення, і які маркуються відповідними розширеннями імен файлів. Найбільш поширеними з них є наступні:

RLE (Run Length Encoding) – кодування довжин серій, у якому порядково кодується колір пікселя і кількість пікселів цього кольору, що йдуть підряд у цьому рядку поки не зустрінеться зміна кольору, тобто відбувається заміна ланцюжків символів, що повторюються, на один цей символ та лічильник повторювання;

LZW (Lempel, Ziv & Welch) – розроблено в 1978 році ізраїльтянами Лемпелом і Зівом, і доопрацьовано пізніше в США. Принцип стискання полягає у пошуку однакових послідовностей - фрази у всьому файлі. Виявлені послідовності зберігаються в таблиці, їм привласнюються короткі маркери - ключі. Так, якщо в зображенні є набори з рожевого, оранжевого і зеленого пікселів, що повторюються 50 разів, LZW виявляє цей набір, привласнює йому окреме число (наприклад, 7) і зберігає ці дані 50 разів у вигляді числа 7.

У файлах типу ВМР інформація про колір кожного пікселя кодується 1, 4, 8, 16 або 24 бітами. При цьому в структурі файлу на його початку записується таблиця кольорів, де кожному з можливих кольорів ставиться у відповідність певне спів­відношення інтенсивностей трьох основних кольорів

аддитивної схеми RGB (Red-Green-Вlue). Наприклад, (256, 0, 0) - червоний колір, (0, 0, 256) - голубий, (256, 256, 256) - білий, і т. д. Далі, після іншої службової інформації, розміщується масив даних, що послідовно містить інформацію про кольори пікселів (як правило, зліва направо і далі догори на наступний рядок, починаючи з лівого нижнього кута зображення). Значення, що відповідає даному пікселю – це номер кольору з таблиці, що міститься на початку файлу. Проте використання внутрішньої таблиці кольорів можливе лише для ВМР файлів з 8-бітною глибиною кольору, а для більших глибин використовується кодування в стандартній схемі RGB.

Розши-рення Формат Глибина кольору, біт/піксель Розмір зображення Метод стиснення Декілька зображень у файлі
.bmp Віt МаР   216´ 216 RLE Ні
.рсх РСХ   216´ 216 RLE Ні
.gif Graphic Іnterchange Format   216´ 216 LZW Так
.jpg Joint Photographics Ехреrts Group   216´ 216 JPEG Ні
.png Portable Network Graphics   231´ 231 LZ77 Ні
.tiff Таgged Іmage File Format   Всього 232 RLE, LZW,... Так

 

Представлення зображень в форматі РСХ дещо подібне до представлення в форматі ВМР, суттєвими різницею є лише розміщення таблиці кольорів в кінці файлу та обов’язкове використання режиму стиснення даних, що приводить до створення файлів відносно менших розмірів.

Файли типу GIF структурно подібні до двох попередніх, проте в них може знаходитись декілька зображень, кожне з окремою таблицею кольорів. Поряд з цим в таких файлах знаходиться інформація про взаємне положення зображень – їх просторове розміщення, перекриття та ін. Тобто такий фор­мат представлення дозволяє зберігати в одному файлі анімовані (рухомі) зображення. Файли типу PNG історично розвивались на основі файлів типу GIF, але на відміну від них володіють більшою глибиною кольору, що дозволяє стверджувати, що в таких файлах зображення зберігається з істинними кольорами.

Суттєво відрізняється від попередників спосіб представлення зображення в файлах типу JPEG. У цих файлах з метою збереження зображень з великою глибиною кольору використовується метод розбиття зображення на фрагменти розміром 8´ 8 пікселів з подальшою обробкою в три етапи. На першому етапі проводиться перетворення Фур'є, яке формує матрицю значень амплітуд частотних складових даного фрагмента зображення. На другому етапі шляхом підбору матриці квантування проводиться фільтрація амплітуд, які незначно впливають на загальний вид зображення. На третьому етапі відбувається стиснення отриманої матриці відповідним алгоритмом. При такому представленні досягається ефект максимального стиснення об'єму зображень без суттєвої втрати якості.

Формат типу ТІFF – найбільш складний, оскільки побу­дований у вигляді збірника окремих блоків (тегів), кожен з яких несе інформацію про певну характеристику зображення – таблицю кольорів, таблицю значень яскравості, таблицю взаємного розміщення зображень та ін. В загальному випадку нараховується до 70 типів стандартних тегів, крім того формат дозволяє формувати для конкретного зображення власні типи тегів. Таке глибоке структурування даних дозволяє отримати для великих зображень відносно невеликі за розміром файли, проте в певних випадках виникають проблеми з міжплатформною сумісністю, що однак приводить лише до погіршення якості зображення, але не до його втрати.

Розроблена група операцій, яка необхідна для полегшення наступних етапів технічного зору і проводиться з метою корекції різних викривлень, покращення контрастності, усунення шумів і т.п. Дуже часто стадія попередньої обробки практично суміщається з вводом зображення при цьому в пам'ять ЕОМ відразу заноситься «покращене» зображення. З іншого боку, розмита границя між етапами попередньої обробки і сегментації зображення, які іноді здійснюються загальними комбінованими алгоритмами. Важливою тенденцією є ріст числа реалізації функції попередньої обробки апаратними і апаратно-програмними засобами. Однак в СТЗ більш універсальні можливості поки відкривають алгоритмічні методи попередньої обробки оцифрованого зображення.

Традиційним методом фільтрації зображень з метою виділення корисної інформації із «зачумленої» картини є використання Фур'є перетворення, яке ґрунтується на добре дослідженому математичному апараті і дозволяє використовувати сучасні методи як цифрової (наприклад, швидке Фур'є перетворення), так і аналогової (зокрема, оптико-електронної) реалізації.

Реалізоване програмним шляхом дискретне Фур'є перетворення дає спектр Г(l, т) функції яскравості G (j, k) у відповідності з наступною формулою:

. (8.1)

Позначивши пряме Фур'є-перетворення як F, визначимо обернене перетворення F-1, воно дозволяє одержати функцію

. (8.2)

Якщо шум є періодичним (на практиці таке часто зустрічається), то спектр (l, т) має ряд ізольованих піків. Виділяючи ці піки і замінюючи їх значення на локальні середні амплітуди, розраховані шляхом усереднення із сусідніми точками, можна після застосування оберненого перетворення F-1одержати згладжене зображення.

Введемо функцію Н(l, т), яка задає лінійний просторовий фільтр. Добуток спектру Г(l, m) і цієї функції визначить Фур'є-образ на виході фільтрe Г0(l, m) = Г(l, mН(l, т), звідси можна одержати вихідну функцію яскравості наступного вигляду:

, (8.3)

де h(і, j) = F-1{ H (l, m)}, а символом * позначена операція згортки. Наприклад, щоб одержати фільтр, який приглушує високочастотні компоненти, можна скористатися функціями типу:

, (8.4)

де L, М - додатні константи.

Оскільки програмна реалізація алгоритмів, що базуються на Фур'є-перетвореннях, потребує порівняно великих вичислювальних затрат, робились спроби використання більш простих інтегральних перетворень. Так, перетворення Адамара має спектр (при пх = пу = п)

, (8.5)

де , а коефіцієнти b n(q) дорівнюють 1 або 0 у відповідності зі значенням n -го розряду числа q, представленого у двійковій системі (наприклад, для q = 5 = (101)2 коефіцієнти b 1(5)=1, b 2(5)=0, b 3(5)=1).

Ще більш прості методи відсіювання шумових компонентів ґрунтуються на згладжуванні за допомогою усереднення зображень. Так, амплітуду шуму з нульовим середнім значенням можна зменшити за рахунок усереднення декількох незалежно одержаних зображень однієї і тієї ж сцени. Можна також проводити локальне усереднення яскравості кожного пікселя з урахуванням яскравості його сусідів у вибраному вікні

. (8.6)

Використовуються і алгоритми, що здійснюють згортку зображення у вікні зі спеціально підібраною згладжуючою матрицею за формулою:

. (8.7)

Таким способом реалізується виважене усереднення, наприклад, з матрицями А(1, т) у вигляді:

, (8.8)

 

, (8.9)

або анізотропна фільтрація

. (8.10)

(нормовані коефіцієнти підбираються так, щоб дана операція не змінювала середньої яскравості зображення).

При рекурентній фільтрації елементи + l, j + т) беруться із вихідного масиву G для частини зображення, яка ще не піддавалася процедурі згладжування, і із «вихідного» масиву профільтрованого зображення для вже просканованих точок вікна.

Необхідно зазначити, однак, що перелічені вище алгоритми фільтрації і згладжування, усуваючи високочастотні шуми, одночасно приводять до втрат дрібних деталей зображення і до розмивання границь об'єктів, що нагадує ефект розфокусування. Намагаючись послабити це небажане похідне явище, звертаються до вибіркових усереднень, користуючись, зокрема, наступними методами:

• проводять усереднення не за усіма елементами вибраного вікна, а лише за тими, які лежать поблизу границі між фоном і об'єктом; як модифікацію такого методу застосовують усереднення за елементами, які знаходяться з того самого боку від границі, що й піксель, який розглядається;

• при усередненні враховують тільки ті пікселі вибраного вікна, яскравість яких відрізняється від яскравості даного елементу не більш ніж на раніше задане значення;

• у вибраному вікні виділяють підмножину елементів, що лежать з різних боків від даного пікселя та дають мінімальний розкид значень яскравості, і усереднення проводять тільки по цій підмножині;

• при згладженні яскравість даного пікселя замінюють не середнім, а медіанним значенням яскравості елементів вибраного вікна, тобто ці елементи упорядковують у відповідності з рівнями їх яскравості в неспадаючу послідовність G 1, G 2,..., G LM-1, G LM (L ´ М – розмір вікна), значення медіани відповідає номеру т = [(LМ + 1)/2]. Можна показати, що в результаті реалізації такого алгоритму із зображення усуваються всі деталі, площа яких всередині вікна не перевищує пікселів, причому розмиття границі при цьому не проходить.

Відмітимо, що в перших трьох методах ті із елементів вікна, які не задовольняють наведеним умовам, можна не відкидати, а при усередненні враховувати їх з меншою вагою. Ця процедура може здійснюватися ітеративно.

У робототехнічних системах технічного зору (СТЗ) досить широко застосовують методи логічного згладження («кліткової логіки»). При фільтрації бінарних зображень здійснюють позмінне «стискання» і «розширення» областей, замінюючи кожну «1» на «0», якщо даний піксель має хоча б одного сусіда з нульовою яскравістю, а потім обертаючи цей процес. Такий алгоритм дозволяє відсіювати шумові образи з невеликими розмірами або малою товщиною. Щоб усунути невеликі шумові структури з нульовою яскравістю, порядок стиску і розширення змінюється.

Логічні оператори, які застосовуються для усунення шуму, дуже різноманітні. Наприклад, можна замінити «0» на «1» тоді і тільки тоді, коли всі сусіди мають одиничну яскравість, а «1» замінити на «0», або коли всі сусідні елементи є «0», або якщо серед восьми сусідів є лише один елемент з яскравістю «1», розміщений до того ж не інакше, як по діагоналі від даного. Оператори такого типу дуже просто і швидко реалізуються на цифрових засобах.

При фільтрації бінарних зображень за допомогою оператора Лапласа (точніше - його дискретної модифікації) L (i, j) = G (i -1, j) + G (i, j -1) + G (i, j +1) + G (i +1, j) – G (i, j)вводять два пороги (додатній Тр і від'ємний Тп) і користуються наступною логікою: при Тп < L(і, j) < Тр яскравість G (і, j) не змінюється; якщо L(і, j) > Тр, то в точці (і, j) «0» замінюють на «1», а якщо L(і, j) < Тп, то, навпаки, «1» замінюють на «0».

Логічні процедури знаходять застосування при попередній обробці не тільки бінарних, але й напівтонових зображень. Наприклад, узагальнення розглянутого вище методу «стиску-розширення» на випадок декількох градацій яскравості носить назву мінімально-максимальної фільтрації. При цьому позмінно здійснюють присвоєння значення локального мінімуму і локального максимуму яскравості до даному вікну його центрального елементу (при максимально-мінімальній фільтрації цей порядок змінюється на обернений).

Іноді до етапу попередньої обробки зображення відносять різноманітне допоміжне обчислення (диференціювання, розрахунок моментів різних порядків, поелементне порівняння послідовно введених зображень і т.п.). Такі операції за своїм функціональним змістом не «покращують» зображення, а є складовою частиною алгоритмів їх сегментації.

Особливо слід зупинитися на питанні стиску інформації при формуванні зображенні. В принципі розглянуті процеси дискретизації і квантування (зокрема, бінаризація) відеоінформації уже реалізують її стиск. Крім того, з метою економії пам'яті, що відводиться для зберігання зображення, пропонувались різні способи «упакування» відеоінформації, коли дані про кожний піксель займають не цілу комірку пам'яті, а лише її частину. Наприклад, 16-ти розрядне машинне слово може містити дані про два пікселі, подані 256 градаціями яскравості (із записами в 8-ми розрядні байти), або зразу про 16 точок бінарного зображення. Важливо, що завдяки можливості ЕОМ здійснювати порозрядні логічні операції вдається одночасно обробляти декілька елементів бінарного зображення, поданого в такому вигляді (зокрема, реалізуючи алгоритми кліткової логіки). Розроблені також алгоритми, які забезпечують аналогічну «квазіпаралельну» обробку упакованих багатоградаційних зображень за рахунок програмної реалізації спеціальних арифметичних операцій над байтами або 4-розрядними блоками відеоінформації.

Різноманітна література присвячена методам кодування зображень. Хоч формально ці методи згідно прийнятої технології здійснюють не обробку, а опис зображення, коротко згадаємо їх, оскільки вони за своєю суттю призначені для стискування інформації.

Ідея кодування полягає у поданні відеоінформації в такому вигляді, який за рахунок використання статистичних властивостей зображення є в середньому більш компактним, ніж вихідний вигляд, але дозволяє точно відтворити оригінал. Зрозуміло, що якщо різні рівні яскравості пікселів нерівноймовірні, то потреби в пам'яті при зберіганні зображення можна зменшити, подаючи часто вживані рівні короткими кодами, а рідко вживані рівні - довгими кодами. Статистичні методи кодування враховують і властиву зображенням велику кореляцію між сусідніми пікселями. Так, якщо яскравість послідовних елементів вздовж стрічки розгортки є у вигляді різниць G 1, G 2- G 1, G 3- G 2,..., то вдається добитися значного стиску інформації, оскільки малі значення різниці з’являються з більшою імовірністю, ніж великі, тобто, в основному будуть використовуватись короткі коди. На жаль, таким методам притаманний серйозний недолік, пов'язаний з накопиченням помилок, для боротьби з якими доводиться декілька разів на стрічці розпочинати відлік заново від істинного рівня яскравості.

В СТЗ одержав поширення простий метод кодування за допомогою довжин серій – однорідних відрізків стрічки розгортки, де рівні яскравості елементів одинакові (або достатньо близькі). Кожна серія характеризується рівнем її яскравості (або перепадом по відношенню до попередньої серії) і довжиною – кількістю пікселів в ньому. Дослідження показали, що одномірне кодування довжин серій забезпечує стиск інформації в 4-5 разів (для бінарних зображень), а узагальнення цього підходу на випадок двох просторових змінних доводить коефіцієнт скорочення об'єму даних до 10. Відомі й інші методи кодування зображення (наприклад, з використання симплексних кодів), які успішно могли б бути застосовані в робототехніці.

У робототехнічних задачах часто потрібно зберігати інформацію в контурах – виділених границях силуетів об'єктів, або лініях рівня функції яскравості. З цією метою ефективно використовують ланцюгові коди. Кожна позиція коду визначає, наприклад, одне із восьми можливих напрямків переходу до чергового елементу при прослідковуванні контурної лінії.

Закінчуючи опис цього етапу формування зображення, ще раз підкреслимо доцільність реалізації багатьох розглянутих тут алгоритмів або їх модифікації не тільки програмними, але й апаратно-програмними і чисто апаратними засобами.

 


Поделиться с друзьями:

mylektsii.su - Мои Лекции - 2015-2024 год. (0.013 сек.)Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав Пожаловаться на материал