Студопедия

Главная страница Случайная страница

КАТЕГОРИИ:

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Модель даних






DSpace. Спосіб організації даних в DSpace обраний таким чином, щоб відобразити структуру установи, фонди та зібрання складаються з елементів, які є основною одиницею архівування. Елемент складається з згрупованого, пов'язаного між собою вмісту і відповідних описів (метаданих). Метадані, що описують елемент, індексуються для навігації та пошуку. Далі, елементи, в свою чергу, являють собою набори (зв'язки) бітових потоків (файлів). Мета подібних наборів - зберігати тісно пов'язані файли разом.

Таблиця 1. Приклади об'єктів DSpace

Типи об’єктів
Разділ (Community) Подрозділ (Sub-community) Колекція (Collection) Елемент (Item) Набір (Bundle) Файл (Bitstream) Формат файла (BitstreamFormat)

Кожен елемент має запис метаданих стандарту Дублінського ядра (Qualified Dublin Core - QDC). Інші метадані можуть зберігатися в елементі у вигляді текстового файлу, але обов'язковим набором метаданих для кожного елемента є QDC, що забезпечує простоту знаходження елементів. Метадані QDC можуть бути введені кінцевими користувачами разом з самими документами або вони можуть бути отримані з інших метаданих як частина процесу поглинання (ingest process).

EPrints. Тут немає такого строгого структурного поділу на розділи і колекції, які все ж відіграють важливу роль, наприклад, для звуження області пошуку по репозиторію. Ідея моделі даних EPrints полягає в тому, що всі записи еквівалентні і не складають ієрархію. Тим не менш, ієрархія необхідна для навігації по репозиторію, оскільки користувач може точно не знати мету своїх пошуків, маючи лише приблизне уявлення про неї. У EPrints ця задача вирішена за допомогою оглядів або уявлень (views) - спосіб генерувати навігацію будь-якого необхідного типу, використовуючи пов'язані з елементами поля метаданих, тобто огляд може здійснюватися по Підрозділам, або по Автору, або, більш складний варіант, по Році публікації.

Таким чином, в моделі даних EPrints можна забезпечити гнучку підтримку ієрархічної тематичної класифікації (за замовчуванням, Класифікації бібліотеки конгресу) і дерева підрозділів організації.

Такі об'єкти, як елемент, набір файлів, файл, схожі з аналогічними в DSpace. Елемент теж є основною одиницею зберігання і містить всі метадані, надані для зовнішнього використання. Відмінною рисою EPrints є можливість динамічно генерувати метадані в різних форматах з внутрішнього подання. Ще одна значна відмінність полягає в тому, що всі типи збережених матеріалів класифіковані (книга, стаття, дисертація і т.д.) і кожному типу поставлений у відповідність набір внутрішніх полів метаданих.

Таким чином, об'єкти типу елемент подібні в обох системах. Це відповідає моделі, використовуваної в OAI-PMH, яка коротенько може бути описана як ресурс-елемент-запис. Ресурс може являтися як традиційним об'єктом для бібліотек (книга, стаття), так і іншим об'єктом (зображення, фільм). Елемент є таким компонентом репозиторію, з якого поширюються метадані про ресурс. Елемент зберігає або динамічно генерує метадані про окремий ресурсі в безлічі форматів, кожен з яких може бути зібраний у вигляді запису за допомогою протоколу OAI-PMH.

Ієрархічна структура елементів істотно різна. DSpace використовує більш жорстку систему, а EPrints дозволяє створювати більш складні ієрархії на основі різних зовнішніх уявлень. Можна сказати, що модель даних EPrints більш універсальна.

У Greenstone структура кожної колекції визначається в процесі її створення. Вона включає визначення формату використовуваних документів, їх виведення на екран, джерело метаданих, які предметні показники повинні бути включені, які слід надати повнотекстові індекси, як повинні відображатися результати пошуку. Після того, як колекція створена, в неї легко додати нові документи за умови, що вони того ж формату, що й існуючі документи, і що вони мають подібні метадані. Кожна колекція містить файл конфігурації, в якому встановлюються параметри побудови і використання колекції. Кожен текстовий документ може бути ієрархічно структурований у вигляді вкладених розділів (sections) (розділи, підрозділи, подподраздели і т.д.). Ієрархічна структура розділів відображає змістовну структуру документа. Кожен з розділів, у свою чергу, складається з одного або декількох абзаців (paragraphs). Таким чином, структуризація змісту звичайних документів на частини, глави, розділи і т.д. представляється в документах Greenstone у вигляді ієрархічної структури розділів Greenstone. Структура документа може використовуватися при формуванні пошукових індексів. Якщо вхідні документи не мають структури, то в колекції Greenstone вони можуть бути представлені у вигляді послідовності сторінок, що дозволяє переглядати документи посторінково.

3.2. Формати файлів

Кожен файл, що зберігається в системі пов'язаний з певним форматом. Так як зберігання є основоположною функцією бібліотечної системи, то для таких систем є істотною можливість розпізнавати конкретні формати файлів, що завантажуються користувачем. Невід'ємною частиною формату файлу є явно або приховано виражений спосіб інтерпретації його вмісту.

Список підтримуваних форматів файлів для систем наведено в табл. 2. Як видно з таблиці системи дозволяють зберігати і надати доступ до більшості найбільш відомих типів файлів.

Таблиця 2. Підтримувані формати файлів

DSpace Eprints Greenstone
Mathematica Microsoft Excel Microsoft Powerpoint Microsoft Project Microsoft Visio Microsoft Word MPEG MPEG Audio Photo CD Photoshop Postscript RealAudio RTF, SGML, TeX, TeX dvi Text, TIFF, Video Quicktime WAV, WordPerfect, XML Adobe PDF AIFF audio/basic BMP FMP3 GIF HTML image/png JPEG LateX MARC PDF, PostScript, Word, RTF, HTML, Plain text, Latex, ZIP archives, Excel, PPT, Email. Для мультимедійних документів: зображення (будь-який формат, включаючи GIF, JIF, JPEG, TIFF), MP3 audio, Ogg Vorbis audio та ін. За різної організації колекції і роботі з плагінами можна створювати або гомогенні колекції (документи однієї природи, наприклад, MS Word + MS Excel), або гетерогенні (електронні тексти + окремі зображення + аудіо + відео +...).

 

У DSpace-системі кожен файл, що зберігається додатково характеризується такими рівнем підтримки:

- Підтримуваний формат розпізнається, і це означає, що файл цього формату можна буде використовувати в майбутньому;

- Відомий формат розпізнається, тому збережений файл можна витягувати в тому ж форматі;

- Нерозпізнаний формат, що не підтримуються, але архів, що надає послуги по розміщення інформації зберігає файл як є, і дозволяє витягувати його з архіву в тому ж форматі.

3.3. Метадані

DSpace підтримує три види метаданих по контенті, що архівується.

Описові метадані. Кожен елемент архіву має одну запис метаданих у форматі QDC, який не жорстко заснований на наборі елементів і кваліфікаторів профілю бібліотечних додатків, забезпечуваного в системі DSpace за замовчуванням, його легко можна змінювати через реєстр елементів і кваліфікаторів.

Інші описові набори метаданих, наприклад UNIMARC, можуть підтримуватися в звичайних текстових файлах. Фонди та зібрання мають декілька простих описових полів метаданих (ім'я та кілька описових речень), що зберігаються в СУБД.

Адміністративні метадані включають метадані схоронності (preservation),

походження (provenance) і політики авторизації даних. Більшість з них зберігається в СУБД системи DSpace. Метадані походження зберігаються в записах DC. Додатково деякі інші адміністративні метадані (наприклад, розмір файлу або MIME-типи) копіюються в записах DC так, щоб вони були легко доступні через протокол OAI.

Структурні метадані включають інформацію про те, як представляти елемент або файли всередині елемента користувачам і відносини між складовими частинами елемента. Структурні метадані в DSpace займають досить важливе місце. Усередині елемента, як було описано вище, файли можуть бути впорядковані в окремі набори. Набір може мати головний файл (primary bitstream). Додаткові структурні метадані можуть зберігатися в простих текстових файлах.

EPrints використовує різні типи записів, що описують документ. З кожним типом документа пов'язаний окремий набір полів метаданих (підмножина безлічі всіх полів метаданих EPrints). Набір включає в себе тільки записи, використовувані конкретним типом документа. Веб - сторінки генеруються таким чином, щоб відображались тільки ті поля метаданих, які відповідають своєму типу документа.

У EPrints виділені наступні типи документів:

- Стаття в журналі, газеті, не обов'язково прорецензована, яка можливо є тільки в електронному вигляді, або в онлайн-журналі або на веб-сайті новин;

- Книга або збірник конференції;

- Розділ книги чи глава книги;

- Монографія, можливо технічний звіт, звіт за проектом, документація,

протокол дискусії;

- Доповідь конференції або семінару - документ, лекція або презентація з конференції, семінару чи іншої події;

- Набір даних - пов'язана колекція кількісних даних;

- Навчальний ресурс - записи лекцій, вправи, екзаменаційні документи або програми курсів.

Для цілісності репозиторію деякі поля метаданих є обов'язковими і, отже, повинні бути заповнені. Кожне поле введення супроводжується детальним довідковим описом.

Greenstone підтримує більшість загальновикористовуваних метаданих для опису документів. Для опису документів передбачена можливість вибрати з вбудованих в Greenstone схем метаданих: Dublin Core (кваліфікований і не кваліфікований рівень), RFC 1807, NZGLS (New Zealand Government Locator Service), AGLS (Australian Government Locator Service), Extracted Greenstone Metadata та ін. Крім того, користувач може створити будь-який набір метаданих, використовуючи вбудований в Greenstone Редактор метаданих. Є плагіни для XML, MARC, CDS / ISIS, ProCite, BibTex, Refer, OAI, DSpace, METS. На вибір користувача, метадані присвоюються одиницям збереження різними способами: автоматичний витяг, ручна набивка, імпорт, ієрархічне спадкоємство. ПЗGreenstone орієнтоване на усі види електронних ресурсів (статті з газет, технічні документи, художні книги, наукові журнали, фольклор, аудіо- та відео-інформація).

3.4. Експорт / Імпорт

EPrints підтримує цілий спектр наборів метаданих. Серед них є Dublin Core, який вважається обов'язковим у OAI-PMH. Для загальнодоступних елементів репозиторію EPrints представляє їх метадані у форматі DC. Якщо які-небудь служби OAI запитують інший формат метаданих, наприклад MODS, система може коректно обробити і цей запит.

Дані з EPrints можуть експортуватися в наступних форматах метаданих:

- BibTeX - бібліографічний формат метаданих;

- OpenURL ContextObject - стандарт метаданих ANSI / NISO Z39.88-2004 для контекстнозавісімих сервісів, зазвичай повнотекстового пошуку;

- OpenURL Dissertation - той же стандарт, спеціалізований для ресурсів типу дисертації;

- OpenURL Journal - той же стандарт, спеціалізований для ресурсів типу журнал;

- Dublin Core - Дублінське ядро, стандарт метаданих ANSI / NISO Z39.85-2001 (а також стандарт ISO 15836-2003) [21];

- DIDL - Digital Item Declaration Language, за допомогою якого в MPEG-21 описуються складні електронні об'єкти [23];

- EndNote - поширений у науковому співтоваристві бібліографічний формат посилань цитування, використовується в однойменному комерційному продукті;

- HTML Citation - HTML-формат цитування для документів, використовуваний для перегляду або пошуку документів в Eprints 3.0;

- METS - стандарт кодування і передачі метаданих;

- MODS - схема метаданих опису об'єкта;

- Reference Manager - формат метаданих для створення і управління архівами та бібліографічними описами, експорт в цей формат дозволить використовувати метадані Eprints 3.0 в системі Reference Manager (системі того ж класу, що і EndNote);

- Refer - формат, побудований у відповідності зі спеціально відформатованим документом (troff), може використовуватися практично будь-якою програмою і є досить узагальненим форматом бібліографій;

- Simple Metadata (SimpleMDE) - цей набір метаданих є підмножиною повного можливого набору метаданих і використовується, коли виконується швидка анотація;

- ASCII Citation - звичайний текстовий формат;

- EP3 XML - експорт в XML.

DSpace. Для реалізації функцій експорту та імпорту в системі передбачені плагіни переходів (crosswalk plugins). Це програмні модулі, які здійснюють перехід між метаданими DSpace-об'єктів з певними зовнішнім представленнями. Як правило це пари плагінів для імпорту та експорту. Наприклад, з формату метаданих MODS у внутрішній формат DSpace і навпаки. Використовувані плагіни перераховані в конфігураційному файлі.

Інсталяція DSpace включає наступні плагіни переходів, використовувані в рамках протоколу ОАІ-PMH:

- METS - стандарт кодування і передачі метаданих.

- MODS - схема метаданих опису об'єкта.

- QDC - кваліфіковане Дублінське Ядро, яке, як було згадано вище, є основним набором метаданих системи DSpace.

- DIDL - Digital Item Declaration Language.

В Greenstone документи можуть імпортуватися з перелічених вище форматів. Створена електронна бібліотека може експортуватися на компакт-диски з подальшим її автономним використанням. Вхідні інформаційні ресурси для побудови колекції можуть розташовуватися: на локальному комп'ютері, у локальній мережі та глобальної мережі і доступні з використанням протоколів HTTP та FTP.

Вхідні документи можуть мати різні формати, для підтримки імпорту яких використовуються плагіни (спеціальні утиліти імпорту документів відповідних форматів). Всі вхідні документи, внесені в систему Greenstone, конвертуються у формат архіву Greenstone (Greenstone Archive Format). Система Greenstone кожному документу автоматично привласнює унікальний ідентифікатор OID (Object Identifier).

 

 


Розділ 4


Поделиться с друзьями:

mylektsii.su - Мои Лекции - 2015-2024 год. (0.01 сек.)Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав Пожаловаться на материал