![]() Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Теоретичні відомості. Науку, що використовує теорію ймовірностей для обробки численних одиниць інформації як наслідків експерименту
Вступ Науку, що використовує теорію ймовірностей для обробки численних одиниць інформації як наслідків експерименту, називають математичною статистикою. Джерелом математичної статистики є великий об’єм статистичних даних, яка потребуютьпісля їхньої спеціальної обробки зробити прогноз розвитку вихідної ситуації. За великим об’ємом статистичних даних не завжди можна зробити певні висновки. Для дослідження об’єктів математичної статистики використовують математичне моделювання. Математичне моделювання –метод дослідження процесів або явищ шляхом створення їхніх математичних моделей і дослідження цих моделей. Одним із методів математичного дослідження є статистичне оцінювання генеральної сукупності. Метою даної курсової роботи є визначення закону розподілу генеральної сукупності за вибірковими даними, тобто з оброблених даних вибірки генеральної сукупності зробити висновки про властивості генеральної сукупності. Завдання даної курсової роботи: зробити з генеральної сукупності 8 вибірок; побудова та представлення статистичних рядів; обчислення числових характеристик та висування гіпотези про вид закону розподілу ознаки в досліджуваній генеральній сукупності по великих вибірках. Засобами реалізації даної курсової роботи були: електрона таблиця MicrosoftEcxelта різні методи математичної статистики. Дана курсова робота складається з наступних розділів постановка завдання, теоретичні відомості та послідовність виконання роботи.У першому розділі сформульовані завдання курсової роботи. У другому – теоретичні відомості, які необхідні для вивчення необхідного матеріалу при виконанні роботи. У третьому – послідовність виконання самої роботи.
Постановка задачі
Використовувані засоби: конспекти лекцій з курсів «Теорія ймовірностей та математична статистика», Microsoft Excel з надбудовою «Пакет аналізу», файл «Бесповторная.xls». Початкові дані: Джерелом початкових даних служить генеральна статистична сукупність (500 од.), усередині якої розподіл ознаки, що вивчається, відповідає одному з 5-ти наступних законів - експоненціальний. - бета-розподіл; - логарифмічно-нормальний; - рівномірний; - нормальний. Послідовність виконання роботи: 1. Зробити з генеральної сукупності 8 вибірок: а) велику вибірку (200 од.) методом випадкового безповторного відбору; б)методом випадкового повторного відбору; в) велику вибірку (200 од.) методом механічного відбору (вибирається кожна 2-а одиниця) г) велику вибірку (200 од.) б) велику вибірку (200 од.) методом групового відбору, починаючи з № варіанту е) малу вибірку (25 од.) методом групового відбору, починаючи з № варіанту є) малу вибірку (25 од.) методом випадкового безповторного відбору; ж) малу вибірку (25 од.) методом випадкового повторного відбору; з) малу вибірку методом механічного відбору (вибирається кожна 20-а одиниця). Примітка: Використовувана версія Microsoft Excel дозволяє одержувати вибірку методом власне випадкового повторного відбору, а також механічну (періодичну) вибірку. Для формування безповторной вибірки слід завантажити файл «Бесповторная.xls», включивши МАКРОСИ, і скористатися командою меню Сервіс \ Макрос \ Макроси.\ Вибірка без повторів. 2. Для кожної вибірки побудувати інтервальний варіаційний ряд і емпіричну функцію розподілу. Для малих вибірок число інтервалів прийняти рівним 5, для великих – 15. 3. Кожен інтервальний ряд представити графічно, у вигляді гістограми частот, полігону частот (сполучаючи середини стовпців гістограми частот), гістограми накопичених частот, а також графіка функції розподілу. За формою гістограми, полігону і графіка зробити припущення про можливий вид закону розподілу. 4. За допомогою вбудованої функції Microsoft Excel “Описова статистика” (команда меню “Сервис”\ “Аналіз даних”) визначити для генеральної, а також для кожної вибіркової сукупності наступні параметри: - середні вибіркові для вибірок і математичне очікування для генеральної сукупності; - дисперсію; - середнє квадратичне відхилення; - коефіцієнт варіації. - моду; - медіану; - асиметрію; - ексцес. Аналізуючи одержані дані, зробити висновок про ступінь однорідності вибірок. Зробити висновок про форму кривої розподілу на предмет зсуву вершини щодо центру розподілу і ступеня “крутизни” вершини. Порівняти вибіркові характеристики з генеральними та, обчисливши абсолютні та відносні похибки, зробити висновок щодо точності методів відбору. 5. Спираючись на результати аналізу, висунути гіпотезу про вид закону розподілу ознаки в досліджуваній генеральній сукупності по великих вибірках. Визначити оцінки параметрів розподілу методом моментів. Побудувати графіки для кожної одержаної моделі, наклавши їх на відповідні полігони. 6. Виконати перевірку правильності гіпотези, використовуючи критерій c2 та критерій Колмогорова-Смірнова. 7. Якщо гіпотеза виявилася невірною, повторити п. 1.5 і 1.6, висуваючи нове припущення про вид розподілу (обмежитися запропонованими розподілами). 8. Зробити висновки. Теоретичні відомості 1.1 Генеральна сукупність та вибіркова сукупність Вибіркова сукупність - це частина генеральної сукупності, що відображає та відтворює основні характеристики останньої і є її зменшеною моделлю. Вибіркоюназивають сукупність випадково відібраних об’єтків. Нехай з генеральної сукупності взята вибірка, причому Накопичена частота одержується послідовним додаванням частот чергового інтервалу, починаючи з першого і закінчуючи останнім. Існують малі та великі вибірки.Відносна частота –це відношення відповідної частоти до об’єму вибірки.Малою називається вибірка яка містить менше ніж 30 елементів. Великою називається вибірка яка складається більше ніж з 30 елементів, а для соціальних явищ більше ніж 60. Вибірка володіє наступними властивостями: - об’ємність(чим більший об’єм вибірки, тим точніший результат); - представницькість; - репрезентативність. Методи відбору: - повторний; - безповторний
Способи відбору: - випадковий відбір(повторний, безповторний); - механічний відбір; - груповий відбір. Повторною називають вибірку, при якій оброблений об’єкт (перед відбором наступного) повертається в генеральну сукупність. Безповторною називають вибірку, при якій оброблений об’єкт у генеральну сукупність не повертається. Механічним називають відбір, при якому генеральну сукупність “механічно” ділять на стільки груп, скільки об’єктів повинно увійти у вибірку, а з кожної групи відбирають один об’єкт або коли з генеральної сукупності береться елемент з певним періодом. Груповоюназивають вибірку, при якій вибирається група об’єктів підряд починаючи з наперед заданого обсягу.
1.2 Статистичний ряд
Ранжований ряд – це ряд в якому значення ознаки розташовується в зростаючому(спадаючому порядку) і рахунок ведеться за групами. Статистичний ряд– це таблиця з двох рядків у першому записані значення показників вибірки (варіанта), в другому відповідна частота появи варіанти. Інтервальний ряд – це ряд в якому варіанти задаються інтервалами.Використовується для полегшення обробки статистичної інформації на великих вибірках, та у випадках коли частоти варіант мало відрізняються між собою а варіанти розташовані близько одна до одної. Кількість інтервалів визначається за формулою Стреджерса(1.1).
Довжина інтервалу розраховується за формулою:
де
Примітка: так як
3.3 Емпірична функція, властивості
Емпірична функція розподілу - це функція F*(x), яка визначає для кожного значення х відносну частоту події Х< x, де Х - деяка кількісна досліджуваного явища. Таким чином F*(x)= Запис емпіричної функції має наступний вигляд:
0,
1,
де
де
Властивості емпіричної функції: 1) Значення емпіричної функції належать відрізку [0; 1] 2) F*(x) - неспадна функція; 3) Якщо Якщо
1.4 Графічне представлення інтервальних рядів
Полігоном частот називають ламану, відрізки якої з'єднують точки ( У випадку неперервної ознаки доцільно будувати гістограму, для чого Гістограмою частот називають східчасту фігуру, що складається із Гістограмою накопичення частот називають ступінчасту фігуру, яка складається з прямокутників, основи яких дорівнюють довжинам інтервалів. Висота прямокутників дорівнює частоті значень для кожного окремого інтервалу. Значення йдуть по накопиченню. На осі абсцис відкладаються довжини інтервалу, а на осі ординат відкладаються накопичені частоти значень. Графік функції розподілу
1.5 Числові характеристики варіаційних рядів Простою середньоарифметичною вибірки називають суму варіант вибірки, поділену на об’єм вибірки.
Дисперсія середнє арифметичне квадратів відхилення варіант від їх середнього.
Середнє квадратичне відхилення – квадратний корінь з дисперсії.
Коефіцієнт варіації – характеристика однорідності вибірки (генеральної сукупності) і обчислюється за формулою:
Мода значення варіанти, яка має найбільшу частоту.
де
- для обчислення моди використаємо наступну формулу:
Медіана– значення варіанти, яке ділить вибірку(сукупність) навпіл.
де
Асиметрія – безрозмірна величина, яка показує ступінь скошеності вибірки і обчислюється за формулою
де
Ексцес – безрозмірна величина, яка показує характер гостроверхостіі обчислюється за формулою
де
Похибки бувають абсолютні та відносні. Абсолютна похибка вимірювання- це похибка вимірювання, виражена в одиницях вимірюваної величини.
Відносна похибка вимірювання – це похибка вимірювання, виражена як відношення абсолютної похибки до дійсного відношення абсолютної похибки. Відносну похибку знаходять за співвідношенням:
1.6Статистичні гіпотези Глибокий статистичний аналіз включає порівняння різних критеріїв (коефіцієнтів) та перевірку гіпотез про їх істотність для більш повного розуміння результатів. Розглянемо трохи докладніше, як саме проходить процес перевірки статистичних гіпотез. Під гіпотезою в статистиці розуміють припущення про розподіл випадкової величини. Так гіпотезою є припущення, що деякий розподіл (наприклад, за віком тощо) має середнє значення 20. Або при розв’язуванні задач, які полягають в оцінці різниці між результатами, одержаними під час різних експериментів. Критерій перевірки гіпотези надає метод перевірки, в результаті якого з’ясовується, вірна чи невірна дана гіпотеза, тобто «приймається» вона чи «відкидається1’. Якщо відхилення експериментальних даних від гіпотези мале і є випадковим – гіпотеза приймається, якщо ж це відхилення не можна вважати випадковим і мова йде про так зване істотне відхилення – гіпотеза відхиляється. Отже суть перевірки гіпотез полягає у тому, щоб визначити, узгоджуються чи ні результати експерименту з гіпотезою, випадковими чи не Статистична перевірка гіпотез неминуче пов’язана з ризиком прийняття помилкового рішення. Ризик І–помилка першого роду–відхилення правильної нульової гіпотези. Ймовірність зробити таку помилку дорівнює Правило за яким гіпотеза Но відхиляється або не відхиляється (приймається), називається статистичним критерієм (функцією критерію). Значення характеристики має певну ймовірність. Межу малоймовірності називаютьрівнем істинності а – це ймовірність ризику І, тобто ймовірність відхилення вірної Н0 (помилки першого роду), а тому залежно від змісту гіпотези Но і наслідків її відхилення рівень істотності визначають у кожному конкретному дослідженні. Звичайно вибираютьодин з рівнів α, для яких існують табульовані значення статистичних характеристик критеріїв: α = 0.10; 0.05; 0.025; 0.01.
Під критичними значеннями статистичної характеристики розуміють теоретичні (табличні) її значення, обчислені для певного розподілу і з відповідним рівнем істотності (ймовірності) та ступенів вільності (чисел, Поняття ступені вільності – одне з найбільш важливих понять статистики. Це питання досить важке для розуміння, тому для його пояснення обмежимося спрощеним трактуванням, у відповідності з яким для сукупності спостережень, що розглядається, число ступенів вільності співпадає з числом незалежних одне від одного спостережень. 1.7 Перевірка гіпотез за двома критеріями
Початкові та центральні емпіричні моменти є обґрунтованими оцінками відповідно початкових та центральних теоретичних моментів того ж порядку. На цьому оснований метод моментів, який був запропонований Пірсоном. Перевага методу – його відносна простота. Метод моментів точкової оцінки невідомих параметрів заданого розподілу полягає в прирівняні теоретичних моментів розглядуваного розподілу до відповідних емпіричних моментів того ж порядку.
Суть критерію: Критерій Обмеження критерію: 1) 2) 3) вибрані варіанти повинні охоплювати весь діапазон варіативності ознаки, при цьому групування повинно бути однаковим у всіх розподілах, що співставляються; 4) групування повинно містити рівні інтервали (значення ознаки мають бути рівновіддалені). Нульова гіпотеза: емпіричний закон розподілу відповідає теоретичному
Альтернативна гіпотеза: емпіричний закон розподілу не відповідає теоретичному
Емпіричне значення
Далі по таблиці критичних точок Якщо
Критерій Колмогорова - Смірнова Критерій ґрунтується на порівнянні статистичної і теоретичної функцій розподілу. Якщо
то при n → ∞
За допомогою таблиць розподілу Колмогорова - Смірнова визначається правостороння критична область.
2 Послідовність виконання роботи
2.1 Побудова вибірок з генеральної сукупності
Для висунення гіпотез про можливий вид розподілу ми виконали наступні завдання: Побудовали вибіркові сукупності із генеральної. Для формування безповторної вибірки ми завантажили файл «Бесповторная.xls», включивши МАКРОСИ, і скористатися командою меню Сервіс \ Макрос \ Макроси.\ Вибірка без повторів та вказуємо діапазони вхідних і вихідних комірок. Для формування вибірки з повторенням було виконано такі команди: Дані/ Аналіз даних/ Вибірка. Для формування вибірки механічним відбором: Дані/ Аналіз даних/ Вибірка. Велику вибірку (200 ел.) методом групового відбору, починаючи з 24 числа відбираємо 200 елементів, а малу беремо 25 елементів, починаючи з 24 числа. Дані беремо з додатку А (таблиця 1). Отримані ранжовані вибірки наведено в (таблиці А. 2-9)
2.2Побудова інтервальних варіаційних рядів та обчислення емпіричної функції
Для подальших досліджень дані ранжованих вибірок було згруповано у інтервальні ряди. Для визначення частот варіант використано функцію Microsoft Excel “Частота”. Отримані інтервальні ряди представлено в таблицях В.1 – 4. За умовою, частота інтервала не повинна бути меншою 5. Оскільки у наших вибірках такі частоти були присутні, то ми відкидали ту кількість елементів, які входять до інтервалів, частоти яких менші 5. Межа відкидання становить 20 %, тобто 40 елементів. Але якщо і при таких змінах значення частот були менші за 5, то ми зменшували кількість інтервалів. У нашому випадку: для великої безповторної вибірки було відкинуто 35 ел. і кількість інтервалів зменшена до 12; для великої повторної вибірки – 34 ел. і кількість інтервалів – 12; для великої механічної вибірки – 19 ел. і кількість інтервалів – 14; для великої групової вибірки – 15 ел. і кількість інтервалів – 12.(таблиці С.1– 9). Емпірична функція (С.1–8).
2.3 Побудова гістограм частот, полігонів частот, гістограм накопичених частот та графіків емпіричної функції За допомогою команди меню Вставка \ Диаграмма було побудовано в MicrosoftExcel гістограму, полігон, графік емпіричної функції розподілу, які представленні в додатку D для кожної вибірки відповідно. Порівнюючи полігони частот вибірок із полігоном частот генеральної сукупності ми зробили висновок, що полігони частот великих повторної і групової вибірок найкраще відображають генеральну сукупність. Найменш схожими з полігоном частот генеральної сукупності є полігони малих механічної і безповторної вибірок. На даному кроці на основі візуального порівняння полігонів частот наших вибірок і графіків законів розподілу було висунуто гіпотези про можливий закон розподілу генеральної сукупності. Проаналізувавши полігон частот можна відкинути рівномірний закон розподілу, адже графік має бути приблизно паралельний осі ОХ, також можна меншу увагу звертати на нормальний та логарифмічно-нормальний закон розподілу, тому що графік полігону частот менш схожий на ці закони розподілу. Отже, дані графіки свідчать про можливість наступних двох розподілів: Бета-розподілу та Експоненціального розподілу що видно з графіків. Можливість Бета-розподілу наступна, оскільки Бета-розподіл задається через щільність
де α, β довільні параметри.Графік цього розподілу при α =1 і β =3 дуже схожий на експоненціальний розподіл, тому на даному етапі ми не можемо відкинути даний графік.Спростувати чи навпаки підтвердити дані розподіли ми зможемо після побудови полігону для генеральної сукупності а також елементи вибірки знаходяться в інтервалі[0; 1]. Дані графіки знаходяться в додатку D.
2.4 Обчислення числових характеристик
Визначимо для вибіркових сукупностей числові характеристики за формулами (1.6 – 1.13) Одержимо наступні числові характеристики для всіх вибірок:
Таблиця 2.1 – Зведена таблиця числових характеристик
За візуальною оцінкою було виявлено, що генеральній сукупності із великих вибірок найбільш відповідає велика групова вибірка. Щоб висунути гіпотези про можливий вид розподілу обчислимо абсолютну та відносну похибки для кожної вибірки. Знайдемо абсолютну похибку числових характеристик за формулою(1.14). Таблиця 2. 2 – Абсолютні похибки числових характеристики
Знайдемо відносну похибку за формулою (1.15).
Таблиця 2. 3 – Відносна похибка числових характеристик
Розглянувши похибки великих вибірок можна сказати, що найбільш точною є велика повторна вибірка, а найменш точною – велика механічна вибірка.
4.5 Визначення оцінки параметрів розподілу
Спираючись на результати аналізу, ми можемо впевнитися про припущення щодо можливого виду розподілу. Раніше ми припускали про можливість двох розподілів: експоненціального та Бета – розподілу. З отриманих результатів по генеральній сукупності чітко видно що математичне сподівання та середнє квадратичне майже однакові(таблиця 1) Отже припущення, що даний розподіл може бути розподілений за Бета-розподілом на даному етапі відхиляємо. І можимо висунути гіпотези:
Для визначення оцінки параметрів розподілу використаємо метод моментів. Для експоненціального розподілу в нас всього один параметр λ. Дляе кспоненціально розподіленої випадкової величини функція щільності має вигляд: Тобто за допомогою початкового теоретичного моменту та початкового емпіричного моменту. Які рівні між собою, тобто математичне сподівання дорівнює середньому вибірковому. де
Таблиця 2.4 – Щільність експоненціального розподілу для вибірок.
Після знаходження параметру
Таблиця 2.5 – Щільністьдля великої повторної вибір
Таблиця 2.7 – Щільністьдля великої без повторної вибірки:
Таблиця 2.8 – Щільність для великої механічної вибірки
Таблиця 2.9 – Щільність для великої групової вибірки
Отримані щільності розподілів зобразимо графічно наклавши їх на відповідні полігони частот. Представлення даних графіків:
Рисунок 2.1 – Полігон частот великої повторної вибірки та щільність експоненціального розподілу
Рисунок 2.2 – Полігон частот великої без повторної вибірки та щільність експоненціального розподілу
Рисунок 2.3 – Полігон частот великої механічної вибірки та графік щільності експоненціального розподілу
Рисунок 2.4 – Полігон частот великої групової вибірки і графікщільності експоненціального розподілу
|