![]() Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Результаты экспериментов
Данный алгоритм был опробован на абстрактах научных статей, опубликованных научным обществом SPIE (https://www.spie.org). В экспериментах было задействовано более 8000 абстрактов, содержащихся в 250 томах, которые, в свою очередь, принадлежали одному из 10 тематических разделов. Категоризация текстов разделяет все множество документов по заданному числу категорий — в примере, приведенном ниже, использовалось 40 категорий. Кроме того, алгоритм позволяет определять какие слова являются наиболее значимыми для каждой из выделенных категории. В Табл.1 представлены главные слова из 3-х таких категорий. Легко убедиться, что по этим словам четко определяется «тема» категории. Так в первом случае категория объединяет абстракты по голографии, во втором — по вейвлетам и нейросетям, а в третьем — по медицине.
Сравнивать по степени близости друг к другу можно как и документы так и слова. Ниже приведены примеры близости в пространстве словоформ: выписаны слова, ближайшие к THE, NEURAL, CANCER.
|