![]() Главная страница Случайная страница КАТЕГОРИИ: АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Фразеологический машинный перевод
Концепция фразеологического перевода базируется на понимании того факта, что в естественных языках смысл лексических единиц более высокого уровня (например, фразеологических единиц, являющихся наименованиями понятий или ситуаций), как правило, не сводим к смыслу составляющих их лексических единиц более низкого уровня (например, слов). При решении проблемы перевода ранее делалась ставка прежде всего на грамматически правильный пословный перевод, а полисемия слов разрешалась в основном процедурными средствами на основе учета их синтаксических и семантических признаков. Поэтому системы МП первых трех десятилетий их развития можно охарактеризовать как системы семантико-синтаксического преимущественно пословного перевода. Словосочетания здесь также использовались, но в меньшей степени. Семантико-синтаксический пословный машинный перевод текстов не имеет особой перспективы, так как в естественных языках смысл словосочетаний, как правило, не сводим или не полностью сводим к смыслу составляющих их слов, и при переводе он не обязательно может быть «вычислен» на основе синтаксических и семантических признаков этих слов. Принципы построения систем фразеологического машинного перевода текстов были впервые сформулированы Г. Г. Белоноговым в 1975 г. и изложены в 1983 г. в книге Г. Г. Белоногова и Б. А. Кузнецова «Языковые средства автоматизированных информационных систем». В 1984 г. аналогичная идея была высказана японским ученым профессором Нагао из университета Киото. Он предложил в качестве альтернативы подход, основанный на использовании ранее переведенных текстов, представленных одновременно на двух языках (билингв). Важнейшими среди этих принципов являются следующие: • основными единицами языка и речи, которые прежде всего следует включать в машинный словарь, должны быть фразеологические единицы (словосочетания, фразы). Отдельные слова также могут включаться в словарь, но они должны использоваться только в тех случаях, когда не удается осуществить перевод, опираясь только на фразеологические единицы; • наряду с фразеологическими единицами, состоящими из непрерывных последовательностей слов, в системах машинного перевода следует использовать и так называемые речевые модели — фразеологические единицы-шаблоны с «пустыми местами», которые могут заполняться различными словами и словосочетаниями, порождая осмысленные отрезки речи; • реальные тексты, независимо от их принадлежности к той или иной тематической области, обычно бывают политематическими, если они имеют достаточно большой объем. И отличаются они друг от друга не столько словарным составом, сколько распределениями вероятностей появления в них различных слов из общенационального словарного фонда. Поэтому машинный словарь, предназначенный для перевода текстов даже только из одной тематической области, должен быть политематическим, а для перевода текстов из различных предметных областей — тем более; • для систем фразеологического перевода необходимы машинные словари большого объема. Такие словари могут создаваться на основе автоматизированной обработки двуязычных текстов, являющихся переводами друг друга, и в процессе функционирования систем перевода; • наряду с основным (политематическим) словарем большого объема в системах фразеологического машинного перевода целесообразно использовать также набор небольших по объему дополнительных тематических словарей. Дополнительные словари должны содержать только ту информацию, которая отсутствует в основном словаре (например, информацию о приоритетных переводных эквивалентах словосочетаний и слов для различных предметных областей, если эти эквиваленты не совпадают с приоритетными переводными эквивалентами основного словаря); • основным средством разрешения полисемии (многозначности) слов в системах фразеологического перевода является их использование в составе фразеологических словосочетаний. Дополнительным — аппарат дополнительных тематических словарей, где для каждого многозначного слова или словосочетания указывается его приоритетный переводной эквивалент, специфичный для рассматриваемой предметной области; • большую роль в системах фразеологического машинного перевода текстов могут играть процедуры морфологического и синтаксического анализа и синтеза русских и английских текстов, построенные на основе принципа аналогии. Эти процедуры позволяют отказаться от хранения в словарях большого объема грамматической информации и порождать ее по мере необходимости автоматически, в процессе перевода. Они делают систему перевода открытой — способной обрабатывать тексты с «новой» лексикой; • наряду с переводом текстов в автоматическом режиме в системах фразеологического машинного перевода целесообразно предусмотреть интерактивный режим работы. В этом режиме пользователь должен иметь возможность вмешиваться в процесс перевода и настраивать дополнительные машинные словари на тематику переводимых текстов. В соответствии с главным тезисом концепции фразеологического перевода, система фразеологического машинного перевода должна включать в свой состав базу знаний, содержащую переводные эквиваленты для наиболее часто встречающихся фраз, фразеологических сочетаний и отдельных слов (рис. 4.15) и программные средства для морфологического и синтаксического анализа и синтеза текстов и для их редактирования человеком. В процессе перевода текстов система должна использовать хранящиеся в ее базе знаний переводные эквиваленты в следующем порядке: сначала для очередного предложения исходного текста делается попытка перевести его как целостную фразеологическую единицу; затем, в случае неудачи, — входящие в его состав словосочетания; и, наконец, осуществляется пословный перевод тех фрагментов текста, которые не удалось перевести первыми двумя способами. Фрагменты выходного текста, полученные всеми тремя способами, должны грамматически согласовываться друг с другом (с помощью процедур морфологического и синтаксического синтеза).
|