понедельник, 23 апреля 2007 г.

Морфологический анализ

Ну этот алгоритм я думаю для большинства сложности не составит... Реализация проста как кирпич:

Берем слово, ищем его в базе. Если нашли - добавляем к слову все варианты перевода которые есть в базе. Если не нашли, то возможны 3 варианта:

  1. Слово написано не в исходном виде.
  2. Слово отсутствует в словаре.
  3. Слово - имя собственное.

Подробнее:

  1. по правилам английского языка (см. школьный учебник) изменяем окончание слова так, чтобы получить исходную форму слова. Пытаемся найти слово в базе. Если не нашли - см п.2.
  2. добавляем как перевод само слово (дополнительно, мой алгоритм еще по окончанию делает предположение о возможной части речи слова, но это уже не главное).
  3. по определенным причинам несловарные имена собственные (имена, фамилии) вынесены в отдельную базу - это позволяет загружать/сохранять их вместе с текстом

В принципе, это все :)

P.S.: вот хоть убейте, я не могу понять почему ПРОМТовцы уже лет 20 не могут научить переводчик самостоятельно определять имена собственные в тексте. Проблема решается за 2 минуты (я - решил :) ).

Комментариев нет:

Отправить комментарий