Вверх ↑
Ответов: 2059
Рейтинг: 132
#1: 2013-10-22 17:52:21 ЛС | профиль | цитата
Компонент http://yadi.sk/d/SbjAz1ySCdjEb включает в себя синтаксический анализатор для русского и английского языков и систему автоматического перевода (русско-английское и англо-русское направления).
Функция перевода не основная и носит характер: "Если Вы купите у нас квартиру, дачу и машину, то в подарок получите бейсболку с нашим логотипом".
Компонент предназначен для написаеия программ в области лингвистики ( см.http://aot.ru/но такого там нет!), поисковиков, ИИ, и т.д.
Я применяю для снятия омонимии (омографы) при озвучке текста TTS движками.
Возможности:
1.Стадии обработки текста
1.1.Сегментация.
Текст разбивается на слова и предложения. Кроме собственно слов выделяются знаки препинания, цифры и другие последовательности специальных символов, которые могут присутствовать во встречающихся на практике текстах.
1.2.Морфологический анализ.
На стадии морфологического анализа для каждого из слов строится список вариантов нормализации. Каждому варианту нормализации соответствует набор атрибутов и текст нормальной формы, которыми исходное слово может обладать. Более подробные сведения об используемых атрибутах содержатся в описании синтаксического разбора в архиве файл Справка.txt.
1.3.Синтаксический разбор.
На стадии синтаксического разбора принимается решение, какие из вариантов нормализации в действительности соответствуют словам из исходного текста, и строятся синтаксические связи между словами. После этого на основе синтаксических связей строится дерево синтаксического разбора. Более подробные сведения о синтаксических связях содержатся в описании синтаксического разбора.
Таким образом, в результате синтаксического разбора получаются:
•список слов, каждому слову сопоставлен текст нормальной формы и набор атрибутов;
•список синтаксических связей между словами предложения;
•дерево синтаксического разбора.
Если будет интересно, можно будет расширить возможности и написать подробную справку с технологиями.
Архив весит 9м из за словорей.
Словари соответственно Мюллер и Зализняк.Для их редактирования (бинарники) есть программка на aot.ru, если не найдёте могу дать свою.
В принципе, алгоритм справляется с неизвесными словами эврестически, так что только для перевода.
Можно добавлять слова в текстовый файл er.sml и re.sml.
Обновление13 ноября 2013
http://forum.hiasm.com/forum_serv.php?q=56&id=3634
карма: 6

2
Голосовали:ser_davkin, sаmakacd