Компонент включает в себя синтаксический анализатор для русского и английского языков и систему автоматического перевода (русско-английское и англо-русское направления). Возможны следующие применения пакета:
Результатом рабты компонента:
список слов с текстами нормальных форм и морфологическими атрибутами;
список синтаксических связей;
дерево синтаксического разбора;
перевод на другой язык.
1. Стадии обработки текста
Можно выделить следующие стадии обработки текста:
• сегментация;
• морфологический разбор;
• синтаксический разбор;
• машинный перевод.
1.1. Сегментация.
Текст разбивается на слова и предложения. Кроме собственно слов выделяются знаки препинания, цифры и другие последовательности специальных символов, которые могут присутствовать во встречающихся на практике текстах.
1.2. Морфологический анализ.
На стадии морфологического анализа для каждого из слов строится список вариантов нормализации. Каждому варианту нормализации соответствует набор атрибутов и текст нормальной формы, которыми исходное слово может обладать. Более подробные сведения об используемых атрибутах содержатся в описании синтаксического разбора.
1.3. Синтаксический разбор.
На стадии синтаксического разбора принимается решение, какие из вариантов нормализации в действительности соответствуют словам из исходного текста, и строятся синтаксические связи между словами. После этого на основе синтаксических связей строится дерево синтаксического разбора. Более подробные сведения о синтаксических связях содержатся в описании синтаксического разбора.
Таким образом, в результате синтаксического разбора получаются:
• список слов, каждому слову сопоставлен текст нормальной формы и набор атрибутов;
• список синтаксических связей между словами предложения;
• дерево синтаксического разбора.
1.4. Построение дерева разбора.
При построении дерева синтаксического разбора в слова и связи иногда могут вноситься некоторые (незначительные) изменения, т.е. в общем случае слова и связи из дерева разбора могут немного отличаться от тех, которые входят в список слов и список связей.
В дереве разбора вводится дополнительный самый верхний узел (Top). В случае, если всё предложение разобралось целиком, этому верхнему узлу прикрепляется дерево разбора, соответствующее предложению. Если в результате разбора предложение разделилось на несколько частей, между которыми отсутствуют синтаксические связи, то к верхнему узлу Top присоединяются деревья, соответствующие этим частям.
Во время синтаксического разбора связью '+' соединяются слова, входящие в перечисление. При построении дерева создается переходник, т.е. узел дерева разбора, которому не соответствует ни одно из слов исходного предложения. Связи '+' перенаправляются к этому переходнику. Кроме того, одно из слов, входящих в перечисление, может входить в качестве подчиненного слова в связь '<' или '>'. От этого слова узел-переходник заимствует атрибуты и текст. В случае, если узел-переходник является самым верхним в дереве, т.е. ни одно из слов перечисления не входит ни в какую связь в качестве подчиненного слова, атрибуты узла-переходника заимствуются от любого из слов, входящих в перечисление.
1.5. Машинный перевод
При необходимости исходный текст может быть переведен на другой язык.
Грамматические атрибуты (Русский язык)
1 существительное
2 глагол
3 прилагательное
4 наречие
5 числительное
6 местоимение
9 междометие
10 частица
11 союз
12 предлог
13 вводное слово (по счастью, конечно, впрочем)
14 неизменяемое слово
15 предикатив (можно, пора)
16 слово из другого языка
18 слово, состоящее из цифр
17 знак пунктуации
7 причастие (блестящее, читающий)
8 деепричастие (бегая, сидя)
19 единственное число
20 множественное число
21 женский род
22 мужской род
23 средний род
24 одушевленное
25 именительный падеж (кто, что)
26 родительный падеж (кого, чего)
27 дательный падеж (кому, чему)
28 винительный падеж (винительный падеж склонен обозначать меру или количество: кого, чего или с предлогом в)
29 творительный падеж (кем, чем)
30 предложный падеж (о ком, о чём)
31 финитная форма (казаться, слыть, стать, становиться)
32 инфинитив (бежать, смотреть)
36 прошедшее время
37 настоящее время
33 первое лицо
34 второе лицо
35 третье лицо
45 сравнительная степень (светлее, слабее)
38 повелительное наклонение (Принеси мне )
40 изъявительное наклонение (поеду, я работал)
41 активный залог (обозначающий, что подлежащее совершает действие)
42 пассивный залог (что подлежащее испытывает действие)
44 краткая форма (пойман, красив)
46 слово написано с большой буквы
47 неизвестное слово - нормализовано эвристически
Грамматические атрибуты (Английский язык)
1 существительное
2 глагол
3 прилагательное
4 наречие
5 числительное
6 местоимение
7 междометие
8 частица
9 союз
10 предлог
11 вводное слово
12 артикль или другой определитель (my, your)
13 неизменяемое слово
15 местоимение/определитель (this, all...)
16 слово из другого языка
17 сокращенная форма служебного
глагола с подлежащим (I’m, they’ve)
18 слово, состоящее из цифр (1, 299)
19 знак пунктуации
20 единственное число
21 множественное число
22 поссесивный падеж (Kate’s, dog’s...)
23 финитная форма
24 инфинитив
25 причастие
26 прошедшее время
27 настоящее время
28 первое лицо
29 второе лицо
30 третье лицо
31 сравнительная степень
32 превосходная степень
33 слово написано с большой буквы
34 неизвестное слово - нормализовано эвристически
Набор тегов (для русского языка)
noun_es существительное/иг иг, падеж которой не играет роли (например, зависящая от предлога)
pers_es личное местоимение/иг -
adj_es - согласованное определение, стоящее перед именем, кроме причастного оборота
num_es количественное числительное количественное числительное, стоящее перед именем, либо перед другим числительным
adv_es наречие наречие
prepnp_es предложная группа предложная группа
prep_es предлог без зависимого существительного -
sent_es предложение -
predic_es предикатив предикатив, подчиняющийся вспомогательному глаголу («было можно»)
fin_es финитный глагол/сказуемое -
skas_es сказуемое (краткое, сравнительное) сказуемое, подчиняющееся вспомогательному глаголу («было взято»)
aux_es вспомогательный глагол (быть, стать) -
inf_es глагол в инфинитиве зависимый инфинитив
dee_es деепричастие -
ptp_es причастие/прилагательное согласованный оборот, стоящий после имени или перед именем
imper_es глагол в повелительном наклонении -
subj_es - подлежащее (зависит от сказуемого)
acc_es - прямое дополнение
dat_es - дополнение в дательном падеже
ins_es - дополнение в творительном падеже
gen_es - генитивная группа или дополнение в родительном падеже
conj_es - союз
chto_es - союз «что», символизирующий изъяснительное зависимое предложение
digit_es число из цифр число из цифр
pt_es - частица
by_es - сослагательная частица «бы»
li_es - частица «ли»
koe_es - частица «кое»
emph_es - эмфатический союз «и»
head_es главное слово, синтаксический класс которого не обозначен -
misc_es разное (то, что не входит в вышеприведенные обозначения) разное (то, что не входит в вышеприведенные обозначения)
dat_es - дополнение в дательном падеже
ins_es - дополнение в творительном падеже
gen_es - генитивная группа или дополнение в родительном падеже
conj_es - союз
chto_es - союз «что», символизирующий изъяснительное зависимое предложение
digit_es число из цифр число из цифр
pt_es - частица
by_es - сослагательная частица «бы»
li_es - частица «ли»
koe_es - частица «кое»
emph_es - эмфатический союз «и»
head_es главное слово, синтаксический класс которого не обозначен -
misc_es разное (то, что не входит в вышеприведенные обозначения) разное (то, что не входит в вышеприведенные обозначения)
Набор тегов (для английского языка)
noun_es существительное существительное, зависящее от существительного
np_es существительное/именная группа иг, зависящая от предлога
adj_es прилагательное/причастие прошедшего времени определение, стоящее перед именем
adja_es - прилагательное/причастие, зависящее от глагола
card_es количественное числительное количественное числительное, стоящее перед именем, либо перед другим числительным
adv_es наречие наречие
det_es - артикль или другой определитель (determiner) при имени
prepnp_es предложная группа предложная группа
prep_es предлог без зависимого существительного предлог без зависимого существительного
sent_es предложение -
auxsu_es слитная форма подлежащего и вспомогательного глагола («I’ve») -
fin_es финитный глагол/сказуемое -
bare_es инфинитив без «to» инфинитив без «to»
aux_es вспомогательный глагол (be, must) -
inf_es инфинитив с «to» инфинитив с «to»
ing_es причастие настоящего времени герундий
ptp_es - причастный оборот, стоящий после имени
passive_es - глагол, употребленный в пассивной конструкции
subj_es - подлежащее (зависит от сказуемого)
sm_es - первое именное дополнение глагола
sm2_es - второе именное дополнение глагола
phras_es фразовый глагол -
phvprep_es - предлог, участвующий в образовании фразового глагола
coord_es - союз или запятая при однородных членах
conj_es - союз
that_es - союз «that», символизирующий изъяснительное зависимое предложение
digit_es число из цифр число из цифр
pt_es - частица
to_es - частица «to» при инфинитиве
not_es - частица «not», стоящая после глагола
comma_es - запятая
it_es - безличное подлежащее «it»
head_es главное слово, синтаксический класс которого не обозначен -
misc_es разное (то, что не входит в вышеприведенные обозначения) разное (то, что не входит в вышеприведенные обозначения)
Ответов: 537
Рейтинг: 14
|
|||
Нашел
|
|||
карма: 4 |
|