описание
Лигвистический поиск это поиск всех словоформ слова и слов, которые с ним связаны зависимостями по простой форме слова - лемме, по морфологическим атрибутам и словоформе.
1. При поиске по лемме надо задать простую форму слова, например "туннель", по этой маске будут найдены все формы этого слова в тексте во всех родах, склонениях, падежах и числе.
Пример выводимого результата:
в 12 28 30
туннеле 30 22 19 1 35
коротком 30 22 19 3 35
-----------------------
конец 25 22 19 1 35
туннеля 26 22 19 1 35
-----------------------
в 12 28 30
туннель 28 22 19 1 35
большой 28 22 19 3 35
поперечный 28 22 19 3 35
-----------------------
по 12 27
туннелю 27 22 19 1 35
-----------------------
Принадлежность к одному предложению обозначена чертой.
Первым, если оно есть, идёт сочинённое слово.
Два и больше слов в одной строке означает, что они равнозначны.
-----------------------
туннелем 29 22 19 1 35 потолком 29 22 19 1 35
и 11
в 12 28 30
-----------------------
Ниже искомого слова расположены подчинённые слова.
2. Поиск по форме, это как обычный поиск, только результат будет со связанными словами.
3. Поиск по морф. атрибутам, это поиск, где маска задаётся в таком виде: 40 36 31 20 2 21 33 41
Это морфологические атрибуты слова. Они есть в справке. Кнопочка с "?".
Очерёдность написания не имеет значения.
То-есть по этой маске будут найдены все:
глаголы прошедшего времени, финитивной формы, множественного числа, изъявительного наклонения, мужского рода, первого лица, активного залога.
При маске "2" - будут найдены все глаголы.
Вспомогательные компоненты для построения дерева в памяти и его отображения https://yadi.sk/d/tGb4iiX3JVo4RA и компонент для создания не именованных каналов ввода\ вывода к консольным программам https://yadi.sk/d/Co-fjDG_6fBeIw
Склонение\спряжение. https://yadi.sk/d/bZ2CR-aw6vjOBQ
Мои компоненты: https://yadi.sk/d/y_1Pq0fSAD-hKg?w=1
flash1103,спасибо!
Отвечу в свободной форме.
Когда-то увлекался переводом текста в речь для прослушивания книжек.
Те голоса, что были, мне не нравились и сейчас тоже нет достойных(предлагал свои услуги разработчикам голоса Milena). Стал делать свой, с интонацией, с русским произношением гласных в конце слов и предложений. Об этом можно много и долго говорить - это целая наука.
Но если не конкретизированы омографы в предложении(зАмок-замОк, гОры-горЫ, погрУзите-погрузИте...)все усилия ничего не стоят. Словарями это не лечится.
Нужна была программа "понимающая" смысл написанного.
Ну и пошло и поехало - морфология, лемматиза́ция, синтаксис, конкорданс...
Программу выкладывал 12 лет назад на rutracker.org и mytts.forum2x2.ru - пользовалась успехом.
Во всяком случае ничего подобного не существует по сей день.
С тех пор много чего сделал.
(Хочу объединить все разрозненые наработки в одну программку для лингвистов.
1. Система лингвистического поиска по тексту и библиотекам типа "Либрусек" во всех существующих форматах(PDF, DjVu, HTML, txt...FB2, rtf, doc).
2. Снятие омонимии.
3. Морфология.
4. Синтаксис и зависимости.
5. Сёрфинг по синонимам и антонимам.
Тезаурус думаю не выкладывать. Он у меня не такой http://www.solarix.ru/for_developers/docs/thesaurus.shtml , а заточен под генерацию текста и связи строятся по понятиям в прямом смысле слова.
Собственно я хочу показать на Флибусте то, что они строчат в S.T.A.L.K.E.R, «Вселенная «МЕТРО» и подобные поделки может делать автомат, и ничем не хуже, а может и лучше. Достали!
Одно дело - "Пикник на обочине" и совсем другое S.T.A.L.K.E.R.
Чтобы написать «Пикник» и «Солярис» - надо быть писателем, а их поделки можно строчить по десятку за вечер.
В том числе и известную серию "История Галактики" за вечер.
Боевое крещение процедурная генерация прошла на GameDev.ru в двух РПГ, одной текстовой новелле и квесте.
Даже с генерацией диалогов.
Но генерация сюжета и связанного повествования, как говорится, две большие разницы!
Редактировалось 25 раз(а), последний 2020-10-20 14:31:57