Вверх ↑
Этот топик читают: Гость
Ответов: 1700
Рейтинг: 120
#1: 2019-06-28 20:03:27 ЛС | профиль | цитата
Архив программ для лингвистического поиска и определения синтаксических связей. https://yadi.sk/d/yf8fgUypbXqaFQ
описание

Лигвистический поиск это поиск всех словоформ слова и слов, которые с ним связаны зависимостями по простой форме слова - лемме, по морфологическим атрибутам и словоформе.
1. При поиске по лемме надо задать простую форму слова, например "туннель", по этой маске будут найдены все формы этого слова в тексте во всех родах, склонениях, падежах и числе.
Пример выводимого результата:
в 12 28 30
туннеле 30 22 19 1 35
коротком 30 22 19 3 35
-----------------------
конец 25 22 19 1 35
туннеля 26 22 19 1 35
-----------------------
в 12 28 30
туннель 28 22 19 1 35
большой 28 22 19 3 35
поперечный 28 22 19 3 35
-----------------------
по 12 27
туннелю 27 22 19 1 35
-----------------------
Принадлежность к одному предложению обозначена чертой.
Первым, если оно есть, идёт сочинённое слово.
Два и больше слов в одной строке означает, что они равнозначны.
-----------------------
туннелем 29 22 19 1 35 потолком 29 22 19 1 35
и 11
в 12 28 30
-----------------------
Ниже искомого слова расположены подчинённые слова.
2. Поиск по форме, это как обычный поиск, только результат будет со связанными словами.
3. Поиск по морф. атрибутам, это поиск, где маска задаётся в таком виде: 40 36 31 20 2 21 33 41
Это морфологические атрибуты слова. Они есть в справке. Кнопочка с "?".
Очерёдность написания не имеет значения.
То-есть по этой маске будут найдены все:
глаголы прошедшего времени, финитивной формы, множественного числа, изъявительного наклонения, мужского рода, первого лица, активного залога.
При маске "2" - будут найдены все глаголы.
ссылка https://yadi.sk/d/_PmqGpmqVh71yQ на компоненты и примеры.
Вспомогательные компоненты для построения дерева в памяти и его отображения https://yadi.sk/d/tGb4iiX3JVo4RA и компонент для создания не именованных каналов ввода\ вывода к консольным программам https://yadi.sk/d/Co-fjDG_6fBeIw
Склонение\спряжение. https://yadi.sk/d/bZ2CR-aw6vjOBQ
Мои компоненты: https://yadi.sk/d/y_1Pq0fSAD-hKg?w=1

flash1103,спасибо!
Отвечу в свободной форме.

Когда-то увлекался переводом текста в речь для прослушивания книжек.
Те голоса, что были, мне не нравились и сейчас тоже нет достойных(предлагал свои услуги разработчикам голоса Milena). Стал делать свой, с интонацией, с русским произношением гласных в конце слов и предложений. Об этом можно много и долго говорить - это целая наука.
Но если не конкретизированы омографы в предложении(зАмок-замОк, гОры-горЫ, погрУзите-погрузИте...)все усилия ничего не стоят. Словарями это не лечится.
Нужна была программа "понимающая" смысл написанного.
Ну и пошло и поехало - морфология, лемматиза́ция, синтаксис, конкорданс...
Программу выкладывал 12 лет назад на rutracker.org и mytts.forum2x2.ru - пользовалась успехом.
Во всяком случае ничего подобного не существует по сей день.

С тех пор много чего сделал.
(Хочу объединить все разрозненые наработки в одну программку для лингвистов.
1. Система лингвистического поиска по тексту и библиотекам типа "Либрусек" во всех существующих форматах(PDF, DjVu, HTML, txt...FB2, rtf, doc).
2. Снятие омонимии.
3. Морфология.
4. Синтаксис и зависимости.
5. Сёрфинг по синонимам и антонимам.
Тезаурус думаю не выкладывать. Он у меня не такой http://www.solarix.ru/for_developers/docs/thesaurus.shtml , а заточен под генерацию текста и связи строятся по понятиям в прямом смысле слова.

Собственно я хочу показать на Флибусте то, что они строчат в S.T.A.L.K.E.R, «Вселенная «МЕТРО» и подобные поделки может делать автомат, и ничем не хуже, а может и лучше. Достали!
Одно дело - "Пикник на обочине" и совсем другое S.T.A.L.K.E.R.
Чтобы написать «Пикник» и «Солярис» - надо быть писателем, а их поделки можно строчить по десятку за вечер.
В том числе и известную серию "История Галактики" за вечер.

Боевое крещение процедурная генерация прошла на GameDev.ru в двух РПГ, одной текстовой новелле и квесте.
Даже с генерацией диалогов.
Но генерация сюжета и связанного повествования, как говорится, две большие разницы!

Редактировалось 25 раз(а), последний 2020-10-20 14:31:57
карма: 5

0
vip
#1.1контекстная реклама от партнеров
Ответов: 16884
Рейтинг: 1237
#2: 2019-06-28 20:24:41 ЛС | профиль | цитата
- Даша, дашь? А?
- Да. Ша...

карма: 24
Немного терпения! Дежурный экстрасенс скоро свяжется с Вами!
0
Ответов: 1700
Рейтинг: 120
#3: 2019-06-28 20:30:10 ЛС | профиль | цитата
Tad, а как-же.
карма: 5

0
Главный модератор
Ответов: 2947
Рейтинг: 386
#4: 2019-06-28 21:01:38 ЛС | профиль | цитата
Tad, flint2, а как на счёт анекдотов?

Редактировалось 1 раз(а), последний 2019-06-28 21:03:47
карма: 7
Дорогу осилит идущий. Install/Update HiAsm.NET
0
Ответов: 1700
Рейтинг: 120
#5: 2019-06-28 23:04:28 ЛС | профиль | цитата
Nic,
Для юмора надо иметь интеллект, причём не искусственный.
Для шуток на уровне подмены понятий, думаю можно придумать алгоритм.

Редактировалось 2 раз(а), последний 2019-06-28 23:10:16
карма: 5

0
Ответов: 4637
Рейтинг: 511
#6: 2019-06-29 03:37:58 ЛС | профиль | цитата
flint2 писал(а):
Для шуток на уровне подмены понятий, думаю можно придумать алгоритм.

типа "Маша мыла раму" - "Рама мыла Машу"
карма: 6

0
Ответов: 1700
Рейтинг: 120
#7: 2019-06-29 11:26:08 ЛС | профиль | цитата
andrestudio, типа: "Отправились два автобуса в рейс - один новый, другой налево.
Кто из них заработает больше денег?".
Или: "Лучше переесть, чем не доспать!".
Или: "Что с возу упало, то не вырубишь топором!".
...

Редактировалось 2 раз(а), последний 2019-06-29 11:34:24
карма: 5

0
Ответов: 1700
Рейтинг: 120
#8: 2019-07-01 01:47:32 ЛС | профиль | цитата
В заголовке темы помещён архив программы для лингвистического поиска.
Описание

Лигвистический поиск это поиск всех словоформ слова и слов, которые с ним связаны зависимостями по простой форме слова - лемме, по морфологическим атрибутам и словоформе.
1. При поиске по лемме надо задать простую форму слова, например "туннель", по этой маске будут найдены все формы этого слова в тексте во всех родах, склонениях, падежах и числе.
Пример выводимого результата:
в 12 28 30
туннеле 30 22 19 1 35
коротком 30 22 19 3 35
-----------------------
конец 25 22 19 1 35
туннеля 26 22 19 1 35
-----------------------
в 12 28 30
туннель 28 22 19 1 35
большой 28 22 19 3 35
поперечный 28 22 19 3 35
-----------------------
по 12 27
туннелю 27 22 19 1 35
-----------------------
Принадлежность к одному предложению обозначена чертой.
Первым, если оно есть, идёт сочинённое слово.
Два и больше слов в одной строке означает, что они равнозначны.
-----------------------
туннелем 29 22 19 1 35 потолком 29 22 19 1 35
и 11
в 12 28 30
-----------------------
Ниже искомого слова расположены подчинённые слова.
2. Поиск по форме, это как обычный поиск, только результат будет со связанными словами.
3. Поиск по морф. атрибутам, это поиск, где маска задаётся в таком виде: 40 36 31 20 2 21 33 41
Это морфологические атрибуты слова. Они есть в справке. Кнопочка с "?".
Очерёдность написания не имеет значения.
То-есть по этой маске будут найдены все:
глаголы прошедшего времени, финитивной формы, множественного числа, изъявительного наклонения, мужского рода, первого лица, активного залога.
При маске "2" - будут найдены все глаголы.

Остальное, думаю, и так всё понятно.
Гораздо фукциональней и наглядней можно сделать на компоненте Scintilla, особенно с методом вставки аннотаций между строк и выделением цветами слов, но не стал усложнять.
Компоненты я выкладывал уже не один раз. Если надо, выложу ещё.
Хочу добавить компонент для склонения-спряжения, но не то, что делают для склонения имён, фамилий и отчеств.
P.S.
Файлы форматов: AZW, AZW3, CHM, DOC, DOCX, EPUB, FB2, HTML, MHT, MOBI, ODT, PDF, PRC, RTF, TXT перетащить на форму.

Редактировалось 9 раз(а), последний 2019-07-01 02:26:14
карма: 5

0
Ответов: 8594
Рейтинг: 795
#9: 2019-07-01 09:49:33 ЛС | профиль | цитата
flint2, а вы не смотрели в сторону нейросети (появились в продаже вполне себе солидные микросхемы и сборки модулей)
Я было загорелся, но чуть ознакомился и понял, что уже для меня поздновато
карма: 18

0
Ответов: 16884
Рейтинг: 1237
#10: 2019-07-01 12:18:57 ЛС | профиль | цитата
Никто не сделает Вас счастливым...
Покупайте спиртное сами!
карма: 24
Немного терпения! Дежурный экстрасенс скоро свяжется с Вами!
0
Ответов: 1700
Рейтинг: 120
#11: 2019-07-01 14:03:03 ЛС | профиль | цитата
Леонид, смотрел.
Смотрел не только в телескоп, но и микроскопом стучал.
В 9-10 году пытался привинтить к задаче снятия омонимии.
Даже решил задачу интерфейса, применительно к тексту - там много подводных камней, с переменным числом входов и выходов.
Но дело в том, что нейросеть не решает задачу.
Она может только сказать с какой вероятностью можно утверждать, что стакан полон, или пуст.
А на самом деле стакан разлит на троих. У меня результаты с нейросетями были 85-95% правильных решений.
Другими методами получается 98-100%.
Прошлой осенью записался в одну команду на GameDev делать ИИ.
Ничего путного на сетях не вышло. Сделал нахождение пути на старым добрым A*. поведение и принятие решений персонажами на таблицах Маркова. Там тоже считается вероятность события, что придаёт определённый шарм, близко к реалиям.
Обучение (получение опыта юнитами) на генетических алгоритмах.
Стратегические решения на "земле" по Вороному.

В параллельным потоке мысль всё-таки работает в плане нейросетей.
Допустим - "Шла девушка по улице с косой."
Однозначно утверждать, что это за коса, нельзя. Только из контекста.
Вот для создания контекста из ранее прочитанного текста нейросеть должна хорошо вписаться.
карма: 5

0
Ответов: 17
Рейтинг: 0
#12: 2019-07-18 20:47:03 ЛС | профиль | цитата
Дайте компоненты для hiasm
карма: 0

0
Ответов: 1700
Рейтинг: 120
#13: 2019-07-18 21:58:37 ЛС | профиль | цитата
XakTalisman, ссылка https://yadi.sk/d/_PmqGpmqVh71yQ на компоненты и примеры.
В архиве есть All2TXT.exe - делали с коллегой на другом сайте.
Это консольная программка, которая к теме не относится, но очень удобна для работы с текстом.
Поддерживает практически все "текстовые" форматы.
Тоже к делу не относится, но в одном из примеров есть компоненты для построения дерева в памяти и его отображения - вот ссылка на компоненты https://yadi.sk/d/tGb4iiX3JVo4RA и компонент для создания каналов ввода\ вывода к консольным программам https://yadi.sk/d/Co-fjDG_6fBeIw

Редактировалось 3 раз(а), последний 2019-07-18 23:18:03
карма: 5

0
Ответов: 4637
Рейтинг: 511
#14: 2019-07-19 02:09:28 ЛС | профиль | цитата
flint2, ну ведь просят по хамски, зачем отвечаешь да и даёшь тем паче?

XakTalisman, ну так канает, сам пойми.
карма: 6

0
Ответов: 17
Рейтинг: 0
#15: 2019-07-21 18:21:46 ЛС | профиль | цитата
andrestudio писал(а):
flint2, ну ведь просят по хамски, зачем отвечаешь да и даёшь тем паче?

XakTalisman, ну так канает, сам пойми.

Прошу прощения flint2 если чем то был назойлив. Спасибо большое за компоненты мне просто это интересно! Я спросил как то не вежливо Успехов вам в разработке..
карма: 0

0
Сообщение
...
Прикрепленные файлы
(файлы не залиты)