Вверх ↑
Ответов: 2059
Рейтинг: 132
#1: 2019-08-27 23:08:23 ЛС | профиль | цитата
Vadimluk1, да. В самом All_Forms.txt.
ещё нужно будет какие-то подгруппы делать?

Думаю, что непременно. По мере понимания, что что-то не то. У меня таких полей 27, чтобы не получилось так:
Космонавт закованный в латы опустил забрало звякнув кованным металлом.
Я сделал базу и выборка идёт по нескольким полям. Бывает больше десятка условий.
Вообще это один из главных, тонких и сложных моментов. В этом и заключается авторский подход, который можно патентовать. Это гораздо сложней, чем система генерации сюжета.
Не возможно сделать классификацию мира подобно человеческой.
По этому делается упрощённая, заточенная под определённые задачи.
Для диалогов в игрушках одна, для вопросно-ответных систем другая, для написания аннотаций третья...
Даже лексикон подбирается.

--- Добавлено в 2019-08-28 00:01:27

Vadimluk1, специально лекция по твоей задаче:https://www.youtube.com/watch?v=kSNIHXDerE0
Вот кое что по теме:
https://nlpub.ru/Russian_Distributional_Thesaurus
Обрати внимание на "Дистрибутивный тезаурус в котором одна запись представляет не слово, а смысл слова. Получен на основании word2vec".
word2vec
http://www.machinelearning.ru/wiki/images/b/b3/Word2Vec.pdf
https://habr.com/ru/post/446530/
Это писал мой знакомый. https://habr.com/ru/post/249215/
Это в виде базы: http://www.solarix.ru/for_developers/docs/thesaurus.shtml
Это тоже можно почитать.
http://it-claim.ru/Library/Books/Semantics_IT/gl1_3/glava1_3.htm
ИСПОЛЬЗОВАНИЕ ГРАММАТИЧЕСКИХ ПРАВИЛ В ПРОЛОГЕ: http://www.tinlib.ru/kompyutery_i_internet/programmirovanie_na_jazyke_prolog/p12.php
Томита-парсер: https://yandex.ru/dev/tomita/
Это знаменитый сайт. Но уже не такой, как лет 10 назад.
http://aot.ru/
карма: 6

0
Редактировалось 11 раз(а), последний 2019-08-28 02:53:40