Вверх ↑
Ответов: 2059
Рейтинг: 132
#1: 2019-08-30 00:22:45 ЛС | профиль | цитата
Vadimluk1 писал(а):
Хотя, синонимы, наверно "сочинённое -> искомое -> подчинённое." так не совсем хорошо может получится найти.

"сочинённое -> искомое -> подчинённое." - это разновидность трибанков.
Это часть синтаксического дерева!
Это заготовка для поиска синонимов и вообще для любых лингвистических вычислений!
Полезно будет почитать вот это:
https://habr.com/ru/post/79790/
https://habr.com/ru/post/79819/
https://habr.com/ru/post/79830/
https://habr.com/ru/post/79853/
https://habr.com/ru/post/79882/
https://habr.com/ru/post/79923/
https://habr.com/ru/post/79962/
https://habr.com/ru/post/80081/
https://habr.com/ru/post/80268/
https://habr.com/ru/post/82068/
В седьмой части есть и про трибанки.
P.S.
Я тоже по началу тыркался, собирал информацию, а потом в башке сработал триггер.
И как по щелчку стало всё ясно и прозрачно.
P.S.
Vadimluk1 писал(а):
Как смысл слов переводить в цифры?

Ты это смотрел?
http://panchenko.me/data/joint/senses/senses-librusec-all.norm-sz500-w10-cb0-it3-min5.w2v.vocab_1100000_similar250.conv-cw-e0-N200-n200-minsize5.csv.gz
Или это
http://panchenko.me/data/joint/ru/ddt-ru150g_trigram__FreqSigLMI__PruneContext_s_0.0_w_10_f_10_wf_0_wpfmax_1000_wpfmin_2_p_1000__AggrPerFt__SimCount_sc_one_ac_False__SimSortlimit_200_minsim_2-cw-e0-N200-n200-minsize5.csv.gz
Но мне это не нравится. А может для моих задач не очень подходит, да ещё мусор из разных падежей - фильтровать замучаешься. Надо ещё раз подумать.
Пример записи в формате CSV для слова "словесность":
словесность литература:0.693631, словесности:0.673393, поэзия:0.657318, литературу:0.646993, поэзию:0.625772, филология:0.623357, словесностью:0.614474, проза:0.610109, литературы:0.591108, литературная:0.583375, литератур:0.581673, литературоведение:0.581571, поэтику:0.576219, литтература:0.575055, прозу:0.571903, беллетристика:0.570541, книжность:0.567516, драматургия:0.565701, поэтика:0.565087, стихотворство:0.562407, публицистику:0.560926, публицистика:0.558548, журналистика:0.558000, допушкинскую:0.557183, поэзии:0.553815, литературные:0.552337, пиитику:0.550831, литературное:0.548529, допушкинской:0.547422, послепушкинская:0.545402, неотлучимы:0.545200, филологическая:0.542263, кребильйона:0.542140, реторической:0.541381, паралитературу:0.540992, своебытная:0.540851, риторика:0.540751, литературой:0.539374, пиитики:0.538791, бытописательскую:0.538671, витийственная:0.538429, пиитика:0.538293, японоязычная:0.537896, сентименталистская:0.536457, эстетика:0.536436, кантемиро:0.534982, эссеистика:0.534580, литературную:0.534455, преполнейший:0.534125, риторику:0.532908, философию:0.530697, литературных:0.530465, койпергейме:0.530071, литературной:0.529084, прозы:0.528637, допушкинское:0.528361, беллетристику:0.528068, философия:0.527975, художественная:0.527742, лингвопоэтика:0.527723, пиитике:0.526392, обэриутскую:0.525666, виршевой:0.525662, грамматика:0.525596
Надо попробовать программку сделать, чтобы наглядней было видно, какие выборки будут из этих файлов.
Такой результат мне не нравится http://serelex.cental.be/ru
карма: 6

0
Редактировалось 7 раз(а), последний 2019-08-30 02:04:30