Вверх ↑
Ответов: 2059
Рейтинг: 132
#1: 2019-08-29 22:24:54 ЛС | профиль | цитата
Vadimluk1,
1. Ну сразу так и не опишешь.
Надо целую статью писать. Я попробую поискать исходники (они у меня на C++, кое чего слизал с финского сайта, все пишут на плюсах, а портировать в delphi лень было).
Когда погибал старый комп, мне удалось кое чего спасти.
Если вкраце, - сканировал все тексты из своей библиотеки и делал список трибанков.
Можно использовать компонент hiTracerouter, но я делал на другом языке.
На ходу отсеивались дубликаты.
Поочерёдно брались слова из этого списка и делался другой список пар, или троек слов употребляемых с этим словом. сочинённое -> искомое -> подчинённое.
Это слова от которого зависит исходное слово, или подчинённые слова.
Потом брались эти слова и по ним составлялся такой-же список. Потом брались два-три этих списка и хитрым образом сравнивались. Тут мне тяжело кратко описать многоэтапный алгоритм, тем более словами.
Короче говоря в результате такого отсеивания оставались синонимы.
2. В результате наверное есть много ошибок. Во всяком случае мне попадалось около сотни разных несоответствий.
3. Для одного слова могут соответствовать группы слов с разными смысловыми понятиями.
Как их разделить, кроме как вручную я не знаю. А может и не надо разделять. Пока не решил.
4. Наверное список синонимов не полон, потому что делался список только из текстов фантастических произведений.
В общем малый объём - порядка 50 - 70 тысяч книжек и рассказов.
5. Тем не менее словарь получился гораздо богаче, чем в различных официальных изданиях.
6. Иногда попадаются похожие статьи для одного слова, только с разными падежами, хотя я фильтровал базар. Чего-то не каждый раз срабатывало. Но мысли есть почему. Переделывать не буду. Слишком долгий процесс, больше трёх суток непрерывной работы.
7. Словарь антонимов у меня не выходит получить таким-же образом.
Казалось-бы, антоним это противоположность синониму, ан нет, не получается.
Я сначала стал вручную дописывать антонимы в словарь.
Например:свободное время=досуг|время. Ant. рабочее время, или
аборигенный=коренной|местный|...аборигентский|коренной. Ant. иностранный
Сейчас начал делать отдельный словарь антонимов. Вручную очень тяжко.
карма: 6

0
Редактировалось 9 раз(а), последний 2019-08-29 23:30:32