Вверх ↑
Этот топик читают: Гость
Ответов: 2059
Рейтинг: 131
#16: 2019-07-21 18:41:30 ЛС | профиль | цитата
XakTalisman,
карма: 6

0
Ответов: 1
Рейтинг: 0
#17: 2020-03-19 21:45:26 ЛС | профиль | цитата
Уважаемый, flint2, очень заинтересовала тема с омографами. Может ли помочь программа в коррекции ударений в балаболке? Если да, то может кинете ссылочку, ну или название самой проги?
карма: 0

0
Ответов: 2059
Рейтинг: 131
#18: 2020-03-19 23:06:04 ЛС | профиль | цитата
Snil,
Вот ссылка https://yadi.sk/d/H8Utaw69h5LKE
Тут словари сделаны под голос Loquendo - Ольга.
Под другие голоса надо делать свои словари в связи с тем, что у каждого голоса свои дефекты речи.
Малая часть омографов размазана по всем словарям, а не только в самом словаре для омографов - 0mograph2.omn
Делалось для Балаболки - мы с ним долго бодались, но он решил оставить свою систему замен.
У меня-же, кроме лингвистической обработки омографов в простых словарях обрабатываются даже такие правила: время * *му пошло=время * *му пошло`
даже в текстовых редакторах с озвучкой можно запускать обработанный текст.
Если не разберёшься, то пиши.

Давно это было...
Когда то я выкладывал на https://rutracker.org/ мною сделанный голос чтеца Геннадийя Коршунова, но чего то не нашел. На https://mytts.forum2x2.ru/ тоже не нашел, там тоже выкладывал, да и ссылки там давно все битые... (на этих сайтах я под другим ником) Если надо, то Ольга -дистрибутив сохранился https://yadi.sk/d/eHPRYMqwr2Eyy

Делал на заре знакомства с Hiasm - по этому такая схема.
В схеме применены Win.pas и WinControl.ini от andrestudio, так что в стандартном варианте надо править и ставить HBoxLayout и VBoxLayout.
Так как в Hiasm все компоненты для текстового редактора никуда не годятся, то в программе надо указать внешний текстовый редактор во вкладке "Установки", иначе будет ругаться! Сейчас всё можно переделать на компоненте Scintilla ...
Сюда я редко захожу, пиши мне в личку на форуме https://gamedev.ru/forum/ там я тоже flint2

Сейчас доделываю нормальный игровой движок специально для HiAsm,- порядка 160 новых компонентов. Когда выложу, буду заходить почаще.

Редактировалось 7 раз(а), последний 2020-03-19 23:34:32
карма: 6

0
Ответов: 56
Рейтинг: 2
#19: 2020-05-18 06:33:08 ЛС | профиль | цитата
flint2 писал(а):
Сейчас доделываю нормальный игровой движок специально для HiAsm,- порядка 160 новых компонентов. Когда выложу, буду заходить почаще.

Здравствуйте. Как у Вас успехи? Очень интересно посмотреть на Ваш игровой движок. Такого реально не хватает в HiAsm.
карма: 2
На этом форуме, самые умные и добрые люди, всегда помогут! СПАСИБО!
0
Ответов: 2059
Рейтинг: 131
#20: 2020-05-18 10:46:20 ЛС | профиль | цитата
NUB, немного притомился, делать 122 компонента - очень нудно и немного подзабыл паскаль, сейчас всё делаю в C++.
Сейчас, для смены рода деятельности занялся аппаратной генерацией сюжетов: https://forum.hiasm.com/post/306110
Посмотреть движок: https://yadi.sk/d/0v4wEUGlRDXiow

Редактировалось 4 раз(а), последний 2020-05-18 11:23:16
карма: 6

0
Главный модератор
Ответов: 2997
Рейтинг: 395
#21: 2020-05-18 12:01:11 ЛС | профиль | цитата
flint2 писал(а):
делать 122 компонента - очень нудно

flint2 писал(а):
занялся аппаратной генерацией сюжетов

Тогда может быть автогенерацией элементов заниматься?
карма: 6
Дорогу осилит идущий. Install/Update HiAsm.NET
0
Ответов: 2059
Рейтинг: 131
#22: 2020-05-18 12:19:10 ЛС | профиль | цитата
Nic, Такая мысль постоянно бродит в башке!
карма: 6

0
Ответов: 56
Рейтинг: 2
#23: 2020-05-21 12:26:13 ЛС | профиль | цитата
flint2 писал(а):
Сейчас, для смены рода деятельности занялся аппаратной генерацией сюжетов: https://forum.hiasm.com/post/306110
Посмотреть движок: https://yadi.sk/d/0v4wEUGlRDXiow

Вы молодец, такое очень сложно сделать. Мне до этого далеко...

--- Добавлено в 2020-05-21 12:28:46

flint2 писал(а):
NUB, немного притомился, делать 122 компонента - очень нудно и немного подзабыл паскаль, сейчас всё делаю в C++.

Надеюсь, Вы когда-нибудь сделаете игровой движок для HiAsm.

Редактировалось 2 раз(а), последний 2020-05-21 12:29:46
карма: 2
На этом форуме, самые умные и добрые люди, всегда помогут! СПАСИБО!
0
Ответов: 2059
Рейтинг: 131
#24: 2020-05-21 13:44:17 ЛС | профиль | цитата
Надеюсь, Вы когда-нибудь сделаете игровой движок для HiAsm.

Непременно!
Просто когда занимаешься чем то одним- глаз замыливается.
Когда делаешь паузу и возвращаешься, уже открывается, то чего раньше не замечал.

Давайте делать паузы в словах,
Произнося и умолкая снова,
Чтоб лучше отдавалось в головах
Значение вышесказанного слова.
Давайте делать паузы в словах.

Давайте делать паузы в пути,
Смотреть назад внимательно и строго.
Чтобы случайно дважды не пройти
Одной и той неверною дорогой.
Давайте делать паузы в пути.

Редактировалось 1 раз(а), последний 2020-05-21 13:45:01
карма: 6

0
Ответов: 2059
Рейтинг: 131
#25: 2020-05-30 14:15:58 ЛС | профиль | цитата
Решал одну задачу по лингвистике и получил побочный эффект. компонент для проверки орфографии: https://yadi.sk/d/33RSSpZnEOiQCA
Пусть безумная идея —
Вы не рубайте сгоряча.
Вызывайте нас скорее
Через гада главврача!
С уваженьем... Дата. Подпись.
Отвечайте нам, а то,
Если вы не отзовётесь,
Мы напишем... в "Спортлото"!

А хорошо бы в придачу к своей программе иметь (пусть даже простейший) контроль орфографии. Ведь так нередки в текстах АшиПки и оЧеПЯтки...

Разумеется, можно подключаться к MS Word средствами OLE Automation. Уж в Ворде-то проверка орфографии реализована, так пусть он и делает всю работу за нас. Правда, возникнут сложности с разными версиями Ворда. Да и странно это - превращать изящную в своей компактности программу в заурядный придаток при некоем монстре. Есть ли другие пути?
Одна идея, словно призрак коммунизма, бродит среди лингвистически настроенных умов, начиная с середины прошлого века.
Суть гениального (не знаю, нужны ли в этом слове кавычки) озарения такова. Количество 2-буквенных сочетаний в русском алфавите: 33 x 33 = 1089. А допустимых из них: раз-два и обчелся. Можете самостоятельно составить квадратную табличку и вписать в нее все "разрешенные" комбинации. Простейший алгоритм, считай, готов.

Безумие этой идеи в том, что минимальный набор проверочных комбинаций охватывает все потенциально возможные слова русского языка! Становится ненужным огромный словарь-тезаурс, где каждое слово надо указывать во всех падежах, наклонениях, спряжениях и т.п. (Ведь даже тезаурус системы Ispell на 850 тыс. словоформ, на практике оказывается не вполне достаточным).

Но... (спускаясь с небес на землю), мы скоро заметим, что из 2-буквенных комбинаций можно понаделать еще больше невозможных, несуществующих слов. Все они, естественно, были бы при проверке признаны "правильными". Глокая куздра штеко будланула бокра и курдячит бокренка - здесь только допустимые пары букв!

Очевидно, необходимо ужесточить схему, проверяя на допустимость не 2-х буквенные, а 3-буквенные сочетания. Тогда для составления проверочного списка придется прошерстить уже 33 x 33 x 33 = 35937 троек в поисках правильных. Еще более надежным решением будет проверка "четырок". Например, в слове "демагог" - четыре четырки: дема/емаг/маго/агог. Все они - допустимые. Из общего числа в 1185921 - таких найдется тысяч 35-40. Проверяя все четырки заданного слова на допустимость, делаем вывод о верном или неверном его написании. Все упомянутые в Интернета изыски по бессловарной проверке орфографии на этом исчерпываются.

Поразмыслив, можно найти примеры, когда и такая схема слишком уж всеобъемлюща. Блинны. Это слово не опознается, как ошибочное, т.к. 4-ка линн - допустимая. (Длинный). Песьмо - из той же оперы - песь - спесь - песьими. Надо что-то делать...

Попробуем перейти к проверке 5-ти буквенных сочетаний. Весело, дружно, хватаем бревнышко и несем... Что нам стоит среди 39135399 (39 миллионов с хвостиком) вариантов отыскать "правильные пятерки"?
Скрипт на языке Python (в арживе), за считанные минуты решает эту задачу.
Набирите командную строку: python orfo.py bigtext.txt ignore.txt и через несколько минут получите требуемый список "пятерок".

Я составлял "большой текст" по частям, "склеивая" из отдельных файлов. В одном из них потребовалось удалить все знаки переноса. В итоговый bigtext.txt, размером 15 Мб, вошло с дюжину романов. Названий не привожу, произведения отбирались не по величию авторов, а по величине текста. Так быстрее получался должный объем "словесного материала". Разумеется, я пытался придерживаться принципа "общехудожественности". Никаких физико-математико-философских работ с заумно-языколомной терминологией! Литературные произведения только вменяемых авторов... Мы же собираемся проверять орфографию русского языка.
Каждая очередная порция текста добавляла все меньше и меньше нового. Вдалеке просматривается некий предел? Пополнять bigtext.txt новыми шедеврами мне надоело, да и обработка его скриптом стала занимать аж целых 3 минуты - что же будет дальше? Решил пойти на хитрость. Нашел в Интернете частотный словарь русского языка на 69307 наиболее употребительных словоформ и скормил скрипту. Вышло, круглым счетом, 60 тыс. пятерок - так сказать, необходимый минимум. Добавил сей чудный словарь в bigtext.txt... На выходе - 103 тыс. - прирост совсем уже невеликий.
......

Я бы больше расписал, но к сожалению посты ограничены по размеру.
Короче говоря, слова с буковкой "Ё" будут считаться с ошибкой? потому что мало таких текстов для обучения - практически нет.
Кому интересно,то в следующих постах распишу остальные тонкости и Вы можете делать n-банки по своему разумению и своим хотелкам.

Редактировалось 2 раз(а), последний 2020-05-30 14:25:21
карма: 6

0
Ответов: 2059
Рейтинг: 131
#26: 2020-06-01 00:32:22 ЛС | профиль | цитата
Обновление компонента ORFO.
Теперь корректно проверяются тексты с буквой 'Ё'.
Для работы с RichEdit надо раскомментировать строку
232 // if ( C^ in [#10] ) then inc(return); // для RichEdit.
Для нормальных редакторов строка должна быть закомментирована, как сейчас.
Обновление компонента Scintilla.
Сделана гибкая и удобная работа с маркерами. Исправлены ошибки.
Пример работы совместно двух компонентов в архиве Orfo.
https://yadi.sk/d/33RSSpZnEOiQCA
https://yadi.sk/d/ZJag_PY2YKqcgA

P.S. Правильно я понимаю, что тема никому не интересна?

Редактировалось 6 раз(а), последний 2020-06-01 01:30:12
карма: 6

0
Ответов: 56
Рейтинг: 0
#27: 2020-06-01 08:36:04 ЛС | профиль | цитата
flint2 писал(а):
P.S. Правильно я понимаю, что тема никому не интересна?

Мне, например, интересна, но у меня знания в области лингвистики на начальном уровне. понимания
Какие книги можно рассмотреть к рекомендуемому прочтению? (b-ok.cc неплохой библиотечный ресурс по электронным книгам, но есть аккаунт на сайте twirpx.com/twirpx.org)

P.S. Интересно, что статей по Hiasm и его применённости для разных задач на том же Хабр нет.

Редактировалось 2 раз(а), последний 2020-06-01 09:02:01
карма: 0

0
Ответов: 2059
Рейтинг: 131
#28: 2020-06-01 12:36:35 ЛС | профиль | цитата
KPG писал(а):
Какие книги можно рассмотреть к рекомендуемому прочтению?

Тузов, Мельчук и Хомскомский.
Генератор текстов
https://habr.com/ru/post/163727/
Цепи Маркова
https://habr.com/ru/post/455762/
https://gamedev.ru/code/articles/Markov_chain_AI?page=3
http://aftamat4ik.ru/generator-teksta-na-cepyakh-markova/
https://morphs.ru/posts/2017/05/09/text-genertors
Автописатель
https://habr.com/ru/post/161311/
Генератор текста на основе триграмм
https://habr.com/ru/post/88514/
О лингвистической онтологии "Тезаурус РуТез"
https://www.labinform.ru/pub/ruthes/index.htm
Тезаурус русского языка в формате WordNet
https://labinform.ru/pub/ruwordnet/index.htm
Вокруг да около
https://tvtropes.org/pmwiki/pmwiki.php/Main/Tropes
Автоматический генератор квестов
https://habr.com/ru/post/201680/
Синтаксический анализ, семантический анализ
http://zadocs.ru/informatika/24216/index.html
Проблема синтаксического анализа
http://www.tinlib.ru/kompyutery_i_internet/programmirovanie_na_jazyke_prolog/p12.php
Томита-парсер
https://habr.com/ru/company/yandex/blog/219311/
Утилиты на технологии Word2Vec
https://servponomarev.livejournal.com/7667.html
FANN
http://leenissen.dk/fann/wp/
https://habr.com/ru/company/meanotek/blog/256593/
компьютерная лингвистика
http://markup.dusi.mobi/
https://nlpub.ru/
https://habr.com/ru/company/yandex/blog/205198/
https://habr.com/ru/post/137799/
https://habr.com/ru/post/152429/
https://habr.com/ru/post/229403/ (статья моего знакомого и коллеги)
https://habr.com/ru/post/109382/
https://habr.com/ru/post/148124/
https://habr.com/ru/post/255073/
https://habr.com/ru/post/277351/
Заметки об NLP
https://habr.com/ru/post/79790/
https://habr.com/ru/post/79819/
https://habr.com/ru/post/79830/
https://habr.com/ru/post/79853/
https://habr.com/ru/post/79882/
https://habr.com/ru/post/79923/
https://habr.com/ru/post/79962/
https://habr.com/ru/post/80081/
https://habr.com/ru/post/80268/

Владимир Пропп
http://lib.ru/CULTURE/PROPP/morfologia.txt_with-big-pictures.html
https://mabuk.ru/ru/content/struktura-stsenariya-metod-makki-kempbella-gulino-proppa-i-snaidera
https://www.kinocafe.ru/theory/?tid=51701

Ищи - Классическая версия модели Смысл<=>Текст !!!
Например ситуации:
Слово кровь связано со следующими ситуациями:
кровообращение, кровотечение, пачканте кровью, донорство.
А-кто продаёт В-кому С-что за 10 Д-стоимость.
или A - кто В - кого C -куда D - откуда, Е - на какой срок и F - с какой целью.
Возможны ситуации из одного слова: дождь, морозит.
P.S. Интересно, что статей по Hiasm и его применённости для разных задач на том же Хабр нет.
Промолчу.

Редактировалось 1 раз(а), последний 2020-06-01 14:01:24
карма: 6

0
Главный модератор
Ответов: 2997
Рейтинг: 395
#29: 2020-06-01 12:59:13 ЛС | профиль | цитата
flint2 писал(а):
Промолчу.

Анекдот
Три степени опьянения мужика:
  1-я. Достал, поссал, забыл стряхнуть;
  2-я. Достал, стряхнул, забыл поссать;
  3-я. Поссал, забыл достать;
Три стадии освоения HiAsm:
  1-я. Вау! Почему никто не знает об этой прекрасной программе;
  2-я. Почему в палитре нет такого нужного (именно мне) элемента?
  3-я. Эта программа годится только для...(тут могут быть варианты);

Редактировалось 2 раз(а), последний 2020-06-01 13:01:43
карма: 6
Дорогу осилит идущий. Install/Update HiAsm.NET
0
Ответов: 2059
Рейтинг: 131
#30: 2020-06-01 18:49:31 ЛС | профиль | цитата
Nic,
карма: 6

0
Сообщение
...
Прикрепленные файлы
(файлы не залиты)