3042 писал(а):
И да, повторы искать только внутри каждого файла или между файлами тоже?между файлами, какой бы ни был ArrayFilterRepeats, это неделю ждать?, железо с этими файлами справиться должно точно на ура (6 ядера по 4.3 и SSD M2.0), но вот методы увы не скоростные, пробовал 1 млн строк убирать дубликаты, это прям жёстко, минут этак за 10-20 выдало всего лишь 50000 строк (без подцепления копирования их в список)
по идее хотелось бы собрать эту шляпу на 40 гб в 1 кучу, удалить повторения, срезать строки длинной более скажем 63 символов, пустые строки удалить и далее рассовать данные в файлы объёмом по пол гига
--- Добавлено в 2018-02-26 13:28:52
Tad писал(а):
Каких? Строки не только в txt-файлах.текст
Tad писал(а):
Это в ОДНОМ или в ПЕРВОМ ?в сами файлы вроде отформатированы до нормы, тоесть в них повторений быть не должно, а вот между файлами любыми друг по отношению к другу могут быть повторения, 2-5-10 повторений между файлами
Tad писал(а):
Повторы с учетом регистра или нет.кодировка, регистр, ну вобщем те строки у которых контрольные суммы равны