Вверх ↑
Ответов: 1342
Рейтинг: 31
#1: 2018-02-26 13:23:08 ЛС | профиль | цитата
3042 писал(а):
И да, повторы искать только внутри каждого файла или между файлами тоже?


между файлами, какой бы ни был ArrayFilterRepeats, это неделю ждать?, железо с этими файлами справиться должно точно на ура (6 ядера по 4.3 и SSD M2.0), но вот методы увы не скоростные, пробовал 1 млн строк убирать дубликаты, это прям жёстко, минут этак за 10-20 выдало всего лишь 50000 строк (без подцепления копирования их в список)

по идее хотелось бы собрать эту шляпу на 40 гб в 1 кучу, удалить повторения, срезать строки длинной более скажем 63 символов, пустые строки удалить и далее рассовать данные в файлы объёмом по пол гига

--- Добавлено в 2018-02-26 13:28:52

Tad писал(а):
Каких? Строки не только в txt-файлах.

текст

Tad писал(а):
Это в ОДНОМ или в ПЕРВОМ ?


в сами файлы вроде отформатированы до нормы, тоесть в них повторений быть не должно, а вот между файлами любыми друг по отношению к другу могут быть повторения, 2-5-10 повторений между файлами

Tad писал(а):
Повторы с учетом регистра или нет.


кодировка, регистр, ну вобщем те строки у которых контрольные суммы равны
карма: 2

0
Редактировалось 1 раз(а), последний 2018-02-26 13:28:52