Вверх ↑
Ответов: 1925
Рейтинг: 172
#1: 2018-02-26 12:55:24 ЛС | профиль | цитата
Rysik писал(а):
Есть порядка 300 файлов, а в них есть повторяющиеся строки, в 1 файле повторов нет, а вот в 10 файлах может быть по 2 и более повторов, размер файла от 10КБ до 5ГБ, суммарный вес файлов ~40 ГБ, как можно дубликаты удалить?

Я так понимаю, вопрос только в быстродействии? Потому что с самим алгоритмом проблем быть не должно. Например, если это просто текстовые файлы, то поможет

Add(ArrayFilterRepeats,8147799,273,315)
{
}
Тем, более, что он теперь ускорен.

И да, повторы искать только внутри каждого файла или между файлами тоже?
карма: 9
0