Rysik писал(а):
Есть порядка 300 файлов, а в них есть повторяющиеся строки, в 1 файле повторов нет, а вот в 10 файлах может быть по 2 и более повторов, размер файла от 10КБ до 5ГБ, суммарный вес файлов ~40 ГБ, как можно дубликаты удалить?
Я так понимаю, вопрос только в быстродействии? Потому что с самим алгоритмом проблем быть не должно. Например, если это просто текстовые файлы, то поможет
Add(ArrayFilterRepeats,8147799,273,315)
{
}
И да, повторы искать только внутри каждого файла или между файлами тоже?