Как вариант, просто взять с десяток форумов(только не технических) сделанных на одном движке(чтобы под каждый форум не делать свой парсер), и парсить ответы, с "силой ответа", то есть количество одинаковых ответов. Лучше использовать для этого полноценную БД, а не список строк. Если сможете реализовать, то может что-нибудь и получится)
Интересно было бы посмотреть, на БД, которая получится)