Насколько помню историю вопроса, большинство алгоритмов нечеткого сравнения строк (самый известный Саундекс) разрабатывались под конкретную программу: перепись населения в США с первым применением автоматизированной обработки.
Отсюда недостаток - хорошо работаю на английских фамилиях, а для прочего нужно относится осторожно.
PS: хотя, в свое время, мы использовали тот же Саундекс для сопоставления номенклатуры в прайс-листах конкурентов и результаты были вполне удовлетворительными.
|