вторник, 20 января 2009 г.

Алгоритм Шинглов — поиск нечетких дубликатов текста

Довольно подробное описание алгоритма находится здесь. Код написан на питоне, но для понимания принципов работы алгоритма это неважно. Для тех, кто не знает что это такое, процитирую:
Немного теории
Поиск нечетких дубликатов позволяет предположить, являются ли два объекта частично одинаковыми или нет. Под объектом могут пониматься текстовые файлы и другие типы данных. Мы будем работать с текстом, но поняв, как работает алгоритм, вам не составит труда перенести мою реализацию на необходимые вам объекты.
Обратите внимание, задачей не стоит определить абсолютное значение схожести объектов, а так же выделения в каждом из объектов схожих частей. Нам необходимо только предположить, являются ли объекты почти дубликатами или нет.
Где может применяться данный алгоритм?
Как я уже писал выше, он может быть применен в поисковой системе для очистки поисковой выдачи. Так же данный алгоритм может использоваться для кластеризации документов по их схожести.

Комментариев нет:

Отправить комментарий