Уголок маньяка :): Алгоритм Шинглов — поиск нечетких дубликатов текста

вторник, 20 января 2009 г.

Алгоритм Шинглов — поиск нечетких дубликатов текста

Довольно подробное описание алгоритма находится здесь. Код написан на питоне, но для понимания принципов работы алгоритма это неважно. Для тех, кто не знает что это такое, процитирую:

Немного теории

Поиск нечетких дубликатов позволяет предположить, являются ли два объекта частично одинаковыми или нет. Под объектом могут пониматься текстовые файлы и другие типы данных. Мы будем работать с текстом, но поняв, как работает алгоритм, вам не составит труда перенести мою реализацию на необходимые вам объекты.

Обратите внимание, задачей не стоит определить абсолютное значение схожести объектов, а так же выделения в каждом из объектов схожих частей. Нам необходимо только предположить, являются ли объекты почти дубликатами или нет.

Где может применяться данный алгоритм?

Как я уже писал выше, он может быть применен в поисковой системе для очистки поисковой выдачи. Так же данный алгоритм может использоваться для кластеризации документов по их схожести.

вторник, 20 января 2009 г.

Алгоритм Шинглов — поиск нечетких дубликатов текста

Комментариев нет:

Отправить комментарий

Обо мне

Поиск по этому блогу

Архив блога

Популярные сообщения

Тест

Ярлыки

Облако тегов

Shared items in Google Reader

Мой список блогов

Постоянные читатели

Общее·количество·просмотров·страницы

вторник, 20 января 2009 г.

Алгоритм Шинглов — поиск нечетких дубликатов текста

Комментариев нет:

Отправить комментарий

Обо мне

Поиск по этому блогу

Архив блога

Популярные сообщения

Тест

Ярлыки

Облако тегов

Shared items in Google Reader

Мой список блогов

Постоянные читатели

Общее·количество·просмотров·страницы

вторник, 20 января 2009 г.