Практически все пользователи интернета сталкивались с поисковыми системами Яндекс, Гуугл и другими. Но далеко не все понимают принцип их работы. Несмотря на детали каждого из поисковиков, все-таки система поиска у них одинаковая.
Процесс поиска информации можно разбить на три части. Первая это сбор информации, вторая индексация и третья поиск по запросу. Разберемся в каждой части отдельно.
1. Сбор данных. После того как сайт запускается в поисковые системы, робот отправляется на новый ресурс и начинает сбор его данных. Поисковый робот составляет расписание посещения сайта. Общения между сайтом и роботом выгодно обеим сторонам. В интересах каждого чтобы робот не задерживался на сайте долгое время. Но и в тоже время нужно чтобы он как можно качественней произвел сбор информации по ресурсам. Чтобы сбор информации прошел быстро необходимо убедиться, что у сайта нет никаких проблем. В первую очередь нужно проверить битые ссылки и навигацию.
2. Индексация. Поисковый робот будет наблюдать за сайтом очень долгое время, но это не дает гарантию, что он будет моментально добавлен в поисковую систему. Прежде всего, страницы должны пройти процесс индексации. Индексация – это составление для отдельной страницы обратного индексного файла. Индекс служит средством для наилучшего и быстрого поиска слов из текста.
3. Поиск информации. Сначала запрос проходит анализ. В результате для каждой части слова будет вычислен вес. После этого поиск производится по индексам. Более просто вычисляется похожесть документа по созданному запросу.
4. Ранжирование. После отбора более подходящих файлов они проходят ранжирование. Для этого существует специальная формула. В факторы ранжирование входит:
— вес страницы
— популярность домена
— уникальность текста
— уникальность ссылок