Содержание

структуры, функция, характеристики. Что нужно знать о поисковиках для успешного продвижения сайтов?

Поисковые системы (ПС) уже приличное время являются обязательной частью интернета. Сегодня они громадные и сложнейшие механизмы, которые представляют собой не только инструмент для нахождения любой необходимой информации, но и довольно увлекательные сферы для бизнеса. На сегодняшний день существует множество саамы разнообразных поисковиков

Многие пользователи поиска никогда не думали о принципах их работы, о способах обработки пользовательских запросов, о том, как построены и функционируют данные системы. Данный материал поможет людям, которые занимаются оптимизацией и продвижение своих сайтов, понять устройство и основные функции поисковых машин.

Функции и понятие ПС

Поисковая система – это аппаратно-программный комплекс, который предназначен для осуществления функции поиска в интернете, и реагирующий на пользовательский запрос который обычно задают в виде какой-либо текстовой фразы (или точнее поискового запроса), выдачей ссылочного списка на информационные источники, осуществляющейся по релевантности. Самые распространенные и крупные системы поиска: Google, Bing, Yahoo, Baidu. В Рунете – Яндекс, Mail.Ru, Рамблер.

Рассмотрим поподробнее само значение запроса для поиска, взяв для примера систему Яндекс.

Запрос обязан быть сформулирован пользователем в полном соответствии с предметом его поиска, максимально просто и кратко. К примеру, мы желаем найти информацию в данном поисковике: «как выбрать автомобиль для себя». Чтобы сделать это, открываем главную страницу и вводим запрос для поиска «как выбрать авто». Потом наши функции сводятся к тому, чтобы зайти по предоставленным ссылкам на информационные источники в сети.

Пример выдачи Яндекса

Но даже действуя таким образом, можно и не получить необходимую нам информацию. Если мы получили подобный отрицательный результат, нужно просто переформировать свой запрос, или же в базе поиска действительно нет никакой полезной информации по данному виду запроса (такое вполне возможно при заданных «узких» параметров запроса, как, к примеру, «как выбрать автомобиль в Анадыри»).

Самая основная задача каждой поисковой системы – доставить людям именно тот вид информации, который им нужен. А приучить пользователей создавать «правильный» вид запросов к поисковым системам, то есть фразы, которые будут соответствовать их принципам работы, практически, невозможно.

Именно поэтому специалисты-разработчики поисковиков делают такие принципы и алгоритмы их работы, которые бы давали пользователям находить интересующие их сведения. Это означает, что система, должна «думать» так же, как мыслит человек при поиске необходимой информации в интернете.

Когда он вводит свой запрос в поисковую машину, он желает найти то, что ему надо, как можно проще и быстрее. Получив результат, пользователь составляет свою оценку работе системы, руководствуясь несколькими критериями. Получилось ли у него найти нужную информацию? Если нет, то сколько раз ему пришлось переформатировать текст запроса, чтобы найти ее? Насколько актуальная информация была им получена? Как быстро поисковая система обработала его запрос? Насколько удобно были предоставлены поисковые результаты? Был ли нужный результат первым, или находился на 30-ом месте? Сколько «мусора» (ненужной информации) было найдено вместе с полезными сведениями? Найдется ли актуальная для него информация, при использовании ПС, через неделю, либо через месяц?

В ходе ранжирования, поисковые системы должны точно угадать желание пользователя


Для того чтобы получить правильные ответы на подобные вопросы, разработчики поиска постоянно улучшают принципы ранжирования и его алгоритмы, добавляют им новые возможности и функции и любыми средствами пытаются сделать быстрее работу системы.

Основные характеристики поисковых систем

Обозначим главные характеристики поиска:

Полнота.

Полнота является одной из главнейших характеристик поиска, она представляет собой отношение цифры найденных по запросу информационных документов к их общему числу в интернете, относящихся к данному запросу. Например, в сети есть 100 страниц имеющих словосочетание «как выбрать авто», а по такому же запросу было отобрано всего 60 из общего количества, то в данном случае полнота поиска составит 0,6. Понятно, что чем полнее сам поиск, тем больше вероятность, что пользователь найдет именно тот документ, который ему необходим, конечно, если он вообще существует.

Точность.

Еще одна основная функция поисковой системы – точность. Она определяет степень соответствия запросу пользователя найденных страниц в Сети. К примеру, если по ключевой фразе «как выбрать автомобиль» найдется сотня документов, в половине из них содержится данное словосочетание, а в остальных просто есть в наличии такие слова (как грамотно выбрать автомагнитолу, и установить ее в автомобиль»), то поисковая точность равна 50/100 = 0,5.

Чем поиск точнее, тем скорее пользователь найдет необходимую ему информацию, тем меньше разнообразного «мусора» будет встречаться среди результатов, тем меньше найденных документов будут не соответствовать смыслу запроса.

Актуальность.

Это значимая составляющая поиска, которую характеризует время, проходящее с момента опубликования информации в интернете до занесения ее в индексную базу поисковика.

К примеру, на следующий день после возникновения информации о выходе нового iPad, множество пользователей обратилась к поиску с соответствующими видами запросов. В большинстве случаев информация об этой новости уже доступна в поиске, хотя времени с момента ее появления прошло очень мало. Это происходит благодаря наличию у крупных поисковых систем «быстрой базы», которая обновляется несколько раз за день.

Скорость поиска.

Такая функция как скорость поиска теснейшим образом связана с так называемой «устойчивостью к нагрузкам». Ежесекундно к поиску обращается огромное количество людей, подобная загруженность требует значительного сокращения времени для обработки одного запроса. Тут интересы, как поисковой системы, так и пользователя целиком совпадают: посетитель хочет получить результаты как можно быстрее, а поисковая система должна отработать его запрос тоже максимально быстро, чтобы не притормозить обработку последующих запросов.

Наглядность.

Наглядное представление результатов является важнейшим элементом удобства поиска. По множеству запросов поисковая система находит тысячи, а в некоторых случаях и миллионы разных документов. Вследствие нечеткости составления ключевых фраз для поиска или его не точности, даже самые первые результаты запроса не всегда имеют только нужные сведения.

Это значит, что человеку часто приходится осуществлять собственный поиск среди предоставленных результатов. Разнообразные компоненты страниц выдачи ПС помогают ориентироваться в поисковых результатах.

История развития поисковых систем

Когда интернет только начал развиваться, число его постоянных пользователей было небольшим, и объем информации для доступа был сравнительно невеликим. В основном доступ к этой сети имели лишь специалисты научно-исследовательских сфер. В то время, задача нахождения информации не была столь актуальна как сейчас.

Одним из самых первых методов организации широкого доступа к ресурсам информации стало создание каталогов сайтов, причем ссылки на них начали группировать по тематике. Таким первым проектом стал ресурс Yahoo.com, который открылся весной 1994-ого года. Впоследствии когда количество сайтов в Yahoo-каталоге существенно увеличилось, была добавлена опция поиска необходимых сведений по каталогу. Это еще не было в полной мере поисковой системой, так как область такого поиска была ограничена только сайтами, входящими в данный каталог, а не абсолютно всеми ресурсами в интернете. Каталоги ссылок весьма широко использовались раньше, однако в настоящее время, практически в полной мере утратили свою популярность.

Ведь даже сегодняшние, громадные по своим объемам каталоги имеют информацию о незначительно части сайтов в интернете. Самый известный и большой каталог в мире DMOZ имеет информацию о пяти миллионах сайтов, когда база Google содержит информацию о более чем 25 миллиардов страниц.

DMOZ

Самой первой настоящей поисковой системой стала WebCrawler, возникшая еще в 1994-ом году.

В следующем году появились AltaVista и Lycos. Причем первая была лидером по поиску информации очень длительное время.

AltaVista долгое время была самой популярной поисковой системой

В 1997-ом году Сергей Брин вместе с Ларри Пейджем создал машину поисковую Google как исследовательский проект в Стэндфордском университете. Сегодня именно Google, самая востребованная и популярная поисковая система в мире. Сергей Брин и Ларри Пейдж


В сентябре 1997-ом году была анонсирована (официально) ПС Yandex, которая в настоящий момент является самой популярной системой поиска в Рунете. Офис Яндекса

По данным на сентябрь 2015 года, доли поисковых систем в мире распределены следующим образом:
  • Google — 69,24 %;
  • Bing — 12,26 %;
  • Yahoo! — 9,19 %;
  • Baidu — 6,48 %;
  • AOL — 1,11 %;
  • Ask — 0,23 %;
  • Excite — 0,00 %
Доли поисковых систем По данным на декабрь 2016 года, доли поисковых систем в Рунете:
  • Яндекс — 48,40%
  • Google — 45,10%
  • Search.Mail.ru — 5,70%
  • Rambler — 0,40%
  • Bing — 0,30%
  • Yahoo — 0,10%

Доли поисковых систем в Рунете

Принципы работы поисковой системы

В России главной системой поиска является Яндекс, затем Google, а потом Поиск@Mail.ru. Все большие системы поиска имеют свою структуру, которая весьма отличается от других. Но все-таки можно выделить общие для всех поисковиков основные элементы.

Модуль индексирования.

Данный компонент состоит из трех программ-роботов:

Spider (по англ. паук) – программа которая предназначена для того чтобы скачивать веб-страницы. «Паук» скачивает определенную страницу, одновременно извлекая из нее все ссылки. Скачивается код html практически с каждой страницы. Для этого роботы используют HTTP-протоколы.

Роботы поисковой системы Яндекс

«Паук» функционирует следующим образом. Робот передает запрос на сервер “get/path/document” и иные команды запроса HTTP. В ответ программа-робот получает поток текста, который содержит информацию служебного вида и, естественно, сам документ.

Извлекаются все ссылки из тэгов. Вместе с ними обрабатывают редиректы. Любая скачанная страница сохраняется в таком формате:

  • URL скаченной страницы;
  • дата, когда осуществлялось скачивание страницы;
  • заголовок http-ответа сервера;
  • html-код, «тела» страницы.
Crawler («путешествующий» паук). Данная программа автоматически заходит на все ссылки, которые найдены на странице, а также выделяет их. Его задача – определиться, куда в дальнейшем должен заходить паук, основываясь на этих ссылках или исходя из заданного списка адресов.

Crawler, исследуя найденные ссылки, ищет новые документы, еще не ставшие известными поисковой системе.

Indexer (робот-индексатор) – это программа, анализирующая страницы, которые скачали пауки.

Индексатор Яндекса
Индексатор полностью разбирает страницу на составные элементы и проводит их анализ, применяя свои морфологические и лексические виды алгоритмов.

Анализ проводится над разнообразными частями страницы, такими как заголовки, текст, ссылки, стилевые и структурные особенности, теги html и др.

Таким образом, модуль индексирования дает возможность проходить по ссылкам заданного количества ресурсов, скачивать страницы, извлекать ссылочную массу на новые страницы из полученных документов и делать подробный их анализ.

База данных

База данных (или индекс поисковика) — комплекс хранения данных, массив информации в котором сохраняются определенным образом переделанные параметры каждого обработанного модулем индексации и скачанного документа.

Поисковый сервер

Это самый важный элемент всей системы, потому что от алгоритмов, лежащих в основе ее функциональности, прямо зависит скорость и, конечно же, качество поиска.

Поисковый сервер работает следующим образом:

  • Запрос, который идет от пользователя подвергается морфологическому анализу. Информационное окружение любого документа, имеющегося в базе, генерируется (оно и будет в дальнейшем отображаться как сниппет, т.е. информационное поле текста соответствующего данному запросу).
  • Полученные данные передают как входные параметры специализированному модулю ранжирования. Они обрабатываются по всем документам, и в итоге для каждого такого документа рассчитывается свой рейтинг, который характеризует релевантность такого документа запросу пользователя, и иных составляющих.
  • В зависимости от условий заданных пользователем этот рейтинг вполне может быть подкорректирован дополнительными.
  • Затем генерируется сам сниппет, т.е. для любого найденного документа из соответствующей таблицы извлекают заголовок, аннотацию, наиболее отвечающую запросу, и ссылка на этот документ, при этом найденные словоформы и слова подсвечивают.
  • Результаты полученного поиска передаются осуществившему его человеку в виде страницы, на которую выдают поисковые результаты (SERP).
Все эти элементы тесно связаны между собой и функционируют, взаимодействуя, образовывая отчетливый, но достаточно непростой механизм функционирования ПС, требующий громадных затрат ресурсов.

Особенности работы поисковиков

  • SEO продвижение

Особенности поисковиков

 

1. Особенности поисковой системы «Яндекс».

 

Поисковая система «Яндекс» является четвертой среди крупнейших поисковых систем мира и первой крупной неанглоязычной поисковой системой. Среди стран СНГ и бывшего СССР Яндекс занимает ведущие позиции по количеству обрабатываемых поисковых запросов, именно с этим связаны отдельные его особенности. Как и Google Яндекс регулярно совершенствует свои поисковые процессы, позволяя находить наиболее релевантные результаты поиска.

Изначально Яндекс придерживался следующих правил, для результата выдачи:

• Уникальность контента на сайте.

• Исключение сайтов-близнецов из результатов поиска.

• Создание статистики релевантности для интернет ресурсов.

• Исключение сайтов с переоптимизацией или с использованием черных методов оптимизации.

 

Основным отличием поисковой системы «Яндекс» является учет морфологии сложного и могучего русского языка. Не маловажным является и тот факт, что домены расположенные в зонах ru, su, ua индексируются данной поисковой системой более приоритетно и сразу же после их создания, домены, расположенные в других зонах, начинают индексироваться только через месяц.

В 2009 году Яндекс стал использовать технологию под названием «Снежинск», благодаря которой удалось реализовать поиск по географическому расположению пользователя.

 

Яндекс очень большое внимание уделяет релевантности и уникальности контента сайта, алгоримы Яндекса положительно выделяют ресурсы с плотностью слов-ключей в тексте от 4% до 6%. Специально для более результативного поиска Яндекс разработал способы индексирования текста внутри приложений, весом до 10мб, различных форматов, находящихся на ресурсе.

При определении уровня релевантности сайта поисковая система «Яндекс» учитывает данные, размещенные в файле robot.txt, а так же некоторые метатеги. Следует отметить, что поисковым роботом Яндекса не просматриваются такие метатеги, как Revisit-After и Keywords.

 

Описания в результатах поискового запроса от «Яндекс» формируется на основании выдержек из текстового контента ресурса, т.е. можно сделать вывод, что тег Description не очень важен для данного поисковика. В отдельных случаях, если описание в теге в большой мере релевантно запросу, то описание под результатом выдачи может браться из тега.

Как утверждают сотрудники Яндекса метатег кодировки не важен для данной поисковой системы, ибо она сама может определять кодировку документов.

К особенностям Яндекса так же относят и тот факт, что он не индексирует ссылки, созданные на сайте при использовании скриптов JavaScript.

 

Очень большим плюсом данной поисковой системы является учет возраста интернет-ресурса, т.е. если вы создали свой сайт, расположили на нем уникальный контент, а через 2-3 месяца какой-то умник скопировал ваш текст к себе на ресурс, то Яндекс будет индексировать ваш сайт, а сайт копипастера нет.

 

2. Особенности поисковой системы Google.

 

Поисковая система Google является самой крупной во всем мире, её используют пользователи сети Интернет в большинстве современных стран, очень много крупных компаний и корпораций используют её как корпоративную поисковую систему. В настоящий момент компания Google это крупная инновационная корпорация, занимающаяся различными IT проектами в разных направлениях. Стоит отметить, что все свои разработки компания старается связывать друг с другом, делать взаимодействие между проектами наиболее тесным.

 

Если рассматривать Google, с точки зрения поиска, то можно узнать много интересных фактов, но об этом вы можете почитать и в википедии. Я же хочу обратить внимание на особые отличия поисковой системы Google от других поисковых систем. Итак, почему же эта система так популярна, почему другим поисковикам тяжело с ней конкурировать? Все очень просто, причина такой популярности в скорости поиска. На данный момент, эта поисковая система самая быстрая, результаты по введенному пользователю запросу генерируются в считанные доли секунды. Этого удается достичь за счет технологии под названием PageRank, заключающейся в копировании определенной информации с Интернет-ресурсов на сервера компании Google, таким образом, для поиска релевантного сайта, роботу Google не надо обходить и анализировать все сайты в Интернете, ему достаточно обратиться к базе копий, и по ним выдать результат. Именно из-за использования этой технологии компания Google является крупнейшим владельцем серверных компьютеров в мире.

Однако PageRank это не только копирование информации и поиск по ней, это так же и поиск, основывающийся на качестве внешних ссылок на ваш сайт, своеобразный аналог сервиса Яндекс цитирования.

Так же стоит обратить внимание на глобальность поисковой системы Google. Если, например, Яндекс имеет фильтр по региону пользователя, то Google в свою очередь данного фильтра не имеет, и он производит поиск во всемирном масштабе.

 

К особенностям Google так же относят использование «паука» под названием Googlebot. Данному поисковому роботу можно как запретить индексировать ваш сайт, так и ускорить шанс индексации им, для этого необходимо испрользовать файл robot.txt или различные стандартные метатеги. Google так же использует специфический тег:. Этот тег используется поисковиком для исключения вашего ресурса из его кэш памяти и благодоря этому пользователи могут просматривать вашу страницу на вашем сервере, а в кэше поисковика. Это позволит вашим пользователям регулярно получать свежие обновления вашего контента, без участия Googlebot’а.

 

Как следствие глобальности поисковой системы Google имеет огромную базу проиндексированных документов, поэтому нет гарантии, что ваш сайт будет проиндексирован после включения его в каталог ресурсов Google с использованием формы AddURL, скорее всего бот поисковика найдет ваш сайт раньше и проиндексирует его самостоятельно. Большое значение для индексации поисковым ботом Google имеет наличие вашего ресурса в каталоге DMOZ, который просматривается поисковым ботом регулярно.

 

Еще одной, пожалуй, отрицательной чертой поисковой системы Google является тот факт, что динамические страницы Google индексирует не в полном объеме, а если на страницах используются сессии, то индексация не происходит совсем.

Очень большое влияние на релевантность ваших интернет-страниц оказывают такие факторы внешней оптимизации ресурса, как:

• Плотность ключевых слов в документе (оптимально от 5% до 20%).

• Имя домена.

• Текст ссылок на ваш сайт с внешних ресурсов.

• Содержимое атрибута ALT у изображений на вашем сайте.

• Смысловое наполнение тега.

• Выделение ключевых слов в контенте при помощи использования специальных тегов, таких как <b> , <im> .

 

3. Особенности поисковой системы go.mail.ru.

В данном разделе речь пойдет о молодой поисковой системе go.mail.ru, являющейся частью крупного портала mail.ru. До недавних пор, данный портал и сама поисковая система использовала в своей работе то сервис поиска «Яндекс», то Google. Сейчас же портал начал использовать для поиска по зарубежным ресурсам результаты поиска Google, а для поиска по отечественным ресурсам был разработан собственный движок в 2006 году под названием GoGo.ru и каждый год он подлежит совершенствованию. О принципах работы и особенностях данного поисковика еще малоизвестно, но кое-какие моменты все-таки пользователи знают.

Пожалуй, к особенностям поисковика портала mail.ru можно отнести социализацию. Это связанно с тем, что портал включает в себя социальные сети, такие как МойМир и Одноклассники, а так же другие форумы и вопросники, где люди общаются друг с другом и обмениваются информацией. Инновационными функциями социализации поиска на портале mail.ru является поиск людей в соц. сетях, поиск товаров на сервисе mail.ru, поиск в проекте «Ответы Mail.ru».

Поиск go.mail.ru очень чувствителен к наличию ссылочной массы на ваш ресурс, если ссылочная масса большая, то ждите большой трафик с этого поисковика.

В будущем разработчики обещают интегрировать в поисковик функцию поиска по регионам, но пока это лишь обещания.

Автор: Кузьменко Сергей

E-mail: [email protected]

Поисковые системы интернета — список: все поисковики мира и России, какие есть и существуют, бывают кроме Яндекса и Гугла

Всем привет! Сегодня будет статья про поисковые системы мира, какие вообще существуют, когда появились, что рулит конкретно в России, а что на всём земном шаре. Статья получилась огромная, поэтому присаживайтесь поудобнее, желательно заранее приготовив термос с чаем 🙂

Для того чтобы стать специалистом в любом деле, недостаточно лайфхаков, какими бы полезными они ни были. Необходимо основательно разбираться в вопросе и постоянно расширять кругозор.

Думали ли вы о том, как появилось то, что мы используем каждый день? Какие есть поисковые системы помимо Google и Яндекса? И почему все сео-студии и люди выбирают именно последние? Да, но не нашли ответы? Они в этой статье.

Содержание статьи:

Пару слов из истории поисковиков

Очень давно, когда в Интернете все только начиналось…

Люди обходились малым, они сохраняли ссылки на сайты в «Закладках». Но время шло и вместе с ним увеличивалось количество этих самых закладок. В итоге человеку стало сложно разбираться в своей же системе.

Для того чтобы хоть немного навести порядок были разработаны каталоги Yahoo, DMOZ и т.д. К слову, некоторые из них не канули в лету до сих пор. Каталог – это что-то вроде библиотеки. В нем можно не только сохранять, но и разделять на группы ссылки на сайты.

Всемирная Сеть разрасталась с невероятной скоростью и каталоги перестали отвечать потребностям посетителей. Тогда программисты приступили к работе над поиском внутри каталогов, а потом и над первой поисковой системой.

Wandex – поисковая система-первопроходец

Поисковой системой, ставшей первопроходцем, является Wandex (нет, это не «отец» Яндекса, между ними нет никаких «родственных» связей). Она, как и все остальные поисковики, была настолько далека от идеала, что выдавала буквально все подряд, а не то, что больше всего подходит под запрос. Никаких алгоритмов ранжирования не было.

Первой системой, которая была создана для поиска информации в интернете, стала Wandex, ее уже не существует. Она была создана World Wide Web Wanderer – ботом на языке Perl, разработанным Мэтью Грэем из Массачусетского технологического института в 1993 году. Он также участвовал в создании Apache, разработке сайта MIT и других проектов. Сегодня Мэтью Грей является сотрудником компании Гугл.

В 1993 году во всем интернете было лишь 623 сайта, поэтому работы у Вандекса было поменьше, чем у современных поисковых систем. Более того, благодаря таким скромным меркам, для создания индексов и отображении результатов не нужны были мощные сервера с многоступенчатой кластеризацией, сложная работа алгоритмов поиска и способы по их оптимизации.

Wandex и другие первые сервисы обладали несовершенной системой поиска. При запросе слова они отображали не самые актуальные ссылки, а все страницы, их данные, без анализа и ранжирования. Поэтому некоторое время настоящими конкурентами поисковых систем были каталоги страниц – веб-площадки с вручную отобранными категориями ссылок на веб-источники.

Восстановление Вандекса

31 декабря 2011 года стало известно о возрождении этой системы. 1 января 2012 года поисковый бот World Wide Web Wanderer был зарегистрирован владельцами многих сайтов, что стало причиной для дискуссий. Сегодня на главной странице находится поисковая строка с надписью Wandex.

Буква Х изображена в виде перекрещенных линий, одна из которых имеет форму лупы – часто применяемый символ в поисковике.

Самые популярные поисковики Интернете в мире и России

Самые популярные поисковики может назвать даже школьник 1-го класса. Это Гугл и Яндекс. Можно дни и ночи напролет спорить о том, какой из них лучше. Но зачем? Они разные, и в какой из них заходить, зависит от ваших целей. Для вас я подготовил большой список из 16 поисковых систем, это практически все поисковики, которые есть на данный момент или существовали ранее.

Начнём с поисковых систем на русском языке и самых популярных в России, а затем перейдём к мировым.

Яндекс

Если верить тому, что пишут в LiveInternet, то именно Яндексу отдает предпочтение большая часть россиян. Впрочем, разница между ним и Гуглом составляет всего лишь один процент.

Среди тех, кто занимается созданием и SEO-продвижением сайтов, бытует мнение, что Яндекс заточен под коммерческие запросы, что в нем их в несколько раз больше, чем у конкурента. На мой взгляд, это очередной домысел. Как показывает практика, региональность определяет размер и структуру целевой аудитории.

История появления Яндекса началась в конце 1980-х – с создания поисковых технологий в компании Аркадия, которая потом вошла в группу CompTek. Создатели придумали несколько поисковых программ – Международный классификатор изобретений и поиск по Библии, учитывающий морфологию русского языка. Метод поиска получил название Яndex.

Яндекс на русскомЯндекс на русском

Первая активная версия поискового приложения под названием Yandex возникла в 1993 году, в 1995 году компьютеры компании-создатели поисковика были подсоединены к интернету, а в 1996 году стала велись работы по доработке методов поиска.

Официальным днем рождения поисковика Яндекс.ру является 23 сентября 1997 года. В этот день система была представлена на выставке Softool в Москве. Яндекс 1997 года учитывал морфологию русского языка, расстояние между словами и умел распределять документы на основе их релевантности заданному запросу.

В 1998 году на портале впервые возникла контекстная реклама – реклама, которая соответствует запросу потенциального пользователя. При таком методе показа рекламу видит только целевая аудитория. Контекстная реклама стала одним из важных ответов на вопросы пользователей, а в дальнейшем – главной бизнес-моделью компании Яндекс.

Компания Яндекс была основана в 2000 году. Ее учредителями стали акционеры КомпТек. Организация ru-Net Holdings вложила в Яндекс более 5 миллионов долларов, ее прибыль составила 35%. Среди акционеров были менеджеры Яндекса и ее главные разработчики поисковой системы.

Генеральным директором компании стал Аркадий Волож, а директором – Илья Сегалович – он же отвечал за внедрение и разработку технологий. Команда Яндекса состояла из 25 человек, а вся информация находилась на одном сервере.

В 2013 году российский поисковик Яндекс вышел на четвертое место в мире по количеству обрабатываемых запросов, обогнав Микрософт и уступив лидирующие места Гугл, Яху и Байду. Доход поиска Яндекса на отечественном рынке составляет 61,6%. Количество международной аудитории портала составляет 93,1 миллионов человек. Чистый доход компании за 2013 год вырос на 80%.

Google

Гугл правит балом во всех странах мира, кроме России. Он пришел к нам относительно недавно, в 2004 году, когда Яндекс уже уверенно стоял на ногах.

Google распространился настолько, что слово «загуглить» стало нарицательным, им обозначают поиск чего-то в Интернете. Забавно, но когда я прошу маму что-то «загуглить», она все равно открывает Яндекс. Может быть, не догадывается, какие есть другие поисковые системы.

Компания Гугл впервые появилась в качестве развития научного проекта Ларри Пейджа и Сергея Брина. В 1996 году студенты Стэнфорда трудились над проектом цифровой библиотеки (SDLP). Он был целью Разработки новых технологий для общей, интегрированной и универсальной цифровой библиотеки. Финансирование осуществлялось за счет Национального научного фонда.

Чтобы найти тему для диссертации Пейдж рассматривал среди другой информации изучение математических свойств Интернета, представляя структуру ссылок в виде большого графа. Его научный руководитель, Терри Виноград, посоветовал ему выбрать эту идею (позже Пейдж отметил, что это был самый лучший совет, который он когда-либо получал), и он полностью погрузился в проблему выяснения, какие сайты ссылаются на эту страницу, рассматривая количество и характер обратных ссылок.

ГуглГугл

Скоро к нему присоединился аспирант Стэнфорда Сергей Брин, который был лучшим другом Пейджа. Вместе они создали алгоритм PageRank. После определения результатов BackRub, состоящих из списка URL, отсортированного по количеству обратных ссылок на этот URL, они поняли, что поисковик, созданный на PageRank, принесет им высокие результаты.

Такую технологию ранжирования страницы и ее рейтинга уже изучил Робин Ли, создавший в 1996 году маленькую поисковую систему RankDex. Данная технология была запатентована и применялась позже после основания Baidu в Китае.

Первое инвестирование в Гугл было зафиксировано в августе 1998 года в сумме 100 тысяч долларов от Энди Бехтольштейма, одного из разработчиков Sun Microsystems. Официально компания была зарегистрирована 4 сентября 1998 года в гараже друга в Менло-Парк, штат Калифорния. Имя Гугл возникло от слова «гугол», обозначающего цифру 1 и сто нолей. В конце 1998 года Гугл проиндексировал более 60 миллионов страниц.

На главной странице по-прежнему была отметка БЕТА, но поисковая система уже получала положительные отклики: показатели поиска Google были выше, чем у других систем, высокие т

Поисковая система — Википедия

Поиск информации во Всемирной паутине был трудной и не самой приятной задачей, но с прорывом в технологии поисковых систем в конце 1990-х годов осуществлять поиск стало намного удобней

Поиско́вая систе́ма (англ. search engine) — это компьютерная система, предназначенная для поиска информации[источник не указан 367 дней]. Одно из наиболее известных применений поисковых систем — веб-сервисы для поиска текстовой или графической информации во Всемирной паутине. Существуют также системы, способные искать файлы на FTP-серверах, товары в интернет-магазинах, информацию в группах новостей Usenet.

Для поиска информации с помощью поисковой системы пользователь формулирует поисковый запрос[1]. Работа поисковой системы заключается в том, чтобы по запросу пользователя найти документы, содержащие либо указанные ключевые слова, либо слова, как-либо связанные с ключевыми словами[2]. При этом поисковая система генерирует страницу результатов поиска. Такая поисковая выдача может содержать различные типы результатов, например: веб-страницы, изображения, аудиофайлы. Некоторые поисковые системы также извлекают информацию из подходящих баз данных и каталогов ресурсов в Интернете.

Поисковая система тем лучше, чем больше документов, релевантных запросу пользователя, она будет возвращать. Результаты поиска могут становиться менее релевантными из-за особенностей алгоритмов (см. «Пузырь фильтров»[⇨]) или вследствие человеческого фактора[⇨]. По состоянию на 2015 год самой популярной поисковой системой в мире является Google, однако есть страны, где пользователи отдали предпочтение другим поисковикам. Так, например, в России «Яндекс» обгоняет Google больше, чем на 10 %[⇨].

По методам поиска и обслуживания разделяют четыре типа поисковых систем: системы, использующие поисковых роботов, системы, управляемые человеком, гибридные системы и мета-системы[⇨]. В архитектуру поисковой системы обычно входят:

  • поисковый робот, собирающий информацию с сайтов сети Интернет или из других документов,
  • индексатор, обеспечивающий быстрый поиск по накопленной информации, и
  • поисковик — графический интерфейс для работы пользователя[⇨].

На раннем этапе развития сети Интернет Тим Бернерс-Ли поддерживал список веб-серверов, размещённый на сайте ЦЕРН[3]. Сайтов становилось всё больше, и поддерживать вручную такой список становилось всё сложнее. На сайте NCSA был специальный раздел «Что нового!» (англ. What’s New!)[4], где публиковали ссылки на новые сайты.

Первой компьютерной программой для поиска в Интернете была программа Арчи[en] (англ. archie — архив без буквы «в»). Она была создана в 1990 году Аланом Эмтэджем (Alan Emtage), Биллом Хиланом (Bill Heelan) и Дж. Питером Дойчем (J. Peter Deutsch), студентами, изучающими информатику в университете Макгилла в Монреале. Программа скачивала списки всех файлов со всех доступных анонимных FTP-серверов и строила базу данных, в которой можно было выполнять поиск по именам файлов. Однако, программа Арчи не индексировала содержимое этих файлов, так как объём данных был настолько мал, что всё можно было легко найти вручную.

Развитие и распространение сетевого протокола Gopher, придуманного в 1991 году Марком Маккэхилом (Mark McCahill) в университете Миннесоты, привело к созданию двух новых поисковых программ, Veronica[en] и Jughead[en]. Как и Арчи, они искали имена файлов и заголовки, сохранённые в индексных системах Gopher. Veronica (англ. Very Easy Rodent-Oriented Net-wide Index to Computerized Archives) позволяла выполнять поиск по ключевым словам большинства заголовков меню Gopher во всех списках Gopher. Программа Jughead (англ. Jonzy’s Universal Gopher Hierarchy Excavation And Display) извлекала информацию о меню от определённых Gopher-серверов. Хотя название поисковика Арчи не имело отношения к циклу комиксов «Арчи»[en], тем не менее Veronica и Jughead — персонажи этих комиксов.

К лету 1993 года ещё не было ни одной системы для поиска в вебе, хотя вручную поддерживались многочисленные специализированные каталоги. Оскар Нирштрасс (Oscar Nierstrasz) в Женевском университете написал ряд сценариев на Perl, которые периодически копировали эти страницы и переписывали их в стандартный формат. Это стало основой для W3Catalog, первой примитивной поисковой системы сети, запущенной 2 сентября 1993 года[5].

Вероятно, первым поисковым роботом, написанным на языке Perl, был «World Wide Web Wanderer» — бот Мэтью Грэя (Matthew Gray) из Массачусетского технологического института в июне 1993 года. Этот робот создавал поисковый индекс «Wandex». Цель робота Wanderer состояла в том, чтобы измерить размер всемирной паутины и найти все веб-страницы, содержащие слова из запроса. В 1993 году появилась и вторая поисковая система «Aliweb». Aliweb не использовала поискового робота, но вместо этого ожидала уведомлений от администраторов веб-сайтов о наличии на их сайтах индексного файла в определённом формате.

JumpStation[en], [6] созданный в декабре 1993 года Джонатаном Флетчером, искал веб-страницы и строил их индексы с помощью поискового робота, и использовал веб-форму в качестве интерфейса для формулирования поисковых запросов. Это был первый инструмент поиска в Интернете, который сочетал три важнейших функции поисковой системы (проверка, индексация и собственно поиск). Из-за ограниченности ресурсов компьютеров того времени индексация и, следовательно, поиск были ограничены только названиями и заголовками веб-страниц, найденных поисковым роботом.

Первой полнотекстовой индексирующей ресурсы при помощи робота («craweler-based») поисковой системой, стала система «WebCrawler»[en], запущенная в 1994 году. В отличие от своих предшественниц, она позволяла пользователям искать по любым словам, расположенным на любой веб-странице — с тех пор это стало стандартом для большинства поисковых систем. Кроме того, это был первый поисковик, получивший широкое распространение. В 1994 году была запущена система «Lycos», разработанная в Университете Карнеги-Меллон и ставшая серьёзным коммерческим предприятием.

Вскоре появилось множество других конкурирующих поисковых машин, таких как: «Magellan»[en], «Excite», «Infoseek»[en], «Inktomi»[en], «Northern Light»[en] и «AltaVista». В некотором смысле они конкурировали с популярными интернет-каталогами, такими как «Yahoo!». Но поисковые возможности каталогов ограничивались поиском по самим каталогам, а не по текстам веб-страниц. Позже каталоги объединялись или снабжались поисковыми роботами с целью улучшения поиска.

В 1996 году компания Netscape хотела заключить эксклюзивную сделку с одной из поисковых систем, сделав её поисковой системой по умолчанию на веб-браузере Netscape. Это вызвало настолько большой интерес, что Netscape заключила контракт сразу с пятью крупнейшими поисковыми системами (Yahoo!, Magellan, Lycos, Infoseek и Excite). За 5 млн долларов США в год они предлагались по очереди на поисковой странице Netscape[7][8].

Поисковые системы участвовали в «Пузыре доткомов» конца 1990-х[9]. Несколько компаний эффектно вышли на рынок, получив рекордную прибыль во время их первичного публичного предложения. Некоторые отказались от рынка общедоступных поисковых движков и стали работать только с корпоративным сектором, например, Northern Light[en].

Google взял на вооружение идею продажи ключевых слов в 1998 году, тогда это была маленькая компания, обеспечивавшая работу поисковой системы по адресу goto.com[en]. Этот шаг ознаменовал для поисковых систем переход от соревнований друг с другом к одному из самых выгодных коммерческих предприятий в Интернете[10]. Поисковые системы стали продавать первые места в результатах поиска отдельным компаниям.

Поисковая система Google занимает видное положение с начала 2000-х[11]. Компания добилась высокого положения благодаря хорошим результатам поиска с помощью алгоритма PageRank. Алгоритм был представлен общественности в статье «The Anatomy of Search Engine», написанной Сергеем Брином и Ларри Пейджем, основателями Google[12]. Этот итеративный алгоритм ранжирует веб-страницы, основываясь на оценке количества гиперссылок на веб-страницу в предположении, что на «хорошие» и «важные» страницы ссылаются больше, чем на другие. Интерфейс Google выдержан в спартанском стиле, где нет ничего лишнего, в отличие от многих своих конкурентов, которые встраивали поисковую систему в веб-портал. Поисковая система Google стала настолько популярной, что появились подражающие ей системы, например, Mystery Seeker[en](тайный поисковик).

К 2000 году Yahoo! осуществлял поиск на основе системы Inktomi. Yahoo! в 2002 году купил Inktomi, а в 2003 году купил Overture, которому принадлежали AlltheWeb[en] и AltaVista. Затем Yahoo! работал на основе поисковой системы Google вплоть до 2004 года, пока не запустил, наконец, свой собственный поисковик на основе всех купленных ранее технологий.

Фирма Microsoft впервые запустила поисковую систему Microsoft Network Search (MSN Search) осенью 1998 года, используя результаты поиска от Inktomi. Совсем скоро в начале 1999 года сайт начал отображать выдачу Looksmart[en], смешанную с результатами Inktomi. Недолго (в 1999 году) MSN search использовал результаты поиска от AltaVista. В 2004 году фирма Microsoft начала переход к собственной поисковой технологии с использованием собственного поискового робота — msnbot[en]. После проведения ребрендинга компанией Microsoft 1 июня 2009 года была запущена поисковая система Bing. 29 июля 2009 Yahoo! и Microsoft подписали соглашение, согласно которому Yahoo! Search[en] работал на основе технологии Microsoft Bing. На момент 2015 года союз Bing и Yahoo! дал первые настоящие плоды. Теперь Bing занимает 20,1 % рынка, а Yahoo! 12,7 %, что в общем занимает 32,60 % от общего рынка поисковых систем в США по данным из разных источников.

Поиск информации на русском языке[править | править код]

В 1996 году был реализован поиск с учётом русской морфологии на поисковой машине Altavista и запущены оригинальные российские поисковые машины Рамблер и Апорт. 23 сентября 1997 года была открыта поисковая машина Яндекс. 22 мая 2014 года компанией Ростелеком была открыта национальная поисковая машина Спутник, которая на момент 2015 года находится в стадии бета-тестировании. 22 апреля 2015 года был открыт новый сервис Спутник. Дети специально для детей с повышенной безопасностью.

Большую популярность получили методы кластерного анализа и поиска по метаданным. Из международных машин такого плана наибольшую известность получила «Clusty»[en] компании Vivisimo[en]. В 2005 году в России при поддержке МГУ запущен поисковик «Нигма», поддерживающий автоматическую кластеризацию. В 2006 году открылась российская метамашина Quintura, предлагающая визуальную кластеризацию в виде облака тегов. «Нигма» тоже экспериментировала[13] с визуальной кластеризацией.

Высокоуровневая архитектура стандартного краулера

Основные составляющие поисковой системы: поисковый робот, индексатор, поисковик[14].

Как правило, системы работают поэтапно. Сначала поисковый робот получает контент, затем индексатор генерирует доступный для поиска индекс, и наконец, поисковик обеспечивает функциональность для поиска индексируемых данных. Чтобы обновить поисковую систему, этот цикл индексации выполняется повторно[14].

Поисковые системы работают, храня информацию о многих веб-страницах, которые они получают из HTML-страниц. Поисковый робот или «краулер» (англ. Crawler) — программа, которая автоматически проходит по всем ссылкам, найденным на странице, и выделяет их. Краулер, основываясь на ссылках или исходя из заранее заданного списка адресов, осуществляет поиск новых документов, ещё не известных поисковой системе. Владелец сайта может исключить определённые страницы при помощи robots.txt, используя который можно запретить индексацию файлов, страниц или каталогов сайта.

Поисковая система анализирует содержание каждой страницы для дальнейшего индексирования. Слова могут быть извлечены из заголовков, текста страницы или специальных полей — метатегов. Индексатор — это модуль, который анализирует страницу, предварительно разбив её на части, применяя собственные лексические и морфологические алгоритмы. Все элементы веб-страницы вычленяются и анализируются отдельно. Данные о веб-страницах хранятся в индексной базе данных для использования в последующих запросах. Индекс позволяет быстро находить информацию по запросу пользователя[15].

Ряд поисковых систем, подобных Google, хранят исходную страницу целиком или её часть, так называемый кэш, а также различную информацию о веб-странице. Другие системы, подобные системе AltaVista, хранят каждое слово каждой найденной страницы. Использование кэша помогает ускорить извлечение информации с уже посещённых страниц[15]. Кэшированные страницы всегда содержат тот текст, который пользователь задал в поисковом запросе. Это может быть полезно в том случае, когда веб-страница обновилась, то есть уже не содержит текст запроса пользователя, а страница в кэше ещё старая[15]. Эта ситуация связана с потерей ссылок (англ. linkrot[en]) и дружественным по отношению к пользователю (юзабилити) подходом Google. Это предполагает выдачу из кэша коротких фрагментов текста, содержащих текст запроса. Действует принцип наименьшего удивления, пользователь обычно ожидает увидеть искомые слова в текстах полученных страниц (User expectations[en]). Кроме того, что использование кэшированных страниц ускоряет поиск, страницы в кэше могут содержать такую информацию, которая уже нигде более не доступна.

Поисковик работает с выходными файлами, полученными от индексатора. Поисковик принимает пользовательские запросы, обрабатывает их при помощи индекса и возвращает результаты поиска[14].

Когда пользователь вводит запрос в поисковую систему (обычно при помощи ключевых слов), система проверяет свой индекс и выдаёт список наиболее подходящих веб-страниц (отсортированный по какому-либо критерию), обычно с краткой аннотацией, содержащей заголовок документа и иногда части текста[15]. Поисковый индекс строится по специальной методике на основе информации, извлечённой из веб-страниц[11]. С 2007 года поисковик Google позволяет искать с учётом времени создания искомых документов (вызов меню «Инструменты поиска» и указание временного диапазона).

Большинство поисковых систем поддерживает использование в запросах булевых операторов И, ИЛИ, НЕ, что позволяет уточнить или расширить список искомых ключевых слов. При этом система будет искать слова или фразы точно так, как было введено. В некоторых поисковых системах есть возможность приближённого поиска[en], в этом случае пользователи расширяют область поиска, указывая расстояние до ключевых слов[15]. Есть также концептуальный поиск[en], при котором используется статистический анализ употребления искомых слов и фраз в текстах веб-страниц. Эти системы позволяют составлять запросы на естественном языке. Примером такой поисковой системы является сайт ask com.

Полезность поисковой системы зависит от релевантности найденных ею страниц. Хоть миллионы веб-страниц и могут включать некое слово или фразу, но одни из них могут быть более релевантны, популярны или авторитетны, чем другие. Большинство поисковых систем использует методы ранжирования, чтобы вывести в начало списка «лучшие» результаты. Поисковые системы решают, какие страницы более релевантны, и в каком порядке должны быть показаны результаты, по-разному[15]. Методы поиска, как и сам Интернет со временем меняются. Так появились два основных типа поисковых систем: системы предопределённых и иерархически упорядоченных ключевых слов и системы, в которых генерируется инвертированный индекс на основе анализа текста.

Большинство поисковых систем являются коммерческими предприятиями, которые получают прибыль за счёт рекламы, в некоторых поисковиках можно купить за отдельную плату первые места в выдаче для заданных ключевых слов. Те поисковые системы, которые не берут денег за порядок выдачи результатов, зарабатывают на контекстной рекламе, при этом рекламные сообщения соответствуют запросу пользователя. Такая реклама выводится на странице со списком результатов поиска, и поисковики зарабатывают при каждом клике пользователя на рекламные сообщения.

Существует четыре типа поисковых систем: с поисковыми роботами, управляемые человеком, гибридные и мета-системы[16].

  • системы, использующие поисковые роботы
Состоят из трёх частей: краулер («бот», «робот» или «паук»), индекс и программное обеспечение поисковой системы. Краулер нужен для обхода сети и создания списков веб-страниц. Индекс — большой архив копий веб-страниц. Цель программного обеспечения — оценивать результаты поиска. Благодаря тому, что поисковый робот в этом механизме постоянно исследует сеть, информация в большей степени актуальна. Большинство современных поисковых систем являются системами данного типа.
Эти поисковые системы получают списки веб-страниц. Каталог содержит адрес, заголовок и краткое описание сайта. Каталог ресурсов ищет результаты только из описаний страницы, представленных ему веб-мастерами. Достоинство каталогов в том, что все ресурсы проверяются вручную, следовательно, и качество контента будет лучше по сравнению с результатами, полученными системой первого типа автоматически. Но есть и недостаток — обновление данных каталогов выполняется вручную и может существенно отставать от реального положения дел. Ранжирование страниц не может мгновенно меняться. В качестве примеров таких систем можно привести каталог Yahoo[en], dmoz и Galaxy.
  • гибридные системы
Такие поисковые системы, как Yahoo, Google, MSN, сочетают в себе функции систем, использующие поисковых роботов, и систем, управляемых человеком.
Метапоисковые системы объединяют и ранжируют результаты сразу нескольких поисковиков. Эти поисковые системы были полезны, когда у каждой поисковой системы был уникальный индекс, и поисковые системы были менее «умными». Поскольку сейчас поиск намного улучшился, потребность в них уменьшилась. Примеры: MetaCrawler[en] и MSN Search.

Google — самая популярная поисковая система в мире с долей на рынке 69,24 %. Bing занимает вторую позицию, его доля 12,26 %[17].

Самые популярные поисковые системы в мире[18]:

Поисковая система Доля рынка в июле 2014 Доля рынка в октябре 2014 Доля рынка в сентябре 2017
Google 68,69 % 58,01 % 69,24 %
Bing 17,17 % 29,06 % 12,26 %
Baidu 6,22 % 8,01 % 6,48 %
Yahoo! 6,74 % 4,01 % 5,19 %
AOL 0,13 % 0,21 % 1,11 %
Excite 0,22 % 0,00 % 0,00 %
Ask 0,13 % 0,10 % 0,24 %

Азия[править | править код]

В восточноазиатских странах и в России Google — не самая популярная поисковая система. В Китае, например, более популярна поисковая система Soso.

В Южной Корее поисковым порталом собственной разработки Naver пользуется около 70 % жителей[19]Yahoo! Japan и Yahoo! Taiwan — самые популярные системы для поиска в Японии и Тайване соответственно[20].

Россия и русскоязычные поисковые системы[править | править код]

Яндексом пользуются 53,3 % пользователей в России (Google — 42,9 %)[21].

Согласно данным LiveInternet в декабре 2017 года об охвате русскоязычных поисковых запросов[22]:

  • Всеязычные:
  • Англоязычные и международные:
  • Русскоязычные — большинство «русскоязычных» поисковых систем индексируют и ищут тексты на многих языках — украинском, белорусском, английском, татарском и других. Отличаются же они от «всеязычных» систем, индексирующих все документы подряд, тем, что, в основном, индексируют ресурсы, расположенные в доменных зонах, где доминирует русский язык, или другими способами ограничивают своих роботов русскоязычными сайтами.

Некоторые из поисковых систем используют внешние алгоритмы поиска.

Количественные данные поисковой системы Google[править | править код]

Число пользователей Интернета и поисковых систем и требований пользователей к этим системам постоянно растёт. Для увеличений скорости поиска нужной информации крупные поисковые системы содержат большое количество серверов. Сервера обычно группируют в серверные центры (дата-центры). У популярных поисковых систем серверные центры разбросаны по всему миру[23].

В октябре 2012 года Google запустила проект «Где живёт Интернет», где пользователям предоставляется возможность познакомиться с центрами обработки данных этой компании[24].

О работе дата-центров поисковой системе Google известно следующее[23]:

  • Суммарная мощность всех дата-центров Google, по состоянию на 2011 год, оценивалась в 220 МВт.
  • Когда в 2008 году Google планировала открыть в Орегоне новый комплекс, состоящий из трёх зданий общей площадью 6,5 млн м², в журнале Harper’s Magazine подсчитали, что такой большой комплекс потребляет свыше 100 МВт электроэнергии, что сравнимо с потреблением энергии города с населением 300 000 человек.
  • Ориентировочное число серверов Google в 2012 году — 1 000 000.
  • Расходы Google на дата-центры составили в 2006 году — $1,9 млрд, а в 2007 году — $2,4 млрд.

Размер всемирной паутины, проиндексированной Google на декабрь 2014 года, составляет примерно 4,36 миллиарда страниц[25].

Поисковые системы, учитывающие религиозные запреты[править | править код]

Глобальное распространение Интернета и увеличение популярности электронных устройств в арабском и мусульманском мире, в частности, в странах Ближнего Востока и Индийского субконтинента, способствовало развитию локальных поисковых систем, учитывающих исламские традиции. Такие поисковые системы содержат специальные фильтры, которые помогают пользователям не попадать на запрещённые сайты, например, сайты с порнографией, и позволяют им пользоваться только теми сайтами, содержимое которых не противоречит исламской вере.

Незадолго до мусульманского месяца Рамадан, в июле 2013 года, миру был представлен Halalgoogling[en] — система, выдающая пользователям только халяльные «правильные» ссылки[26], фильтруя результаты поиска, полученные от других поисковых систем, таких как Google и Bing. Двумя годами ранее, в сентябре 2011 года, был запущен поисковый движок I’mHalal, предназначенный для обслуживания пользователей Ближнего Востока. Однако этот поисковый сервис пришлось вскоре закрыть, по сообщению владельца, из-за отсутствия финансирования[27].

Отсутствие инвестиций и медленный темп распространения технологий в мусульманском мире препятствовали прогрессу и мешали успеху серьёзного исламского поисковика. Очевиден провал огромных инвестиций в веб-проекты мусульманского образа жизни, одним из которых был Muxlim[en]. Он получил миллионы долларов от инвесторов, таких как Rite Internet Ventures, и теперь — в соответствии с последним сообщением от I’mHalal перед его закрытием — выступает с сомнительной идеей о том, что «следующий Facebook или Google могут появиться только в странах Ближнего Востока, если вы поддержите нашу блестящую молодёжь»[28].

Тем не менее исламские эксперты в области Интернета в течение многих лет занимаются определением того, что соответствует или не соответствует шариату, и классифицируют веб-сайты как «халяль» или «харам». Все бывшие и настоящие исламские поисковые системы представляют собой просто специальным образом проиндексированный набор данных либо это главные поисковые системы, такие как Google, Yahoo и Bing, с определённой системой фильтрации, использующейся для того, чтобы пользователи не могли получить доступ к харам-сайтам, таким как сайты о наготе, ЛГБТ, азартных играх и каким-либо другим, тематика которых считается антиисламской[28].

Среди других религиозно-ориентированных поисковых систем распространёнными являются Jewogle — еврейская версия Google и SeekFind.org — христианский сайт, включающий в себя фильтры, оберегающие пользователей от контента, который может подорвать или ослабить их веру[29].

Персональные результаты и пузыри фильтров[править | править код]

Многие поисковые системы, такие как Google и Bing, используют алгоритмы выборочного угадывания того, какую информацию пользователь хотел бы увидеть, основываясь на его прошлых действиях в системе. В результате, веб-сайты показывают только ту информацию, которая согласуется с прошлыми интересами пользователя. Этот эффект получил название «пузырь фильтров»[30].

Всё это ведёт к тому, что пользователи получают намного меньше противоречащей своей точке зрения информации и становятся интеллектуально изолированными в своём собственном «информационном пузыре». Таким образом, «эффект пузыря» может иметь негативные последствия для формирования гражданского мнения[31].

Несмотря на то, что поисковые системы запрограммированы, чтобы оценивать веб-сайты на основе некоторой комбинации их популярности и релевантности, в реальности экспериментальные исследования указывают на то, что различные политические, экономические и социальные факторы оказывают влияние на поисковую выдачу[32][33].

Такая предвзятость может быть прямым результатом экономических и коммерческих процессов: компании, которые рекламируются в поисковой системе, могут стать более популярными в результатах обычного поиска в ней. Удаление результатов поиска, не соответствующих местным законам, является примером влияния политических процессов. Например, Google не будет отображать некоторые неонацистские веб-сайты во Франции и Германии, где отрицание Холокоста незаконно[34].

Предвзятость может также быть следствием социальных процессов, поскольку алгоритмы поисковых систем часто разрабатываются, чтобы исключить неформатные точки зрения в пользу более «популярных» результатов[35]. Алгоритмы индексации главных поисковых систем отдают приоритет американским сайтам[33].

Поисковая бомба — один из примеров попытки управления результатами поиска по политическим, социальным или коммерческим причинам.

  1. ↑ Chu & Rosenthal, 1996, p. 129.
  2. ↑ Tarakeswar & Kavitha, 2011, p. 29.
  3. ↑ World-Wide Web Servers.
  4. ↑ What’s New.
  5. ↑ Oscar Nierstrasz.
  6. ↑ Archive of NCSA.
  7. ↑ Yahoo! And Netscape.
  8. ↑ Netscape, 1996.
  9. ↑ The dynamics of competition, 2001.
  10. ↑ Intro to Computer Science.
  11. 1 2 Google`s history.
  12. ↑ Брин и Пейдж, p. 3.
  13. ↑ Nigma.
  14. 1 2 3 Risvik & Michelsen, 2002, p. 290.
  15. 1 2 3 4 5 6 Knowledge Management, 2011.
  16. ↑ Tarakeswar & Kavitha, 2011, p. 29.
  17. ↑ NMS.
  18. ↑ Статистика.
  19. ↑ Naver.
  20. ↑ Age of Internet Empires.
  21. ↑ LiveInternet.
  22. ↑ Liveinternet
  23. 1 2 Antula.
  24. ↑ Where the Internet lives.
  25. ↑ World wide web size.
  26. ↑ Islam.
  27. ↑ I’mHalal
  28. 1 2 Halalblog
  29. ↑ ChristianNews.
  30. ↑ Pariser, 2011.
  31. ↑ Auralist, 2012, p. 13.
  32. ↑ Segev, 2010

Поисковые системы: состав, функции, принципы работы.

Поисковая система — это программно-аппаратный комплекс, предназначенный для осуществления поиска в сети Интернет и реагирующий на запрос пользователя, задаваемый в виде текстовой фразы (поискового запроса), выдачей списка ссылок на источники информации, в порядке релевантности (в соответствии запросу). Наиболее крупные международные поисковые системы: «Google», «Yahoo», «MSN». В русском Интернете это – «Яндекс», «Рамблер», «Апорт».

Опишем основные характеристики поисковых систем:

Полнота — одна из основных характеристик поисковой системы, представляющая собой отношение количества найденных по запросу документов к общему числу документов в сети Интернет, удовлетворяющих данному запросу. К примеру, если в Интернете имеется 100 страниц, содержащих словосочетание «как выбрать автомобиль», а по соответствующему запросу было найдено всего 60 из них, то полнота поиска будет 0,6. Очевидно, что чем полнее поиск, тем меньше вероятность того, что пользователь не найдет нужный ему документ, при условии, что он вообще существует в Интернете.

Точность — еще одна основная характеристика поисковой машины, которая определяется степенью соответствия найденных документов запросу пользователя. Например, если по запросу «как выбрать автомобиль» находится 100 документов, в 50 из них содержится словосочетание «как выбрать автомобиль», а в остальных просто наличествуют эти слова («как правильно выбрать магнитолу и установить в автомобиль»), то точность поиска считается равной 50/100 (=0,5). Чем точнее поиск, тем быстрее пользователь найдет нужные ему документы, тем меньше различного рода «мусора» среди них будет встречаться, тем реже найденные документы не будут соответствовать запросу.

Актуальность — не менее важная составляющая поиска, которая характеризуется временем, проходящим с момента публикации документов в сети Интернет, до занесения их в индексную базу поисковой системы. Например, на следующий день после появления интересной новости, большое количество пользователей обратились к поисковым системам с соответствующими запросами. Объективно с момента публикации новостной информации на эту тему прошло меньше суток, однако основные документы уже были проиндексированы и доступны для поиска, благодаря существованию у крупных поисковых систем так называемой «быстрой базы», которая обновляется несколько раз в день.

Скорость поиска тесно связана с его устойчивостью к нагрузкам. Например, по данным ООО «Рамблер Интернет Холдинг», на сегодняшний день в рабочие часы к поисковой машине Рамблер приходит около 60 запросов в секунду. Такая загруженность требует сокращения времени обработки отдельного запроса. Здесь интересы пользователя и поисковой системы совпадают: посетитель желает получить результаты как можно быстрее, а поисковая машина должна отрабатывать запрос максимально оперативно, чтобы не тормозить вычисление следующих запросов.

Наглядность представления результатов является важным компонентом удобного поиска. По большинству запросов поисковая машина находит сотни, а то и тысячи документов. Вследствие нечеткости составления запросов или неточности поиска, даже первые страницы выдачи не всегда содержат только нужную информацию. Это означает, что пользователю зачастую приходится производить свой собственный поиск внутри найденного списка. Различные элементы страницы выдачи поисковой системы помогают ориентироваться в результатах поиска.одробные пояснения по странице результатов поиска, например у «Яндекса» можно посмотреть по ссылке http://help.yandex.ru/search/?id=481937.

4. Краткая история развития поисковых систем

В начальный период развития Интернет, число его пользователей было невелико, а объем доступной информации сравнительно небольшим. В большинстве своем, доступ к сети Интернет имели лишь сотрудники научно-исследовательской сферы. В это время задача поиска информации в Интернете не была столь актуальной, как в настоящее время.

Одним из первых способов организации доступа к информационным ресурсам сети стало создание открытых каталогов сайтов, ссылки на ресурсы в которых группировались согласно тематике. Первым таким проектом стал сайт Yahoo.com, открывшийся весной 1994 года. После того, как количество сайтов в каталоге Yahoo значительно увеличилось, была добавлена возможность поиска нужной информации по каталогу. В полном смысле это еще не было поисковой системой, так как поисковая область была ограничена только ресурсами, присутствующими в каталоге, а не всеми Интернет ресурсами.

Каталоги ссылок широко использовались ранее, однако практически полностью утратили свою популярность в настоящее время. Так как даже современные, огромные по своему объему каталоги, содержат информацию лишь о ничтожно малой части сети Интернет. Самый большой каталог сети DMOZ (его еще называют Open Directory Project) содержит информацию о 5 миллионах ресурсов, тогда как база поисковой системы Google состоит из более чем 8 миллиардов документов.

Первой полноценной поисковой системой стал проект WebCrawler, вышедший в свет в 1994 году.

В 1995 году появились поисковые системы Lycos и AltaVista. Последняя долгие годы была лидером в области поиска информации в сети Интернет.

В 1997 году Сергей Брин и Ларри Пейдж создали поисковую машину Google в рамках исследовательского проекта в Стэндфордском университете. В настоящий момент Google — самая популярная поисковая система в мире!

В сентябре 1997 года была официально анонсирована поисковая система Yandex, являющаяся самой популярной в русскоязычном Интернете.

В настоящее время существуют три основные международные поисковые системы – Google, Yahoo и MSN, имеющих собственные базы и алгоритмы поиска. Большинство остальных поисковых систем (коих насчитывается большое количество) использует в том или ином виде результаты трех перечисленных. Например, поиск AOL (search.aol.com) использует базу Google, а AltaVista, Lycos и AllTheWeb – базу Yahoo.

5. Состав и принципы работы поисковой системы

В России основной поисковой системой является «Яндекс», далее — Rambler.ru, Google.ru, Aport.ru, Mail.ru. Причем, на данный момент, Mail.ru использует механизм и базу поиска «Яндекса».

Практически все крупные поисковые системы имеют свою собственную структуру, отличную от других. Однако можно выделить общие для всех поисковых машин основные компоненты. Различия в структуре могут быть лишь в виде реализации механизмов взаимодействия этих компонентов.

Модуль индексирования

Модуль индексирования состоит из трех вспомогательных программ (роботов):

Spider (паук) – программа, предназначенная для скачивания веб-страниц. «Паук» обеспечивает скачивание страницы и извлекает все внутренние ссылки с этой страницы. Скачивается html-код каждой страницы. Для скачивания страниц роботы используют протоколы HTTP. Работает «паук» следующим образом. Робот на сервер передает запрос “get/path/document” и некоторые другие команды HTTP-запроса. В ответ робот получает текстовый поток, содержащий служебную информацию и непосредственно сам документ.

Ссылки извлекаются из тэгов a, area, base, frame, frameset, и др. Наряду со ссылками, многими роботами обрабатываются редиректы (перенаправления). Каждая скачанная страница сохраняется в следующем формате:

  • URL страницы

  • дата, когда страница была скачана

  • http-заголовок ответа сервера

  • тело страницы (html-код)

Crawler («путешествующий» паук) – программа, которая автоматически проходит по всем ссылкам, найденным на странице. Выделяет все ссылки, присутствующие на странице. Его задача — определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Crawler, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе.

Indexer (робот- индексатор) — программа, которая анализирует веб-страницы, скаченные пауками. Индексатор разбирает страницу на составные части и анализирует их, применяя собственные лексические и морфологические алгоритмы. Анализу подвергаются различные элементы страницы, такие как текст, заголовки, ссылки структурные и стилевые особенности, специальные служебные html-теги и т.д.

Таким образом, модуль индексирования позволяет обходить по ссылкам заданное множество ресурсов, скачивать встречающиеся страницы, извлекать ссылки на новые страницы из получаемых документов и производить полный анализ этих документов.

База данных

База данных, или индекс поисковой системы — это система хранения данных, информационный массив, в котором хранятся специальным образом преобразованные параметры всех скачанных и обработанных модулем индексирования документов.

Поисковый сервер

Поисковый сервер является важнейшим элементом всей системы, так как от алгоритмов, которые лежат в основе ее функционирования, напрямую зависит качество и скорость поиска.

Поисковый сервер работает следующим образом:

  • Полученный от пользователя запрос подвергается морфологическому анализу. Генерируется информационное окружение каждого документа, содержащегося в базе (которое и будет впоследствии отображено в виде сниппета, то есть соответствующей запросу текстовой информации на странице выдачи результатов поиска).

  • Полученные данные передаются в качестве входных параметров специальному модулю ранжирования. Происходит обработка данных по всем документам, в результате чего, для каждого документа рассчитывается собственный рейтинг, характеризующий релевантность запроса, введенного пользователем, и различных составляющих этого документа, хранящихся в индексе поисковой системы.

  • В зависимости от выбора пользователя этот рейтинг может быть скорректирован дополнительными условиями (например, так называемый «расширенный поиск»).

  • Далее генерируется сниппет, то есть, для каждого найденного документа из таблицы документов извлекаются заголовок, краткая аннотация, наиболее соответствующая запросу и ссылка на сам документ, причем найденные слова подсвечиваются.

  • Полученные результаты поиска передаются пользователю в виде SERP (Search Engine Result Page) – страницы выдачи поисковых результатов.

Как видно, все эти компоненты тесно связаны друг с другом и работают во взаимодействии, образовывая четкий, достаточно сложный механизм работы поисковой системы, требующий огромных затрат ресурсов.

Ни одна поисковая система не охватывает все ресурсы Интернет.

Каждая поисковая система собирает сведения о ресурсах Интернет, применяя свои уникальные методы, и формирует собственную периодически обновляемую базу данных. Доступ к этой базе предоставляется пользователю.

Поисковые системы реализуют два способа поиска ресурса:

  • Поиск по тематическим каталогам — информация представляется в виде иерархической структуры. На верхнем уровне — общие категории (“Интернет”, “Бизнес”, “Искусство”, “Образование” и т.д.), на следующем уровне категории делятся на разделы и т.д. Самый нижний уровень — ссылки на конкретные веб-страницы или другие информационные ресурсы.

  • Поиск по ключевым словам (индексный поиск или детальный) — пользователь отправляет поисковой системе запрос, состоящий из ключевых слов. Система возвращает пользователю перечень найденных по запросу ресурсов.

Большинство поисковых систем сочетают оба способа поиска.

Поисковые системы могут быть локальными, глобальными, региональными и специализированными.

В русской части Интернет (Рунет) наиболее популярны сейчас поисковые системы общего назначения Rambler (www.rambler.ru), Яндекс (www.yandex.ru), Апорт (www.aport.ru), Гугл (www.google.ru).

Большинство поисковых систем реализовано в виде порталов.

Портал (от англ. portal — главный вход, ворота) -это веб-сайт, который интегрирует различные сервисы Интернет: средства поиска, почту, новости, словари и т.д.

Порталы могут быть специализированными (как, www.museum.ru) и общими (например, www.km.ru).

Поиск по ключевым словам

Набор ключевых слов, по которым ведется поиск, называют также критерием поиска или темой поиска.

Запрос может состоять как из одного слова, так и из сочетания слов, объединенных операторами — символами, по которым система определяет, какое действие ей нужно произвести. Например: запрос “Москва Питер” содержит оператор И (так воспринимается пробел), который указывает, что надо искать документы, в которых есть оба слова — и Москва, и Питер.

Для того, чтобы поиск был релевантным (от англ. relevant -уместный, относящийся к делу), следует учитывать несколько общих правил:

  • Независимо от того, в какой форме употреблено слово в запросе, поиск учитывает все его словоформы по правилам русского языка. Например, по запросу “билет” будут найдены и слова “билетом”, “билету” и т.д.

  • Заглавные буквы следует использовать только в именах собственных, чтобы не просматривать лишние ссылки. По запросу “кузнецов”, например, будут найдены документы, где говорится и о кузнецах, и о Кузнецовых.

  • Желательно сужать круг поиска, используя несколько ключевых слов.

  • Если нужного адреса нет среди первой двадцатки найденных адресов, следует изменить запрос.

  • Если по запросу не найдено ни одной ссылки, прежде чем менять запрос, надо проверить орфографию.

Каждая поисковая система использует свой язык запросов. Для знакомства с ним, пользуйтесь встроенной справкой поисковой системы

Крупные сайты могут иметь встроенные системы поиска информации в пределах своих веб-страниц.

Запросы в подобных системах поиска, как правило, строятся по тем же правилам, что и в глобальных поисковых системах, однако знакомство со справкой и здесь не будет лишним.

Расширенный поиск

Поисковые системы могут предоставлять в распоряжение пользователя механизм, позволяющий формировать сложный запрос. Переход по ссылке Расширенный поиск дает возможность редактировать параметры поиска, указывать дополнительные параметры и выбирать наиболее удобную форму показа результатов поиска. Ниже описаны параметры, которые могут быть заданы при расширенном поиске в системах Япс1ех и Rambler.

Описание параметра

Название в Яндекс

Название в Rambler

Где искать ключевые слова (заголовок документа, основной текст и т.д.)

Словарный фильтр

Поиск по тексту …

Какие слова должны или не должны присутствовать в документе и насколько точным должно быть совпадение

Словарный фильтр

Искать слова запроса… Исключить документы, содержащие следующие слова…

На каком расстоянии друг от друга должны располагаться ключевые слова

Словарный фильтр

Расстояние между словами запроса…

Ограничение на дату документа

Дата

Дата документа…

Ограничение поиска пределами одного или нескольких сайтов

Сайт/Вершина

Искать документы только на следующих сайтах…

Поиск страниц со ссылками на определенный сайт и исключение из поиска страниц со ссылками на определенный сайт

Ссылка

Ограничение поиска по языку документа

Язык

Язык документа…

Поиск документов, содержащих картинку с определенным именем или подписью

Изображение

Поиск страниц, содержащих объекты

Специальные объекты

Форма представления результатов поиска

Формат выдачи

Вывод результатов поиска

Некоторые поисковые системы (например, Яндекс) позволяют вводить запросы на естественном языке. Вы пишите, что нужно найти (например: заказ билетов на поезд из Москвы в Питер). Система анализирует запрос и выдает результат. Если он Вас не устраивает, переходите на язык запросов.

Основные принципы работы поисковых систем в Интернете

Какой бы вопрос не волновал современного человека, ответы он не ищет в книгах. Он ищет их в интернете. Причем не нужно знать адрес сайта, на котором лежит нужная тебе информация. Таких сайтов миллионы, а помогает найти нужный поисковая система.

На просторах нашего отечественного интернета самые популярные две поисковые системы – Google и Яндекс.

Вы хотя бы раз задумывались, как работает поисковая система? Как она понимает, какой сайт показать, на каком из миллионов ресурсов точно есть ответ на ваш запрос?

Если да – читайте дальше.

Что представляет собой поисковая система?

Поисковая система – это огромная база веб-документов, которая постоянно пополняется и расширяется. У каждой поисковой системы есть поисковые пауки, роботы – это специальные боты, которые обходят сайты, индексируют размещенный на них контент, а затем ранжируют по степени его качества и релевантности поисковым запросам пользователей.

Поисковые системы работают для того, чтобы любой человек мог найти любую информацию. Потому они стараются показывать в первую очередь те веб-документы, в которых есть максимально подробный ответ на вопрос человека.

По своей сути поисковая система – это каталог сайтов, справочник, основная функция которого – поиск информации по этому самому каталогу.

Как я уже написал выше, у нас популярные две системы – Google (мировая) и Яндекс (русскоязычный сегмент). Но есть еще такие системы, как Rambler, Yahoo, Bing, Mail.Ru и другие. Принцип работы похож у них у всех, отличаются только алгоритмы ранжирования (и то не сильно существенно).

 

Как работает поисковая система в Интернете

Принцип работы поисковых систем очень сложный, но я попробую объяснить простыми словами.

Поисковый робот (паук) обходит страницы сайта, скачивает их содержимое и извлекает ссылки. Далее начинает свою работу индексатор – это программа, которая анализирует все скачанные пауками материалы, опираясь на собственные алгоритмы работы.

Таким образом, создается база данных поисковой системы, в которой хранятся все обработанные алгоритмом документы.

Работа с поисковым запросом проводится следующим образом:

  • анализируется введенный пользователем запрос;
  • результаты анализы передаются специальному модулю ранжирования;
  • обрабатываются данные всех документов, выбираются самые релевантные введенному запросу;
  • генерируется сниппет – заголовок, дескрипшн, слова из запроса подсвечиваются полужирным;
  • результаты поиска представляются пользователю в виде SERP (страницы выдачи).

 

Принципы работы поисковых машин

Главная задача любой поисковой системы – предоставить пользователю наиболее полезную и точную информацию по его запросу. Потому поисковый робот обходит сайты постоянно. Сразу после вашего запуска, согласно определенному распорядку, паук заходит к вам в гости, обходит ряд страниц, после чего проходит их индексация.

Принцип работы поисковых машин базируется на двух основных этапах:

  • обход страниц, с помощью которого собираются данные;
  • присвоение индекса, благодаря которому система сможет быстро проводить поиск по содержимому данной страницы.

Как только страница сайта проиндексирована, она уже появится в результатах поиска по определенному поисковому запросу. Проверить, попала ли новая страница в индекс поисковой системы, можно с помощью инструментов для вебмастеров. Например, в Яндекс.Вебмастере сразу видно, какие страницы проиндексированы и когда, и какие выпали из индекса и по какой причине.

Но вот на какой странице она окажется – зависит от степени индексации и качества ее содержания. Если на вашей странице дается самый точный ответ на запрос – она будет выше всех остальных.

 

Принципы ранжирования сайтов в поисковых системах

По какому принципу работают поисковые роботы, мы разобрались. Но вот каким образом проходит ранжирование сайтов?

Ранжирование базируется на двух основных «китах» — текстовое содержание страницы и нетекстовые факторы.

Текстовое содержание – это контект страницы. Чем он полнее, чем точнее, чем релевантнее запросу – тем выше будет страница в результатах выдачи. Кроме самого текста, поисковая система обращает внимание на заполнение тегов title (заголовок страницы), description (описание страницы), h2 (заголовок текста).

Нетекстовые факторы – это внутренняя перелинковка и внешние ссылки. Суть в чем: если сайт интересен, полезен, значит, на него ссылаются другие тематические ресурсы. И чем больше таких ссылок – тем авторитетнее ресурс.

Но это – самые основные принципы, очень кратко. Вникнем чуть глубже.

 

Основные факторы ранжирования сайта

Есть целый ряд факторов, влияющих на ранжирование сайта. Основные из них – это:

1. Внутренние факторы ранжирования сайта

Это текст на сайте и его оформление – подзаголовки, выделение важных моментов в тексте. Использование внутренней перелинковки тоже сюда относится. Также важны визуальные элементы: использование картинок, фотографий, видео, графиков. Немаловажно также качество самого текста, его содержание.

2. Внешние факторы ранжирования сайта, которые определяют его популярность. Это те самые внешние ссылки, которые ведут на ваш сайт с других ресурсов. Определяется не только количество этих сайтов, но их качество (желательно, чтобы сайты были схожей тематики с вашим), а также общее качество ссылочного профиля (насколько быстро появились эти ссылки, естественным путем или с помощью закупки на бирже).

3. Поведенческие факторы ранжирования сайта. Поисковые системы начали отслеживать поведение пользователей на сайте и на основе этого поведения понимать, интересен ли ваш сайт людям, полезен ли он, нравится ли посетителям. Обращают внимание на: показатель отказов (чем он ниже – тем лучше), глубину просмотра, время на сайте. Подробнее об этом здесь https://adtimes.ru/povedencheskie-faktory-ranzhirovaniya-sajta-chto-eto-takoe-i-kak-ix-uluchshit/

4. Коммерческие факторы ранжирования сайта. Они важны в первую очередь для тех, кто ставит на продвижение в Яндексе. Коммерческие факторы определяют, насколько удобен ваш сайт для осуществления заказа или совершения покупки Подробнее можете прочесть здесь https://adtimes.ru/kommercheskie-faktory-ranzhirovaniya-i-chto-k-nim-otnositsya/

Исходя из всего вышесказанного, можно сделать один вывод: поисковые системы стараются работать так, чтобы показывать пользователю те сайты, которые дают максимально полный ответ на его запрос и уже заслужили определенный авторитет. При этом учитываются самые разные факторы: и содержание сайта, и его настройка, и отношение пользователей к нему. Хороший во всех отношениях сайт непременно займет высокое место на выдаче.

Поисковые системы

Содержание статьи:

Что такое поисковые системы и как они работают

Поисковая система – это программно-аппаратный комплекс, который предназначен для осуществления поиска в сети Интернет. Он помогает пользователям быстро найти необходимые сведения, реагируя на запрос пользователя выдачей списка ссылок на источники информации. Достаточно набрать в строке поиска интересующий вопрос или фразу, нажать на кнопку «Поиск» или «Search», и через несколько секунд поисковая система выдаст необходимую информацию.

Поисковые системы классифицируют по способу работы и по области использования. По данным LiveInternet.ru, в 2012 году 53,8% российских пользователей предпочитали Яндекс, 34,2% – Google 9,4% – Поиск Mail. ru и 1,2% – Rambler . 

Каждая поисковая система имеет собственный алгоритм поиска, который определенным образом анализирует релевантность сайтов, чтобы выдать результат, наиболее соответствующий запросу пользователя.

Типы поисковых систем по способу работы

Индексные поисковые системы собирают информацию в Интернете автоматически, с помощью специальных программ-роботов, посещающих веб-страницы. Они осуществляют всесторонний поиск по ключевым словам. Примерами таких поисковых систем являются Google, AltaVista, HotBot, Яндекс.

Индексная поисковая система состоит из трех основных компонентов:

Агент (паук или кроулер)

Агент – это специальная программа, которая запускается на сервере поисковой системы с целью посещения веб-страниц. Когда агент находит новую страницу, удовлетворяющую алгоритму поисковой системы, он индексирует ее, то есть добавляет в базу данных поисковой системы. Посещать страницы агенту помогает система гиперссылок, благодаря которой программа может бесконечно переходить с одной страницы на другую.

База данных поисковой системы

В ней хранятся все найденные и обработанные документы (индексы). Индекс позволяет быстро совершать поиск и обычно состоит из списка ключевых слов и информации о них (позиции в тексте, веса и др.). База регулярно обновляется, и именно из последнего ее обновления выдаются результаты для поставленного запроса. Частота обновления базы данных – критически важный параметр любой поисковой системы. Чем чаще происходит ее обновление, тем качественнее поисковая система.

Поисковый механизм

Поисковый механизм – интерфейс для взаимодействия пользователя и базы данных, то есть та самая программа, с которой мы непосредственно имеем дело.

Индексные поисковые системы работают по одному общему принципу. Сначала агент начинает сканирование сети с определенного адреса. На сервере создаются индексированные копии документов, своего рода вспомогательные файлы. Затем сохраненные документы просматриваются, определяются гиперссылки с этих страниц, по ним осуществляется переход на новые страницы. После сохранения копий найденных документов весь процесс повторяется. Все веб-страницы, проиндексированные поисковой системой, попадают в базу данных, что позволяет пользователю, формирующему запрос на поиск необходимой информации, мгновенно получить ссылки на нее.

Каталоговые системы поиска содержат тематически структурированный каталог серверов и чаще всего пополняются вручную модераторами. Эти системы устроены так же, как тематический каталог обычной библиотеки. Ссылки в них хранятся по теме категорий. Начав с основной страницы каталога, нужно выбрать ссылку, обозначающую главную категорию, а затем на последующих страницах указывать подкатегории до тех пор, пока не будут достигнуты ссылки на конкретные страницы. Каталог обычно имеет тематическую разбивку на подкаталоги, те в свою очередь могут подразделяться на более мелкие поддиректории и т. д. Ярким примером каталога является система Yahoo.

Индексные поисковые системы и поисковые каталоги отличаются так же, как содержание и алфавитный указатель в книге. Задача и содержания, и алфавитного указателя – помочь найти в книге нужный раздел. Содержание – это пример каталогизации. Алфавитный указатель – пример индексации. Читатель находит в указателе нужный термин и получает номер страницы, на которой он встречается.

Метапоисковые системы –это системы, которые используют для поиска базы данных других поисковых систем. Они посылают запрос одновременно на несколько поисковых систем, каталогов и иногда в так называемую невидимую (скрытую) паутину – хранилище онлайн-информации, не считанной традиционными поисковыми системами. Собрав результаты, метапоисковая система удаляет дублированные ссылки и в соответствии со своим алгоритмом объединяет результаты в общем списке. Примером такой системы может служить российское решение Nigma , использующее для поиска Google , Yahoo , Апорт и Яндекс. Специализированные поисковые системы, в отличие от поисковых систем общего назначения, которые ищут любую интересующую информацию, ищут информацию определенного вида, например, изображения, книги, организации, людей, то есть работают в какой-то конкретной области. Примерами таких систем могут служить moresoft.ru для поиска программ и файлов, bukinist.agava.ru для поиска книг и других электронных текстов, kinopoisk . ru для поиска информации о фильмах, Яндекс.Маркет для поиска описаний и цен товаров, представленных в Интернет-магазинах, drivers.ru для поиска драйверов, wink.com для поиска людей.

Типы поисковых систем по области поиска

По области поиска поисковые системы можно разделить на глобальные и локальные

Глобальные предназначены для поиска информации по всей сети Интернет либо по значительной ее части, а локальные – по какой-либо части Сети, например, по одному или нескольким сайтам, либо по локальной сети. Часто локальные поисковые системы собирают информацию в пределах одного национального домена, как, например, yandex.ru .

Также существуют локальные поисковые машины, которые можно установить себе на компьютер, например Copernic Desktop Search для Microsoft Windows, Spotlight для  Mac OS X, Tracker для Linux . Они значительно облегчают жизнь тех пользователей, которые хранят огромные архивы нерассортированных файлов.

Советы по эффективному поиску информации

Алгоритм создания эффективного запроса выглядит следующим образом:

  • Сформулируйте задачу поиска. Для получения необходимой информации, в первую очередь, нужно понять, на какой именно вопрос вы ищете ответ.
  • Ограничьте область поиска. Выдача результатов может различаться в зависимости от региона, поэтому нужно добавить в запрос тот город, регион или страну, результаты по которым вас интересуют.
  • Подберите ключевые слова, то есть слова и фразы, относящиеся к теме поиска. Ключевые слова делят на высоко-, средне- и низкочастотные, это зависит от частоты запроса и определяется на основе статистики поисковой системы.
  • Сформируйте запрос. Важные слова поместите в начало запроса, для более эффективного поиска используйте язык запросов.

Язык запросов

Поисковые системы – это разумный инструмент, использующий язык запросов, то есть определенные команды и символы в строке поиска, которые помогают быстрее найти нужную информацию.

Основные возможности языка запросов поисковой системы Google и Yandex

Если вам необходимо найти слово или фразу в точно таком виде, как вы вводите, без всяких изменений форм и порядка слов, то заключите свой поисковый запрос в кавычки. Это часто бывает удобно для поиска фильма по его названию, текста песни по строчке или отрывка из книги.

Если вам необходимо исключить из результатов поиска в Google все страницы, содержащие определенное слово, то поставьте перед этим словом в запросе знак минус (). Например, если ввести в строку поиска «вирус –компьютерный», то система выдаст документы, в которых не встречается ключевое слово «компьютерный». В Яндексе же подобная операция производится с помощью символа тильда (~), поставленного в запросе перед словом, которое нужно исключить из поиска.

Оператор site: в Google позволяет осуществлять поиск на конкретном сайте. Например, если набрать в строке поиска Google «поступление site:www.msu.ru», то система будет искать информацию о поступлении именно на сайте МГУ. В Яндексе подобная операция осуществляется с помощью оператора host:

Символом звездочка (*) можно заменять в запросе неизвестные слова. Например, «буря * небо кроет».

Оператор define: в Google позволяет искать определения слова, указанного в запросе.

В обычном режиме Google старается найти страницы, содержащие все указанные слова. Если же вставить между словами оператор OR (заглавными буквами), то система покажет страницы, включающие в себя как минимум одно из этих слов. Например,купить квартиру в Москве OR Подмосковье. В Яндексе же подобная операция производится с помощью символа прямой слэш (|), поставленного между словами запроса, например;билеты Лондон | Париж;.

Чтобы получить в выдаче Google диапазон чисел «от и до», нужно между ними поставить две точки, например, «снять квартиру $1000..$1500».

Язык запросов поддерживают многие поисковые системы. Перед их использованием рекомендуется посмотреть описание в разделе помощи сайта конкретной поисковой системы, которую планируется использовать.

Особенности работы с поисковыми системами

Использование поисковых систем может стать причиной проникновения на компьютер пользователя вредоносной программы. Выдавая результаты по запросам пользователей, поисковые системы могут выдавать адреса зараженных сайтов.

Также нужно иметь в виду, что поисковые системы выдают лишь ссылки на релевантные сайты, но не отвечают за достоверность информации, которая на этих сайтах содержится. Задача поисковых систем – максимально быстро и точно ответить на запрос, поэтому не стоит безоговорочно доверять всей информации, которая находится по выдаваемым ссылкам. Сайты, полученные при поиске, могут содержать некорректную или откровенно ложную информацию, которая может ввести в заблуждение пользователя, ведь далеко не все источники, скорее меньшая их часть, пишутся и проверяются действительно компетентными людьми. Например, информацию на таком популярном ресурсе как Википедия размещают все желающие, следствием чего является высокий процент ошибок в статьях. Рекомендуется крайне осторожно выбирать источники для школьных, студенческих и научных работ, да и вообще перепроверять любую информацию, особенно из совершенно незнакомой области.

Рекомендации по безопасному использованию поисковых систем

  • Старайтесь внимательно относиться к сайтам, выдаваемым поисковой системой, поскольку они могут содержать вирусы. Соблюдайте меры предосторожности: не стоить заходить на сомнительные сайты, особенно если антивирус предупреждает о нежелательности такого действия.
  • Обязательно используйте и регулярно обновляйте антивирусные средства защиты – программы, позволяющие обнаруживать и удалять вредоносные программы, восстанавливать зараженные файлы, а также предотвращать проникновение вирусов на устройство.
  • Проверяйте достоверность информации, полученной из Интернета. Самый простой способ – сравнить хотя бы несколько источников, которые не дублируют друг друга.
  • Время от времени проверяйте, какую информацию выдают поисковые системы, когда вы пытаетесь найти в них сведения о себе. Это поможет вам узнать, нет ли в Сети ваших личных данных, которые вы предпочли бы не делать общеизвестными, и в случае необходимости вовремя подать жалобу руководству соответствующих сайтов.

Отправить ответ

avatar
  Подписаться  
Уведомление о