Google подсаживает нас на «кофеин»

Спустя целый год тестирования и вылизывания кода, компания Google наконец-то выкатила обновленную систему индексирования сайтов Caffeine. Архитектура нового поколения для веб-поиска, по словам Кэрри Грима, обеспечит значительно меньшую задержку между моментом публикации страницы и временем попадания ее в поиск Google. Все изменения произошли под капотом поисковика, никак не отразившись на интерфейсе, а потому большинство пользователей не почувствуют особой разницы между старой и новой системой, она важна прежде всего для владельцев сайтов и в определенной степени представляет интерес для веб-мастеров, хотя на деле Caffeine дает значительное улучшение качества результатов поиска.

google caffeine

Кэрри Грим, ведущий инженер-программист в Google, пишет: «Сегодня мы завершили обновление системы индексации веб, которая называется Caffeine. Caffeine обеспечивает на 50 % «свежее» результаты веб-поиска, по сравнению с прошлогодним показателем, и это самая большая коллекция веб-контента, когда-либо предложенная нами. Будь то новость, блог или комментарий на форуме, теперь вы сможете найти ссылки на искомые документы гораздо раньше, с момента его публикации на сайте, чем было возможно когда-либо ранее».

По сути, изменился сам принцип индексации сайтов. Прежде содержимое веб-сайтов было разделено на группы или слои, каждому из которых была присвоена определенная «приоритетность» при индексации. Большинство веб-сайтов попадало в «основную» часть слоя, индексация которого проводилась примерно раз в две недели. То есть от момента публикации нового контента до его попадания в поиск Google проходило довольно значительное время. Происходило это из-за того, что система работала в определенной последовательности: в первую очередь поисковые роботы сканировали все страницы слоя, а затем обрабатывали полученную информацию и только после этого делали их доступными для поиска. Таким образом, даже если страница уже была проанализирована, ей приходилось ожидать своей очереди.

В отличие от старой системы, движок Caffeine проводит веб-анализ небольшими порциями, поэтому индекс обновляется постоянно, а значит, веб-страницы станут доступны для поиска в два раза быстрее, чем ранее. Теперь в базе данных обновленного движка содержится около 100 млн. гигабайт данных, при этом каждые сутки объем информации растет на несколько сотен тысяч гигабайт. Грим пишет: «Вам бы понадобились 625 000 iPod-ов, оснащенных наибольшим объемом памяти, чтобы хранить такое количество информации».

К сожалению, никаких технических подробностей по поводу нового движка "гугляне" давать не захотели. Возросшие скорость, точность и полнота поиска – это отличные показатели, однако хотелось бы больше конкретики, например, используется ли недавно разработанная новая файловая система GFS2 (Google File System 2), над которой инженеры компании трудились в течение двух лет, введена ли система распределённых вычислений MapReduce и база данных BigTable, принят ли протокол мгновенной индексации PubSubHubbub (PuSH).

Пока расплывчатые формулировки типа «самая большая коллекция веб-страниц» или «самая свежая информация по теме» не дают заинтересованным веб-мастерам исчерпывающего ответа на вопросы о том, как будет формироваться рейтинг сайтов, насколько равномерно будет распределяться обновление по каждому виду контента, следует ли разработчикам вносить изменения в веб-коды, как подобные изменения повлияют на мелкие проекты, на которых информация не обновляется ежечасно и многое другое.

Складывается стойкое ощущение, что в Google просто панически боятся удачного взлета Microsoft Bing, а потому пытаются представить Caffeine как нечто экстраординарное и революционное. Возможно, так оно и есть, только вот – доверяй, но проверяй, не так ли?

Обсуждение