27.11.2024 - Поисковые системы в Сети: новые технологииПоисковые механизмы продолжают эволюционировать, становятся все более изощренными и усложненными, в то же время упрощаются их пользовательские интерфейсы, и размеры накопленных баз данных экспоненциально увеличиваются. Впрочем, постоянное развитие в этой области и неудивительно спрос на поиск нужной информации в Сети будет только расти, причем с каждым годом как пользователей, так и данных будет становиться все больше.
Поисковая индустрия также выглядит лакомым кусочком пирога для многочисленных стартапов, которые не прочь попробовать себя в этой области. Лидером здесь можно стать если не за считанные сутки, то за несколько месяцев, о чем свидетельствует история успеха Google. Два года назад о компании знали только энтузиасты, и еще недавно ссылались на данный поисковик как на "разработку студентов Стэнфордского университета", отмечая, что Google "имеет реальные шансы стать одной из самых авторитетных служб в своем классе".
Сегодня за место лидера рынка постоянно соревнуются две компании американская Google и норвежская FAST, и поэтому неудивительно, что в данном материале речь в основном пойдет именно о нововведениях этих фирм.
Файловые форматы
Признавая тот факт, что Internet постоянно пополняется большим количеством информации, которая не всегда выкладывается в формате HTML, Google сообщил о поддержке файловых форматов Microsoft Office. Таким образом, сегодня команда "Поиск" в Google, кроме HTML-документов, выдаст файлы форматов PostScript, Rich text Format, Lotus1-2-3, Lotus WordPro, MacWrite, Microsoft Word, Microsoft Excel и MicrosoftPowerPoint. До этого поисковик также успешно находил и PDF-документы.
Поддержка новых форматов вызвала немало проблем и даже курьезов. Сисадмины и специалисты по компьютерной безопасности наверняка не обрадуются поддержке форматов Microsoft Office. Теперь, щелкнув по ссылке, которая ведет на документ Word, пользователь имеет все шансы запустить у себя на машине макрос, и нет никакой гарантии, что он не причинит вреда. Именно для таких случаев Google предоставляет возможность ознакомления с HTML-версией документа, однако поддержка новых форматов влечет за собой новые проблемы для домашних пользователей теперь компьютерные вирусы можно будет получать прямо из поисковика.
Для более грамотных пользователей новые файловые форматы, несомненно, представляют ценность, так как в слайдах PowerPoint в Internet часто выкладывается учебная и деловая информация, а Excel является общепринятым способом распространения прайс-листов.
Специализация поиска
Норвежские разработчики также предпочли не просто наблюдать за рынком, а развивать специализированные услуги своего поисковика.
FAST запустила поиск новостей, являющийся, как утверждают разработчики, обладателем "желтой майки лидера", если вести речь о скорости. Ежедневно FAST News Search обрабатывает около 3 тыс. ресурсов, которые обновляются в режиме реального времени, как и положено новостийно-информационным изданиям. "Паук" от FAST индексирует около 800 статей каждую минуту.
В данном направлении ведут разработки и отечественные компании. Как сообщил нашему изданию Алексей Чуксин, директор по маркетингу компании"МЕТА", в рамках украинского поисковика создан "динамический индекс", который позволяет вносить обновленные страницы в базу данных"на лету", не замедляя таким образом скорость работы поиска.
Потенциально данная технология может быть использована для организации поиска новостей и обновлений, а также в качестве внутреннего поисковика для крупных сайтов. Разработчики "META" сегодня переводят на динамический поиск сайты своих клиентов, среди которых финансовый сервер Finance.com.ua, банковский Ukrsibbank.com и портал Volia.com.
FAST также предложила весьма интересную концепцию кластеризации результатов поиска. За основу технологии FAST Topics взят открытый каталог Dmoz.org, на его базе сделаны тематические подборки сайтов, которые затем объединяются в кластеры с общей тематикой. Введите "ukraine" в поисковике FAST, и всписке папок будет представлено девять категорий для возможного сужения поиска.
Релевантность
Даже самые громогласные тирады о всемогуществе современных поисковиков зачастую прекращаются, когда их создатели говорят о релевантности. Алгоритмы определения релевантности для ранжирования документов постоянно находятся в стадии разработки. Спаммеры поисковиков, с одной стороны, и добросовестные маркетологи сайтов, с другой, ведут борьбу за право оказаться в списке первых на странице с результатами поиска.
С ноября 2001 г. "МЕТА" для определения релевантности украинских сайтов начала использовать алгоритмы PageRank, где место в списке результатов зависит и от количества ссылок на документ. Google, которая возникла фактически благодаря технологии PageRank, на этот раз решила еще более усложнить путь для недобросовестных "раскрутчиков".
Разработчики Google тестируют технологию, которая позволит пользователям самостоятельно определять релевантность сайта, таким образом голосуя за более информативные ресурсы и исключая из списка результатов поиска сайты, не имеющие никакого отношения к запросу. Теоретически это может даже развязать руки спаммерам, голосующим за свой сайт с различных компьютеров, однако Google рассчитывает на то, что многомиллионная аудитория, ежедневно пользующаяся поисковиком, в целом будет рационально относиться к "избираемым" сайтам.
Быстрее, выше, сильнее?
Как оказалось, олимпийские лозунги не всегда обеспечивают позитивное отношение к поисковикам со стороны пользователей. По мере расширения своей базы данных и увеличения кэша на жестких дисках компании Google пришлось столкнуться с противодействием со стороны Web-мастеров. Google индексирует документы, не предназначенные для публичного использования, Google сохраняет на своем жестком диске копии документов, которые по каким-то причинам должны быть уничтожены, Google ставит под удар платные сайты, требующие денежной мзды за доступ к архивам с более старыми статьями.
На все эти обвинения компания реагирует весьма корректно. Что касается индексирования документов, которые выкладываются на серверы, однако не предназначены для посторонних глаз, представители Google утверждают, что их робот никогда не проиндексирует информацию, доступ к которой запрещен. Не будучи взломщиком, робот, тем не менее, индексирует все, что находит, и тот факт, что конфиденциальные документы попали в око "паука",свидетельствует о том, что неправильно был оформлен файл robots.txt или же администратор не принял должные меры защиты.
Для желающих уничтожить копии своих файлов на дисках Google (а туда, напомним, сейчас попадают и документы PDF, и Microsoft Word), Google представляет такую возможность на сайте для Web-мастеров.
Что касается расширения баз данных поисковиков, то здесь решили не останавливаться на достигнутом и разработчики "МЕТА" робот, по словам Алексея Чуксина, теперь поддерживает настройку полей для поиска структурированной информации (а проще говоря, может получить доступ и проиндексировать базу данных).
С миру по нитке
Что еще произошло в мире поиска за последнее время? Портал Yahoo! согласился сотрудничать с платным поиском Overture (ранее известным как Goto.com), и таким образом на Yahoo! теперь будут появляться платные ссылки, которые будут четко обозначены как коммерческие результаты. Overture, готовясь выйти на прибыль уже в ближайшее время, сумела доказать большинству пользователей, что продажа ссылок за деньги не есть что-то неприличное, а наоборот весьма прибыльный бизнес при условии, что посетитель четко осознает ангажированность результатов.
FAST внедрила свои поисковые технологии в Lycos. Две компании издавна являются партнерами, однако долгое время поиск в Lycos занимал последние места по части объема базы данных и релевантности ссылок. Новая версия поискового ядра от FAST способствует укреплению имиджа Lycos как поисковой машины для Web. На обновленное ядро перешла и российская версия портала, расположенная по адресу www.lycos.ru. Как сообщил"Компьютерному Обозрению" генеральный продюсер российской Lycos Андрей Себрант, основной задачей для разработчиков компании в ближайшее время станет ускорение индексации русскоязычных новостей и интеграция данного сервиса в Lycos.ru. Также одной из ключевых задач сегодняшнего дня является наращивание мультимедийной базы для поисковой машины.
Немного странно не видеть в данном обзоре Inktomi, которая обычно шествовала в колонне лидеров данного рынка. Компания в последнее время направляет свои усилия на корпоративный сектор, хотя игнорировать такого крупного игрока на рынке Internet-услуг пока что нельзя вряд ли Inktomi согласится стать побежденной в гонке лидеров, и вполне возможно, что скоро FAST и Google получат в ее лице достойного конкурента. Опубликовано на сайте: http://www.coders-library.ru Прямая ссылка: http://www.coders-library.ru/index.php?name=news&op=view&id=98
|
|