Исходник показывающий пример работы с Canvas, давольно простое решение проблеммы, при небольшой доработки можно создать интересную небольшую игру, с уровнями сложностями, и разными видами врага. Суть программы заключаеться в следующем: на форме появляеться изображение при клики на которое защитываеться попадание.
На сегодняшний день музыкальные магазины online, наподобие Musikload[1], становятся все более распространенными и пользуются бешенной популярностью. В этой статье мы расскажем как можно читать мета-информацию mp3-файла средствами PHP, что поможет вам в создании каталога музыки. Это очень просто, поддержка базы данных не нужна.
Откуда знает MP3-Player, например Winamp информацию об исполнителе или названии композиции, которую он проигрывает? Может быть, он сам каким-то чудным образом узнает название песни и альбома? Нет, здесь нет никакого волшебства! Подобная информация содержится в самих файлах. Музыкальные файлы других форматов таких как WMA или Ogg Vorbis также содержат подобную информацию, но здесь речь пойдет о файлах в формате mp3.
Спецификация mp3 определяет способ хранения музыкальных данных, однако не предусматривает никакой возможности для сохранения метаданных композиции, таких как название и исполнитель. Чтобы обойти это ограничение был разработан стандарт ID3. Согласно этой спецификации, метаданные должны быть помещены в так называемые ID3-теги, которые независимо от используемого стандарта ID3, помещаются в конец или начало файла. ID3-теги версии 1 (ID3v1-Tags) представляют собой простейшую конструкцию, которая дописывается в конец файла. Ее объем не должен превышать 128 байт. Структура тега такова: после строкового значения “TAG» следует информация о названии (30 символов), исполнителе (30 символов), альбоме (30 символов), годе записи (четырехзначное число), комментарий (30 символов), жанр (1 байт). Тег с подобной структурой обозначается как ID3v1.0-Tag. В дополнение к этому существует еще стандарт ID3v1.1-Tag, который встречается значительно чаще, поскольку позволяет сохранять информацию о порядковом номере композиции в альбоме. Вследствие этого был урезан до 28 символов размер комментария. Сразу после комментария следует нуль-байт, а последующий байт содержит информации о номере трэка. На иллюстрации один и два видна структура обоих стандартов.
PEAR придет на помощь!
Для считывания информации из ID3v1 тегов, в библиотеку PEAR уже был включен пакет MP3_Id[3], который поможет Вам без проблем извлекать информацию из тега, или наоборот записывать. Если в файл отсутствует ID3-тег, вы можете его создать. Листинг 1 показывает как можно считывать информацию из тегов. Создается объект класса MP3_ID, считывается файл, а затем метод getTag() извлекает данные, которые помещаются для дальнейшей обработки в отдельные поля объект. Листинг 2 показывает результат действия программы листинга 1. Общий обзор доступных полей вы найдете в документации по пакету на домашней странице PEAR.
Листинг 1:
Листинг 2:
Листинг 3 показывает как просто можно изменять содержимое ID3-тегов и создавать их. Сначала, как это было показано в Листинге 1, создаем объект класса MP3_ID, считываем файл, а с помощью метода setTag($fieldname, $value) помещаем в тег нужную информацию. Хотите удалить все теги? Тогда посмотрите на листинг 4, где показано как можно сделать это. Для удаления тегов используется метод remove(), а остальное вы уже знаете. Необходимо дополнить, что MP3_Id обладает другими полезными функциями, которые вам позволят перенести содержимое тега из одного файла в другой или сформировать массив, содержащий все музыкальные направления. Для получения дополнительной информации смотрите документацию.
Listing 3:
Listing 4:
Используем PECL
В конце лета 2004 года появилось расширение PHP ext/id3[7]. Разрабатывается в рамках PECL[6]. В отличие от MP3_ID эта библиотека написана не на PHP, а на C, поэтому она должно работать несколько быстрее. Однако библиотека не входит в стандартный комплект PHP-исходников, к тому же на сегодняшний день отсутствует стабильная версия, хотя функции отвечающие за чтение и запись ID3-тегов считаются стабильными.
Если вы хотите использовать именно это расширение, для установки необходимо воспользоваться либо PEAR-installer, либо откомпилировать php, включив поддержку данного расширения. Если вы используете WINDOWS, существует возможность скачать уже откомпилированную DLL для версии php 5.0 или 5.01 с сайта PHP-Snapshot[9], поместить ее в каталог с расширениями php (например c:phpext), подключить через php.ini. Чтобы воспользоваться расширением, вы должны иметь PHP 4.3 или более позднюю версию, поскольку библиотека использует Streams-API.
Само собой разумеется, библиотека позволяет изменять содержимое ID3-тегов. Для этого вам не нужно ничего, кроме массива, представленного в листинге 6, и функции id3_set_tag(). В качестве первого параметра функция принимает имя изменяемого mp-3 файла, а в качестве второго - массив с необходимыми данными. Третий параметр необязателен и представляет собой константу, указывающую версию ID3-тега. В существующей версии библиотеки функция id3_set_tag() может работать только с тегами версии 1.0 или 1.1. Листинг 7 содержит необходимый php-код. В дополнение к этому, листинг 8 показывает как с помощью функции id3_remove_tag можно удалить существующий ID3-тег.
Ext/id3 содержит еще несколько полезных функций, которые позволяют определить версию ID3-тега (id3_get_version) или манипулируют со списком музыкальных направлений и их id, представленных в виде целого числа типа integer. Надо сказать, что данное число мало подходит для указания музыкального направления.
Listing 5:
Listing 6:
Listing 7:
Следующее поколение
Несмотря на то, что с помощь ID3v1-тегов уже можно сохранять важнейшую информацию о содержимом mp3-файла, уже проявляются ограничения версий 1.0 и 1.1:
из-за фиксированного размера тега ограничен объем сохраняемой информации
ограничено количество сохраняемых атрибутов
Как мы видим, расширить объем пространства, отведенный под ID3v1 теги нельзя, Существую трудности с сохранением информации о названии композиции, исполнителе, альбоме, комментарии, если размер данных превышает 30 символов. Допустим, вам нужно указать название The Hitchhiker's Guide to the Galaxy, используя стандарт ID3v1, вы можете сохранить лишь The Hitchhiker's Guide to. Та же ситуации наблюдается с указанием музыкального направления. Для этого выделяется только один байт, вследствие этого количество музыкальных направлений не может превышать 256. Наверное, сегодня этого достаточно, но кто знает, сколько в будущем появится еще музыкальных направлений.
Чтобы преодолеть указанные ограничения был введены ID3-теги версии 2[2], или короче ID3v2. ID3v2-теги записываются в начало файла, собственно перед самими аудио данными. Информация организована в отдельные единицы, которые обозначаются как фреймы. ID3v2 - это формат-контейнер, то есть, существует возможность при изменении тега вводить новые фреймы. Из этого следует, что ID3v2 может содержать значительно больше информации, чем ID3v1. Это может быть информация об авторских правах, битрейте, (BMP) или, наконец, полный текст песни или изображения. В дополнение к этому можно по желанию добавлять новые фреймы. Вот важнейшие достоинства данного формата:
Никаких ограничений на объем сохраняемой информации
Гибкость и расширяемость
Возможность сжатия содержимого тегов
Поддержка Unicode
Возможность хранить бинарные данные, например изображения и файлы.
Из-за расширенных возможностей ID3v2-теги, несколько труднее поддаются считыванию, чем ID3v1-теги. Хорошая новость состоит в том, что ext/id3 уже позволяет извлекать важнейшую информацию. Если вы исполните код, помещенный в листинг 9, вы получите тот же результат, что и в листинге 10. Проделав это, вы сможете убедиться, что объем выводимых данных значительно шире, чем тот, что показан в листингах 5 и 6.
Каждый фрейм ID3v2-тега обладает уникальным ID. Ext/id3 содержит две функции, которые позволяют узнать содержимое фрейма. Это id3_get_frame_short() и id3_get_frame_long_name(). В качестве параметра они принимают id фрейма и возвращают его описание.
В будущих версиях ext/id3 будет содержать другие полезные функции, которые позволят считывать или записывать фреймы, соответствующие спецификации ID3.
Листинг 8:
Listing 9:
Дополнительная информация
Прежде чем вы организуете бизнес, связанный с продажей музыкальных композиций online, мы вам расскажем еще о нескольких полезных возможностях библиотеки MP3_Id. С помощью нее можно не только считывать информацию ID3- тегов, она позволяет получить некоторую интересную информацию о самом mp3-файле. Речь идет о битрейте, длительности звучания и других полезных свойствах. Подобные сведения можно получить при помощи метода study(), а дальше посредством метода getTag(), можно выбирать необходимые данные. Листинг 12 показывает как это работает. Результат работы программы показан в листинге 13. К сожалению, эти возможности недостаточно документированы, т.е. трудно разобраться какой атрибут можно считать при помощи getTag() или изменить посредство setTag(). В этом случае необходимо изучить код модуля MP3/Id.php.
Listing 10:
Listing 11:
Listing 12:
Listing 13:
Выводы
В этой статье мы рассмотрели существующие возможности извлечения информации из mp-3 файлов средствами PHP. Обе библиотеки (MP3_Id и id3) легки в использовании и содержать необходимые функции. Одна библиотека написана на PHP, другая на C. Выбор того или иного варианта определяется вашими предпочтениями и возможностями хостинга.
Авторы
Карстен Луке изучает информатику в высшей школе Бранденбурга. Совместно со Стефаном Шмидтом разработывает расширение id3. Вы можете связаться с ним по e-mail ( luckec@php.net ) или посетить его сайт ( www.tool-gerade.de ) Стефан Шмидт - разработчик веб-приложений фирмы 1&1 Internet AG, активно учавствует в развити PEAR и PECL. Вы можете связаться с ним по e-mail ( schst@php.net )
Среди читателей, я уверен, есть такие, кто в PHP совсем не разбирается, кто только начал изучать, и такие, кто полагает, что он давно со всем разобрался и ничего нового узнать о PHP не сможет. Последние явно заблуждаются: всегда можно найти интересную задачу, которая вытащит на свет множество интересных и ранее не изученных (или плохо изученных) моментов. И тогда рытье в документации и эксперименты обеспечены.
Когда мы посещаем сайты, часто ли задумывается мы, как серверная программа помнит такие вещи, как введенный логин, какие сообщения мы еще не читали, какие товары мы положили в "корзину покупателя" и т.п.? Посетителю сайта нет необходимости знать это, а web-программисту эти знания лишними не будут.
Работает этот механизм просто, но в то же время довольно сложно.
Серверная программа запоминает переданные пользователем данные в сессии (сеансе) и достает их оттуда при следующем обращении на сервер. Но пользователей, работающих с одним сайтом, может быть несколько и для того, чтобы понять, где чья сессия, нужен какой-либо механизм идентификации. Так как же точно идентифицировать данную сессию?
Первое, что приходит на ум - использовать для этого IP-адрес компьютера пользователя. Вполне возможно, что на заре web-программирования так и делали, но с одного IP-адреса могут посылать запросы несколько пользователей. Например, если они работают через один proxy-сервер, или находятся в одной локальной сети и выходят в Интернет через NAT-шлюз, назначающий им один и тот же внешний IP-адрес. Да и за время посещения сайта адрес пользователя может поменяться (например, при восстановлении прерванного модемного соединения). Т.е., механизм этот не надежен.
Выход только один - пользователь должен сам передавать свой идентификатор, сообщенный ему сервером.
Идентификатор сессии можно передавать в строке параметров URL. Многие сайты так и делают (обычно это используется как дублирующий механизм). Но у этого метода есть большой недостаток. Если вам захочется, к примеру, послать такую ссылку другу, и он зайдет по ней на сайт, то он может внедрится в вашу сессию. Выходит, этот механизм тоже не без изъяна.
Для решения этой задачи компанией Netscape была придумана и внедрена в созданный ею браузер возможность запоминать специальные данные, переданные сервером, на компьютере пользователя. При следующем обращении на сервер браузер отсылает эти данные назад, и серверная программа идентифицирует по ним пользователя. Назвали они этот механизм Куки (cookie - печение). Позже Miscosoft реализовала Куки в InternetExpoler. Сегодня Куки поддерживаются всеми современными браузерами.
Этот механизм тоже имеет недостатки: пользователь может запретить своему браузеру работать с Куки или неправильно настроенный proxy-сервер может их удалять из запроса. Но, если не заниматься такой, извиняюсь, ерундой, механизм Куки выглядит более надежным и безопасным, чем идентификация по IP и параметрам URL.
Работу сессии PHP можно продемонстрировать на таком примере:
В данной статье я бы хотел рассмотреть и сравнить между собой несколько способов раскрутки сайтов. Некоторые способы уже известны многим как быстрый путь к увеличению посещаемости сайта. Посмотрим так ли это на самом деле.
Достижение высоких позиций невозможно только редактируя meta-теги.
В свое время я прочел очень интересную книгу Стефана Ковея "7 привычек успешного человека". Мне в этой книге особенно понравился раздел "Персональная этика". В нем автор упоминает о том, как некоторые люди изо всех сил пытаются найти "быстрый и простой способ достичь успеха в жизни не работая и не совершенствуя свои профессиональные навыки".
Далее автор подводит итог: "Персональная этика - вещь иллюзорная и обманчивая. Вот поэтому пытаться достичь каких-либо значимых целей так просто и быстро так же утопично, как найти Эйфелеву башню на карте Мадрида".
Я думаю, что сказанное выше можно смело применить и к поисковой оптимизации: простых путей нет. Вот поэтому я считаю мифом, что раскрутить сайт можно только путем редактирования meta-тегов.
Почему meta-теги бессильны?
Все дело в том, что толком неизвестно насколько важными являются meta-теги для релевантности сайта. Да и вообще используют ли информацию из них поисковые машины.
Иначе обстоит дело с поиском внутри самого сайта. Вот здесь информация из meta-тегов как раз и помогает найти пользователю страничку на сайте с необходимой информацией. Или, по крайней мере, сузить количество возможных страниц до минимума.
К сожалению, разница между внутренним поиском и поиском с помощью поисковой машины (напр. той же Google) очень велика. Например, с помощью внутреннего поиска можно без проблем найти минимальное количество страничек, которые будут максимально соответствовать поисковому запросу. К тому же содержание сайта (контент) и meta-теги только помогут пользователю добраться до нужной ему информации.
С другой стороны, все главные поисковые машины интернета имеют свои базы данных, которые содержат информацию о всех интернет страничках, о которых они только знают. Они-то не всегда доверяют информации из meta-тегов, так как она запросто может отличаться от истинного содержания сайта. К примеру, вы как владелец сайта, желаете видеть свой сайт на верху результатов поиска по многим ключевым словам (фразам), но поисковик все равно поместит туда наиболее релевантные по данным ключевым словам сайты.
Вот по этой причине только изменять информацию в meta-тегах не приведет к росту рейтинга сайта и увеличению трафика.
И о контенте замолвим мы слово...
Бесспорно, вы можете наполнять свой сайт статьями любого содержания и тематики и надеяться на быстрый эффект. Но вот только написание хороших статей (т.е контента) требует времени и часто довольно много. Можно, конечно, потратить годы на написание статей, что в конечном итоге приведет к появлению довольно весомого архива полезной информации. Вот только у меня возникаю сомнения, что кто-то сможет писать 100 статей в неделю, да еще и интересных и полезных в информационном плане для посетителя. Тут нужно либо нахально воровать контент с других сайтов, либо пользоваться программами для его генерации, либо становиться роботом с множеством рук!
А как же ссылки?
Да, без сомнений, ссылки - это очень важный инструмент, который помогает вашему сайту хотя бы просто быть замеченным (проиндексированным) поисковой машиной. Вот только делается это не так и быстро, ввиду довольно большой инертности поисковиков. Да ведь играет еще и "вес" ссылающегося на вас сайта, а в данном случае лучше получит одну ссылки с сайта с PR=6-7, чем с сотни с PR=2-3. Но пока ваш сайт еще не раскручен, то крупные сайты вряд-ли поставят на ваш сайт ссылки. Зачем это им?
Так что лучше пока забудьте о популярности ссылки и вместо этого подумайте о привлечении на сайт целевой аудитории и как она узнает о существовании вашего сайта. Тут все проще пареной репы, как говорится. У вас есть сайт и вы занимаетесь бизнесом, который [лучше] [уникальнее] [качественнее] чем аналогичный у ваших конкурентов. Вам, естественно, нужно его заставить приносить прибыль. Не обязательно в вас должно быть много денег для рекламы вашего сайта.
Хорошая реклама в (пусть и не в самом популярной) газете, журнале или даже телепрограмме уже поможет обратить внимание на ваш ресурс. Ведь, чем популярнее сайт, тем о нем должны больше говорить. Можно даже использовать PPC (Paid per click, сервис показа баннеров с вашей рекламой с оплатой за клики), который поможет привлечь на ваш сайт заинтересованных посетителей.
Но, как бы вы не рекламировали свой сайт, не рассчитывайте на бум в течении суток.
А теперь снова вернемся к книге Стефана Ковея. Конечно, можно научиться быстро редактировать meta-теги и зарегистрировать сайт в тысячах поисковых машин, поставить свою ссылку на миллионах бесполезных сайтов. Тем не менее, если вы не потратите время на написание хорошего и уникального контента, который будет понятен и интересен посетителю, написан простыми словами без использования сленга, у вас никогда не будет долговременных положительных результатов.
Как достичь долговременных результатов
Одним из способов быстрой раскрутки есть оптимизация сайта под малоиспользуемые ключевые слов. Ваш ресурс-то будет высоко в поисковых рейтингах, да вот толку от этого маловато.
Но так как мы уже решили, что эффективная оптимизация - процесс довольно долгий, то следующие 5 советов помогут вам с пользой это время использовать.
1) Тщательно исследуйте нужные вам ключевые слова с помощью таких сервисов, как Wordtracker или KeywordDiscovery. Пусть эти сервисы и платные, но, как я считаю, чтобы заработать деньги, их нужно сначала потратить. Рано или поздно все к этому приходят. А вот как раз платные сервисы по анализу ключевых слов - совершенный инструмент раскрутки сайта.
2) Не перегружайте свой сайт графикой. Тут есть два недостатка: до сих пор толком неизвестно, как поисковые роботы обрабатывают графику; да и мало у кого из посетителей хватит терпения долго ждать загрузки вашей веб-странички.
3) Используйте понятный посетителю язык, на котором написана информация на сайте. Пусть посетителю будет понятно, что вы желаете ему рассказать. Не забывайте также оптимизировать текст под те ключевые слова, по которым вы желаете достичь высоких позиций в поисковиках.
4) Не лишним будет убедиться, что текст в теге "title" и в описании ссылки полностью сходится с контентом вашего сайта.
5) Будьте терпеливы и настойчивы. Как правило, нужно около 6-9 месяцев, чтобы получить стабильный трафик на ваш сайт с популярных поисковиков. Что поделать, так уж устроены поисковые алгоритмы - им нужно некоторое время, чтобы присмотреться к новым ресурсам. И тут не следует расстраиваться, лучше потратить время на наполнение сайта хорошим контентом.
И помните, что ваши труды по оптимизации - это работа на будущее. Как и все в этой жизни, если вы тратите время и деньги правильно и для конкретной цели, то ожидаемые результаты не заставят себя ждать.
Поисковые механизмы продолжают эволюционировать, становятся все более изощренными и усложненными, в то же время упрощаются их пользовательские интерфейсы, и размеры накопленных баз данных экспоненциально увеличиваются. Впрочем, постоянное развитие в этой области и неудивительно спрос на поиск нужной информации в Сети будет только расти, причем с каждым годом как пользователей, так и данных будет становиться все больше.
Поисковая индустрия также выглядит лакомым кусочком пирога для многочисленных стартапов, которые не прочь попробовать себя в этой области. Лидером здесь можно стать если не за считанные сутки, то за несколько месяцев, о чем свидетельствует история успеха Google. Два года назад о компании знали только энтузиасты, и еще недавно ссылались на данный поисковик как на "разработку студентов Стэнфордского университета", отмечая, что Google "имеет реальные шансы стать одной из самых авторитетных служб в своем классе".
Сегодня за место лидера рынка постоянно соревнуются две компании американская Google и норвежская FAST, и поэтому неудивительно, что в данном материале речь в основном пойдет именно о нововведениях этих фирм.
Файловые форматы
Признавая тот факт, что Internet постоянно пополняется большим количеством информации, которая не всегда выкладывается в формате HTML, Google сообщил о поддержке файловых форматов Microsoft Office. Таким образом, сегодня команда "Поиск" в Google, кроме HTML-документов, выдаст файлы форматов PostScript, Rich text Format, Lotus1-2-3, Lotus WordPro, MacWrite, Microsoft Word, Microsoft Excel и MicrosoftPowerPoint. До этого поисковик также успешно находил и PDF-документы.
Поддержка новых форматов вызвала немало проблем и даже курьезов. Сисадмины и специалисты по компьютерной безопасности наверняка не обрадуются поддержке форматов Microsoft Office. Теперь, щелкнув по ссылке, которая ведет на документ Word, пользователь имеет все шансы запустить у себя на машине макрос, и нет никакой гарантии, что он не причинит вреда. Именно для таких случаев Google предоставляет возможность ознакомления с HTML-версией документа, однако поддержка новых форматов влечет за собой новые проблемы для домашних пользователей теперь компьютерные вирусы можно будет получать прямо из поисковика.
Для более грамотных пользователей новые файловые форматы, несомненно, представляют ценность, так как в слайдах PowerPoint в Internet часто выкладывается учебная и деловая информация, а Excel является общепринятым способом распространения прайс-листов.
Специализация поиска
Норвежские разработчики также предпочли не просто наблюдать за рынком, а развивать специализированные услуги своего поисковика.
FAST запустила поиск новостей, являющийся, как утверждают разработчики, обладателем "желтой майки лидера", если вести речь о скорости. Ежедневно FAST News Search обрабатывает около 3 тыс. ресурсов, которые обновляются в режиме реального времени, как и положено новостийно-информационным изданиям. "Паук" от FAST индексирует около 800 статей каждую минуту.
В данном направлении ведут разработки и отечественные компании. Как сообщил нашему изданию Алексей Чуксин, директор по маркетингу компании"МЕТА", в рамках украинского поисковика создан "динамический индекс", который позволяет вносить обновленные страницы в базу данных"на лету", не замедляя таким образом скорость работы поиска.
Потенциально данная технология может быть использована для организации поиска новостей и обновлений, а также в качестве внутреннего поисковика для крупных сайтов. Разработчики "META" сегодня переводят на динамический поиск сайты своих клиентов, среди которых финансовый сервер Finance.com.ua, банковский Ukrsibbank.com и портал Volia.com.
FAST также предложила весьма интересную концепцию кластеризации результатов поиска. За основу технологии FAST Topics взят открытый каталог Dmoz.org, на его базе сделаны тематические подборки сайтов, которые затем объединяются в кластеры с общей тематикой. Введите "ukraine" в поисковике FAST, и всписке папок будет представлено девять категорий для возможного сужения поиска.
Релевантность
Даже самые громогласные тирады о всемогуществе современных поисковиков зачастую прекращаются, когда их создатели говорят о релевантности. Алгоритмы определения релевантности для ранжирования документов постоянно находятся в стадии разработки. Спаммеры поисковиков, с одной стороны, и добросовестные маркетологи сайтов, с другой, ведут борьбу за право оказаться в списке первых на странице с результатами поиска.
С ноября 2001 г. "МЕТА" для определения релевантности украинских сайтов начала использовать алгоритмы PageRank, где место в списке результатов зависит и от количества ссылок на документ. Google, которая возникла фактически благодаря технологии PageRank, на этот раз решила еще более усложнить путь для недобросовестных "раскрутчиков".
Разработчики Google тестируют технологию, которая позволит пользователям самостоятельно определять релевантность сайта, таким образом голосуя за более информативные ресурсы и исключая из списка результатов поиска сайты, не имеющие никакого отношения к запросу. Теоретически это может даже развязать руки спаммерам, голосующим за свой сайт с различных компьютеров, однако Google рассчитывает на то, что многомиллионная аудитория, ежедневно пользующаяся поисковиком, в целом будет рационально относиться к "избираемым" сайтам.
Быстрее, выше, сильнее?
Как оказалось, олимпийские лозунги не всегда обеспечивают позитивное отношение к поисковикам со стороны пользователей. По мере расширения своей базы данных и увеличения кэша на жестких дисках компании Google пришлось столкнуться с противодействием со стороны Web-мастеров. Google индексирует документы, не предназначенные для публичного использования, Google сохраняет на своем жестком диске копии документов, которые по каким-то причинам должны быть уничтожены, Google ставит под удар платные сайты, требующие денежной мзды за доступ к архивам с более старыми статьями.
На все эти обвинения компания реагирует весьма корректно. Что касается индексирования документов, которые выкладываются на серверы, однако не предназначены для посторонних глаз, представители Google утверждают, что их робот никогда не проиндексирует информацию, доступ к которой запрещен. Не будучи взломщиком, робот, тем не менее, индексирует все, что находит, и тот факт, что конфиденциальные документы попали в око "паука",свидетельствует о том, что неправильно был оформлен файл robots.txt или же администратор не принял должные меры защиты.
Для желающих уничтожить копии своих файлов на дисках Google (а туда, напомним, сейчас попадают и документы PDF, и Microsoft Word), Google представляет такую возможность на сайте для Web-мастеров.
Что касается расширения баз данных поисковиков, то здесь решили не останавливаться на достигнутом и разработчики "МЕТА" робот, по словам Алексея Чуксина, теперь поддерживает настройку полей для поиска структурированной информации (а проще говоря, может получить доступ и проиндексировать базу данных).
С миру по нитке
Что еще произошло в мире поиска за последнее время? Портал Yahoo! согласился сотрудничать с платным поиском Overture (ранее известным как Goto.com), и таким образом на Yahoo! теперь будут появляться платные ссылки, которые будут четко обозначены как коммерческие результаты. Overture, готовясь выйти на прибыль уже в ближайшее время, сумела доказать большинству пользователей, что продажа ссылок за деньги не есть что-то неприличное, а наоборот весьма прибыльный бизнес при условии, что посетитель четко осознает ангажированность результатов.
FAST внедрила свои поисковые технологии в Lycos. Две компании издавна являются партнерами, однако долгое время поиск в Lycos занимал последние места по части объема базы данных и релевантности ссылок. Новая версия поискового ядра от FAST способствует укреплению имиджа Lycos как поисковой машины для Web. На обновленное ядро перешла и российская версия портала, расположенная по адресу www.lycos.ru. Как сообщил"Компьютерному Обозрению" генеральный продюсер российской Lycos Андрей Себрант, основной задачей для разработчиков компании в ближайшее время станет ускорение индексации русскоязычных новостей и интеграция данного сервиса в Lycos.ru. Также одной из ключевых задач сегодняшнего дня является наращивание мультимедийной базы для поисковой машины.
Немного странно не видеть в данном обзоре Inktomi, которая обычно шествовала в колонне лидеров данного рынка. Компания в последнее время направляет свои усилия на корпоративный сектор, хотя игнорировать такого крупного игрока на рынке Internet-услуг пока что нельзя вряд ли Inktomi согласится стать побежденной в гонке лидеров, и вполне возможно, что скоро FAST и Google получат в ее лице достойного конкурента.
Поисковые серверы, в последнее время, при регистрации Вашего сервера, сайта или страницы, используют информацию, хранящуюся в специальных тэгах META, которые помещаются в секцию HEAD. Большинство начинающих вебмастеров и веб-дизайнеров не придают особого внимания этим тэгам, и зря. Сайт, который не посещается, подобен макулатуре, безжалостно выбрасываемой в мусорную корзину. Увеличивайте посещаемость, пользуйтесь подручными средствами!
Во-первых, стоит вкратце остановиться на самих тэгах и их значении с точки зрения видимости и легкой "находимости" вашего сайта.
META HTTP-EQUIV="Expires" CONTENT="Mon, 20 Sep 1999 00:00:01 GMT"
Используется для того, чтобы в нужное время браузер при просмотре документа брал не версию, хранящуюся в кэше, а свежую версию прямо с Вашего сайта.
META HTTP-EQUIV="Content-Type" CONTENT="text/html; CHARSET=Windows-1251"
Используется для того, чтобы браузер мог правильно отобразить содержимое страницы и для определения поисковой машиной языка, на котором написана страница (наилучший пример - AltaVista)
META HTTP-EQUIV="Refresh" CONTENT="x; URL=http://foo.bar/blatz.html"
Используется для того, чтобы в случае смены адреса страницы браузер пользователя автоматически переключался на новый адрес.
META name="author" content="codeguru"
Используется для указания имени автора. В большинстве случаев, поисковые системы позволяют найти нужный сайт и по имени автора (или найти самого автора :-).
Полезно также указать и авторские права название фирмы почти наверняка будет проиндексировано поисковой машиной.
META http-equiv="PICS-Label" content=' (PICS-1.1 "http://www.gcf.org/v2.5" labels on "1994.11.05T08:15-0500" until "1995.12.31T23:59-0000" for "http://w3.org/PICS/Overview.html" ratings (suds 0.5 density 0 color/hue 1)) '
Еще одна интересная штучка отсечение нежелательных пользователей от указанной страницы (например, детей от секс-серверов), при помощи введения рейтинга - т.н. "красной лампочки". Некоторые браузеры позволяют "повесить замок" на содержимое определенных сайтов, запрещая их просмотр. Имеется несколько признанных рейтинговых систем, распознаваемых браузерами. Сам браузер, естественно, можно подстроить под использование рейтинга, а профиль пользователя браузера защитить паролем. Как правило, текст в этот тэг вставляется в строгом соответствии с текстом, имеющемся на рейтинговом сервере.
META name="keywords" content="corporate,guidelines,cataloging"
Список терминов и ключевых слов это именно то, что является самым главным при индексировании Вашего сайта поисковой машиной!
META name="description" content="Corporate Web Page"
Краткое описание Вашего сайта, используемое поисковым сервером для индексирования, и, как правило, вставляемое в текст страницы найденных совпадений в качестве описания Вашего сайта.
Все тэги META не видны при просмотре документа, и заметно увеличивают его размер, но, с другой стороны, без них не обойтись. (Представьте себе такую интересную задачу составить каталог книг в библиотеке, при условии того, что во всех книгах отсутствуют страницы с содержанием и аннотацией. Представляете? Так вот, тэги META и есть те самые страницы, на которых напечатано содержание).
Поэтому плавно перейдем ко второму (основному) разделу, а как же правильно записать эти тэги, чтобы Ваш сайт было легко отыскать при помощи поисковых систем. Надеюсь, что к этому времени Вы уже освоите синтаксис этих тэгов :-).
Длина содержимого тэгов META "desctiptions", не должна превышать 200 символов, а "keywords" 1000 символов. Это связано с тем, что поисковые серверы, как правило, используют именно такие величины при индексировании информации о Вашем сайте. Ограничения на длину этих тэгов нет. Однако, раздувать их до бесконечности смысла не имеет - все равно поисковые машины не воспримут всей информации! Можно получить и отрицательный результат некоторые поисковые машины отбросят часть описания, превышающего установленные нормы, в результате чего в каталог попадет не вся желаемая информация, или сервер просто отвергнет регистрацию Вашего сайта, или будет проиндексировано только название.
Нужно включить все наиболее часто используемые термины в описание (description) для увеличения посещаемости сайта
Вы, конечно же, можете включить в описание и термины, не имеющие отношения к Вашему сайту, однако в Сети такое поведение считается некорректным (появился даже термин спэмдексинг!). В список ключевых слов можно вставлять и фразы. В этом случае у Вашего сайта появляется шанс попасть в самое начало списка, выданного поисковым сервером, в случае совпадения фразы с той, что вводит пользователь. Задумайтесь над фразой - может быть, она прибавит посещений Вашему сайту!
Для увеличения рейтинга сайта и попадания его в верхнюю часть списка необходимо повторять от 3 до 7 раз (!) каждый термин, включаемый в описание.
Однако же, перебарщивать не стоит некоторые поисковые машины могут просто не проиндексировать Ваш сайт или отбросить при индексировании слишком часто повторяющийся термин (хрен редьки не слаще!) Повторение ключевых слов в фразах (попытка обмана поисковой машины :-), вероятнее всего приведет к отрицательному результату, описанному выше. Частота появления терминов в списке META никоим образом не согласуется с появлением терминов в тексте страницы. Поисковые машины работают, как правило, с тэгами META, а в случае их отсутствия уже с содержимым страницы.
Используйте синонимы - как можно большее их количество в описаниях и списке терминов.
Это не спэмдексинг, а трезвое осознание правильности выбранного пути :-).
Не используйте в описаниях и в списке терминов отвлеченные понятия и слова, не относящиеся к содержимому сайта, или слабо связанные друг с другом.
Поисковые машины пишут умники, хорошо разбирающиеся в искусственном интеллекте, и, скорее всего, Ваш сайт, украшенный гирляндой взаимонезависимых слов, будет успешно вычеркнут из индексного списка поискового сервера, причем, возможно, даже без участия его владельца.
Итак вперед, за орденами! Увеличивайте количество посещений сайта при помощи грамотно составленных тэгов META.