начните - Поиск - Библиотека программиста

Вторая часть серии статей "Использование регулярных выражений в PHP" посвящена решению ряда проблем обработки сложных текстов с помощью "продвинутых" операторов регулярных выражений.

Несмотря на то, что термины данные и информация используются взаимозаменяемо, между ними есть существенная разница. Данные существуют реально. Данные — - это список температур, перечень недавних продаж или опись товара, имеющегося в наличии. Информация — это прогнозы. Информация — это предсказание погоды, прогноз прибылей и убытков и тенденции сбыта. Данные записываются в виде нулей и единиц, в то время как информация обрабатывается мозгом.

Между данными и информацией располагается приложение: механизм, который преобразует одно в другое и наоборот. Например, при покупке книги в Интернете это приложение преобразует вашу информацию — название книги, идентификатор, информацию о банковском счете — в данные: номер заказа, цену со скидкой, характеристики транзакции с использованием кредитной карточки и количество оставшихся в наличии экземпляров книги. Аналогичным образом, приложение преобразует данные в запрос на выборку со склада, отметку об отгрузке и номер отслеживания — информацию, необходимую для реализации продажи.

В действительности сложность создания приложения прямо пропорциональна преобразованиям, которые оно выполняет. Гостевая книга Web-сайта, передающая имя и адрес в поля базы данных, устроена элементарно. С другой стороны, онлайновый магазин, который передает большое количество видов информации в модель данных коммерческой сделки и преобразует данные в информацию для реализации процесса принятия решений, достаточно сложен с точки зрения разработки. Искусство программирования заключается в умелом манипулировании данными и информацией — мастерство, схожее с фиксацией света в живописи.

Как было сказано в первой части, регулярные выражения являются одним из самых мощных средств манипулирования данными. Регулярные выражения лаконично описывают форму данных и раскладывают их на составляющие. Например, следующее регулярное выражение можно использовать для обработки температуры, заданной в градусах по Цельсию или по Фаренгейту: /^([+-]?[0-9]+)([CF])$/.

Регулярное выражение сравнивает начало строки (отображается знаком "крышка" (^), за которым идет знак "+", знак "-", или ничего ([+-]?), за которым следует целое число ([0-9]+), обозначение шкалы — Цельсия или Фаренгейта ([CF]) — и заканчивается концом строки (обозначается знаком доллара $).

В данном регулярном выражении операторы начала строки и конца строки представляют собой примеры операторов нулевой ширины или совпадений по положению, а не по символам. Круглые скобки также не указывают на символы. Зато, если заключить шаблон в круглые скобки, то будет извлечен текст, соответствующий шаблону. Следовательно, если текст полностью сопоставим с шаблоном, то первая пара круглых скобок выдаст строку, представляющую собой положительное или отрицательное целое число, например, +49, а вторая пара круглых скобок - или букву C, или F.

В первой части серии представлено понятие регулярного выражения и были описаны PHP-функции для сравнения текста с шаблонами, а также для извлечения совпадений. А теперь давайте углубимся в изучение регулярных выражений и посмотрим на некоторые "продвинутые" операторы и средства.

Круглые скобки опять приходят на помощь

В большинстве случаев пара круглых скобок используется для описания части шаблона и получения текста, соответствующего этой части. Однако от круглых скобок не всегда требуется получение части шаблона. Как и в сложной арифметической формуле, круглые скобки можно использовать для группировки условий.

Приведу пример. Догадаетесь, какому типу данных соответствует данное выражение?

/[-a-z0-9]+(?:\.[-a-z0-9]+)*\.(?:com|edu|info)/i

Как можно догадаться, это регулярное выражение определяет имена Интернет-сайтов (только для доменов .com, .edu, и .info). Отличием является использование дополнительного оператора ?:. Квалификатор части шаблона ?: отключает функцию извлечения данных, и тем самым дает круглым скобкам возможность обозначать последовательность действий. Например, в данном случае фраза (?:\.[-a-z0-9]+)* соответствует нулю или более элементам строки, например, ".ibm." Аналогично, фраза \.(?:com|edu|info) обозначает последовательность символов, за которой идет одна из строк com, edu, или info.

Отключение функции извлечения информации может показаться бессмысленным, если не подумать о том, что извлечение информации требует дополнительной обработки. Если программа обрабатывает большое количество данных, то отказ от извлечения может быть целесообразным. Кроме того, если вы имеете дело со сложным регулярным выражением, то отключение функции извлечения информации в некоторых частях шаблона может упростить извлечение тех частей шаблона, которые реально нужны.

Примечание: Модификатор i в конце регулярного выражения делает все сопоставления с шаблоном нечувствительными к регистру. Следовательно, подмножество a-z будет сопоставимо со всеми буквами, независимо от регистра.

В PHP есть и другие модификаторы частей шаблона (subpattern). Используя отладчик регулярных выражений, показанный в первой части данной серии (повторно показан в листинге 1), попробуйте сопоставить регулярное выражение ((?i)edu) со строками "EDU," "edu," и "Edu." Если в начале части шаблона задать модификатор (?i), то сопоставление с шаблоном не будет зависеть от регистра. Чувствительность к регистру восстанавливается, как только заканчивается данная часть шаблона. (Сравните с модификатором / ... /i, который применяется ко всему шаблону.)

Листинг 1. Простой отладчик регулярных выражений

PHP - Код


//

    // разбиение списка слов, разделенных запятыми, на отдельные слова

    //   третий параметр, -1, разрешает неограниченное число совпадений 

    //   четвертый параметр, PREG_SPLIT_NO_EMPTY, пропускает пустые совпадения

    //

    $words = preg_split( '/,/',  $_REQUEST[ 'words' ], -1, PREG_SPLIT_NO_EMPTY );



    //

    // удаление пробелов в начале и конце каждого элемента

    //

    foreach ( $words as $key => $value ) { 

        $words[ $key ] = trim( $value ); 

    }



    //

    // поиск слов, совпадающих с регулярным выражением

    //

    $matches = preg_grep( "/${_REQUEST[ 'regex' ]}/", $words );



    print_r( $_REQUEST['regex' ] ); 

    echo( '' );

    

    print_r( $words ); 

    echo( '' );

    

    print_r( $matches );

    

    exit;

Еще один полезный модификатор части шаблона - это (?x). Он позволяет добавлять в шаблон пробелы, что упрощает чтение регулярных выражений. Таким образом, часть шаблона ((?x) edu | com | info) (обратите внимание на пробелы между операторами дизъюнкции, которые добавлены для удобочитаемости) аналогична (edu|com|info). Для того, чтобы добавлять пробелы и комментарии в регулярное выражение, можно использовать глобальный модификатор / ... /x, см. листинг ниже.

Листинг 2. Добавление пробелов и комментариев

PHP - Код


$matches = preg_grep( 

            "/

              [- a-z 0-9]+            # machine name

              (?: &#092;. [- a-z 0-9]+)*   # subdomains

              &#092;. (?: com | edu | info)# domain

             /xi", $words );

Как видно из листинга, при необходимости модификаторы можно объединять. Если необходимо включить в регулярное выражение символ пробела при использовании модификатора (?x), используйте метасимвол \s для поиска любого пробельного символа и \ (обратный слеш с пробелом) для поиска одного пробела, например, ((?x) hello \ there).

Оглядываемся вокруг

В подавляющем большинстве случаев регулярные выражения используются для проверки или декомпозиции входной информации на отдельные "лакомые кусочки", которые записываются в архив данных или сразу же обрабатываются приложением. Общепринятыми сферами применения являются: обработка полей форм, парсинг XML-кода и анализ протоколов.

Еще одна область применения регулярных выражений - форматирование, нормализация или улучшение читаемости данных. Вместо того чтобы использовать регулярные выражения для поиска и извлечения текста, при форматировании они применяются для поиска и вставки текста в надлежащее местоположение.

Вот пример полезного применения форматирования. Предположим, что Web-форма передает приложению значение зарплаты с округлением до целого доллара. Так как зарплата хранится в виде числа целого типа, то перед сохранением переданных данных приложение должно удалять из них знаки пунктуации. Однако при извлечении данных из хранилища, возможно, понадобится изменить их формат и сделать удобочитаемыми с помощью разделителей. В листинге 3 показано, как простой PHP-запрос преобразует сумму в долларах в число.

Листинг 3. Преобразование суммы в долларах в число

PHP - Код


$salary = preg_replace( "/[&#092;$&#092;s,]/", '', $_REQUEST[ 'salary' ] );



if ( is_numeric( $salary ) ) {

    // persist the data

}

else {

    // error

}

Вызов функции preg_replace() заменяет знак доллара, любой пробельный символ и все запятые -- на пустую строку, возвращая то, что предположительно является целым числом. Если проверка функцией is_numeric() подтверждает правильность входных данных, их можно сохранить.

А теперь давайте выполним обратную операцию - добавим к числу знак денежной единицы и запятые-разделители сотен, тысяч и миллионов. Для добавления запятых в определенных позициях можно написать программу для поиска этих компонентов, а можно воспользоваться операторами посмотри вперед и посмотри назад. Модификатор части шаблона ?<= обозначает посмотри назад (то есть влево) от текущей позиции. Модификатор ?= означает "посмотри вперед" (то есть вправо) от текущей позиции.

[pagebreak]

Итак, какие позиции нам нужны? Любое место в строке, при условии, что есть как минимум один символ слева и одна или более групп по три символа справа, не считая десятичной точки и количества центов. Соблюдая это правило и используя два модификатора, анализирующих символы справа и слева от определенной позиции и являющихся операторами нулевой ширины, мы можем достичь цели с помощью следующей инструкции:

PHP - Код


$pretty_print = preg_replace( "/(?<=&#092;d)(?=&#092;d&#092;d&#092;d)+$)/", ',', $salary );

Как работает это регулярное выражение? Начиная с первого символа строки и обрабатывая каждый символ, регулярное выражение отвечает на вопрос: "Есть ли хотя бы один символ слева и одна или несколько групп из трех символов справа?" Если да, то наш оператор нулевой ширины заменяется запятой.

Большинство сложных сопоставлений можно реализовать, используя стратегию, аналогичную приведенной выше. Например, вот еще один вариант использования оператора "посмотри вперед", который решает широко распространенную дилемму.

Листинг 4. Пример использования оператора "посмотри вперед" ("предвидение")

PHP - Код


$tab_data = preg_replace( '/

    ,                               # look for a comma

    (?=                             # then look ahead for

        (?:[^"]*$)                  # a string with no quotes and eol

        |                           #  -or-

        (?:[^"]*"[^"]*"[^"]*)*$     # a string with balanced quotes

    )                               # 

    /x', "&#092;t", $csv_data );

Оператор preg_replace() преобразует строку данных, разделенных запятыми, в строку данных, разделенных знаком табуляции. Предусмотрительным образом, он не заменяет запятые в строке, заключенной в кавычки.

Это регулярное выражение при каждом обнаружении запятой (на это указывает запятая в самом начале регулярного выражения) проверяет утверждение: "Впереди не было кавычек или было четное количество кавычек". Если утверждение верно, то запятую можно заменить знаком табуляции (the \t).

Если Вам не нравятся операторы «посмотри вперед» и «посмотри назад» или вы работаете с таким языком, в котором их нет, можно добавить запятые в число и с помощью обычного регулярного выражения. Однако для реализации такого решения потребуется много итераций.

Листинг 5. Добавление запятых

PHP - Код


$pretty_print = preg_replace( "/[&#092;$&#092;s,]/", '', $_REQUEST[ 'salary' ] );



do {

    $old = $pretty_print;

    $pretty_print = preg_replace( "/(&#092;d)(&#092;d&#092;d&#092;d&#092;b)/", "$1,$2", $pretty_print );

} while ( $old != $pretty_print );

Давайте пройдем по коду. Сначала параметр зарплаты очищается от знаков пунктуации для моделирования ситуации чтения целого числа из базы данных. Затем выполняется цикл в поисках позиций, где за одним числовым символом ((\d) идут три числовых символа ((\d\d\d\): если обнаруживается граница слова, заданная как \b, цикл прекращается. Граница слова -- это еще один оператор нулевой ширины, который соответствует следующим позициям:

* Перед первым символом строки, если это буква слова.
* За последним символом строки, если это буква слова.
* Между буквой слова и небуквенным символом, непосредственно за буквой слова.
* Между небуквенным символом и буквой слова, непосредственно за небуквенным символом.

Таким образом, примерами правильных границ слова являются пробел, точка и запятая.

Благодаря внешнему циклу регулярное выражение перемещается слева направо в поисках цифры, за которой идут три цифры и граница слова. При обнаружении совпадения между двумя частями шаблона добавляется запятая. Цикл должен продолжаться до тех пор, пока оператор preg_replace() находит совпадения, что задано в условии $old != $pretty_print.

Жадность и лень

Регулярные выражения обладают большими возможностями, иногда даже слишком большими. Например, давайте рассмотрим, что произойдет, если регулярное выражение ".*" будет обрабатывать строку "The author of 'Wicked' also wrote 'Mirror, Mirror.'" Вероятно, вы предполагаете, что preg_match() вернет два совпадения, и с удивлением обнаружите, что результат всего один: 'Wicked' also wrote 'Mirror, Mirror.'

Почему? Если не задать иное, то такие операторы как * (ноль или более) и + (один или более) -- "жадные". Если сопоставление с образцом может продолжаться, то они и будут его продолжать до тех пор, пока не будет возвращен максимальный результат из возможных. Для сохранения минимальных совпадений необходимо принудительно заставлять определенные операторы быть "ленивыми". "Ленивые" операторы находят самое короткое совпадение и на этом останавливаются. Чтобы сделать оператор более "ленивым", добавьте суффикс в виде знака вопроса. Пример показан в листинге 6.

Листинг 6. Добавление суффикса в виде знака вопроса

PHP - Код


$text = 'The author of "Wicked" also wrote "Mirror, Mirror."';

    if ( preg_match_all( '/".*?"/', $text, $matches ) ) {

        print_r( $matches[0] );

    }

Приведенный фрагмент кода дает:

Array ( [0] => "Wicked" [1] => "Mirror, Mirror." )

Регулярное выражение ".*?" расшифровывается следующим образом: "найти кавычку, за которой идет ровно столько символов с последующей кавычкой.

Однако иногда оператор * может быть слишком "ленивым". Например, посмотрите на следующий фрагмент кода. Что он делает?

Листинг 7. Простой отладчик регулярных выражений

PHP - Код


if (preg_match( "/([0-9]*)/", "-123", $matches  ) ) {

    print_r( $matches );

}

Что вы загадали? "123"? "1"? Нет результата? На самом деле результатом будет Array ( [0] => [1] => ), означающий, что совпадение было найдено, но никаких данных извлечено не было. Почему? Вспомните, что оператор * ищет совпадения с нулем или более символов. В данном случае, выражение [0-9]* находит совпадение с нулем символов от начала строки, и обработка заканчиваетс.

Для решения данной проблемы добавьте оператор нулевой ширины для привязки совпадения, который заставляет регулярное выражение продолжать сопоставления; /([0-9]*\b/.

Советы и рекомендации

С помощью регулярных выражений можно решать как простые, так и сложные задачи при обработке текста. Начните с небольшой группы операторов и по мере того, как вы будете набираться опыта, расширяйте свой словарь. В качестве вознаграждения за ваши старания -- некоторые советы и рекомендации.

Создание переносимых регулярных выражений с помощью классов символов

Вам уже знакомы метасимволы, например, \s - соответствует любому пробельному символу. Кроме того, большинство реализаций регулярных выражений поддерживает предопределенные классы символов, которые более просты в использовании и переносимы с одного письменного языка на другой. Например, класс символов [:punct:] замещает все символы пунктуации в данном языке. Вместо [0-9] можно использовать [:digit:] и более переносимое замещение [:alpha:] вместо [-a-zA-Z0-9_]. Например, можно убрать все знаки пунктуации, используя:

PHP - Код


$clean = preg_replace( "/[[:punct:]]/", '', $string );

Класс символов представляет собой более сжатую форму по сравнению с подробным описанием всех символов пунктуации. Полный перечень классов символов можно найти в документации по версии языка PHP.

Как исключить то, что вы не ищете

Как показано в примере с данными, разделенными символом табуляции, в качестве значений, разделенных запятыми (CSV), иногда проще и точнее задать список тех вариантов, которые не нужно находить (сопоставлять). Последовательность, начинающаяся со знака "крышка" (^) будет соответствовать любому символу, не принадлежащему данной последовательности. Например, для проверки правильности телефонных номеров для США можно использовать регулярное выражение /[2-9][0-9]{2}[2-9][0-9]{2}[0-9]{4}/. Используя набор ограничений можно написать регулярное выражение в более явном виде /[^01][0-9]{2}[^01][0-9]{2}[0-9]{4}/. Оба регулярных выражения работают, хотя смысл последнего, вероятно, более понятен.

Пропуск новой строки

Если во входных данных несколько строк, стандартного регулярного выражения будет недостаточно, так как сканирование прекращается на начале новой строки, которая обозначается $. Однако, если воспользоваться модификаторами s или m, то регулярное выражение будет обрабатывать входные данные по-другому. Первый модификатор рассматривает строковую последовательность как одну строку, где точка указывает на начало новой строки (обычно она этого не делает). Второй рассматривает строковую последовательность как несколько строк, где ^ и $ соответствуют началу и концу любой строки, соответственно. Приведем пример. Если задать $string = "Hello,\nthere";, то оператор preg_match( "/.*/s", $string, $matches) параметру $matches[0] присвоит значение Hello,\nthere. (При удалении s будет выдано Hello.)

Итак, вы создали список ключевых слов, которые будете использовать для поисковиков. Теперь пришло время узнать, как правильно разместить эти слова для того, чтобы получить максимальную оценку от поисковой системы. Эта статья посвящена всем вебмастерам, которые занимаются не только созданием сайтов, но и их продвижением в сети интернет.

Создайте "входные страницы" (дорвеи) для вашего сайта, используя всевозможные комбинации ключевых слов на странице. В идеале, необходимо создать каждую отдельную страницу для конкретного ключевого слова и для конкретной поисковой машины, так как каждая поисковая система использует свой алгоритм оценки релевантности. Сразу должен сказать, что дорвеи - это хорошая идея, но на практике их разработка может занять массу времени. С тех пор, как поисковые системы стали регулярно менять алгоритмы оценки страниц, вебмастерам приходится постоянно работать над созданием новых дорвеев, обеспечивающих высокий рейтинг в поисковой системе. Более того, если вы работаете над большим количеством ключевых слов, вам придется создавать сотни дорвеев! И вскоре, вы столкнетесь с тем, что их создание будет отнимать больше времени, чем обычная работа над сайтом.

Метод, который я хочу предложить работает. Изначально, не беспокойтесь о разных алгоритмах в поисковых системах. Создайте разные дорвеи, пропишите их в поисковые системы, и отслеживайте траффик. Регулярно создавайте дорвеи и проверяйте статистику посещений, до тех пор, пока не определите рейтинг ваших страниц в поисковиках (почти все поисковые системы дают эту возможность). Когда вы определили нахождение страниц в рейтинге, создайте новый дорвей - в котором неоднократно повторяется конкретное ключевое слово в смеси с другими ключевыми словами. Зарегистрируйте этот дорвей в поисковиках и следите за его рейтингом. Как только вы определили поисковики, которые низко оценивают этот дорвей, создайте новые дорвеи для конкретной поисковой системы, основываясь на рейтинге предыдущих дорвеев. Продолжайте оптимизировать его до тех пор, пока не достигните должного результата.

Пойдем дальше. Я надеюсь, вы вкурсе, что такое meta tags, tittle tags, meta-description tags, meta-keywordstags, the heading tags, и alt tags. Если вы не знаете, что это такое, бросайте читать эту статью и отправляйтесь в магазин за руководством по созданию HTML-страниц.
Предположим, у вас сайт туристической фирмы и вам необходимо использовать ключевые слова "Путешествие в Австралию". Приступим к созданию нашего дорвея.

Самый важный тэг в создании дорвея. Всегда вписывайте основное ключевое слово вначало, повторяя его в середине и в конце тэгов .Но НИКОГДА не вписывайте ключевое слово (или два ключевых слова) два раза подряд - поисковые системы воспримут это как спам. Также, содержимое тэгов является заголовком в результатах поиска поисковой системы, т.е.вы должны создать абсолютно читаемый заголовок. Вот пример: "Путешествие в Австралию - открой для себя как можно совершить путешествие в Австралию всего за ***$". Здесь мы создали заголовок, в котором ключевые слова используются в начале и повторяются в середине. Также, чередуйте заглавные и прописные буквы в слове "путешествие". Создайте подобные дорвеи, используя варианты: "путешествие в австралию", "Путешествие в Австралию", "путешествие в Австралию" и т.п.

Содержимое страницы. ALT-тэг Переходим к содержимому страницы. Начните свою страницу с изображения рисунка, имеющего прямое отношение к теме вашего сайта. Поместите его вверху страницы. В ALT тэге рисунка впишите "Путешествие в Австралию". Можете дополнить тэг другими словами, но начните обязательно с основных. Теперь создайте заголовок. Используйте размер H1 для заголовка. Снова, впишите основные ключевые слова в заголовок. Также как и в ALT-тэг, вы можете добавить другие слова, но после основных. Переходим к тексту страницы. От текста, расположенного в начале страницы зависит практически все. Содержанием текста вы должны направить посетителя к вашей основной странице сайта. Вставьте ссылку на основную страницу сайта на видном месте, чтобы посетитель мог не напрягаясь уйти по ней. Не вставляйте лишних ссылок и лишних баннеров - не давайте посетителю уйти.

Придерживайтесь следующих правил:

1) Первое, что необходимо помнить: некоторые поисковые системы не читают Meta-тэги, и используют первые слова на странице в качестве ключевых. Поэтому первые строки должны быть качественно составлены и удобочитаемы для посетителя.
2) Составьте предложения так, чтобы в них обязательно присутствовали ключевые слова - по одному разу в предложении. При этом ваши предложения должны иметь грамматический смысл, а не представлять из себя набор фраз. Посетитель должен получить приятное впечатление при чтении текста.
3) Не делайте ваши параграфы слишком длинными. Каждый должен быть от силы из 3-4 предложений. Посетители веб-страниц просто не будут читать большие громоздкие тексты.
4) Попытайтесь сделать так, чтобы текстовые ссылки включали в себя ключевые слова. Зачастую поисковики высоко ранжируют такие страницы.
5) Если это возможно, делайте ссылки на страницы которые имеют ключевое слово в имени файла. Поисковые системы учитывают это.
6) Нет конкретного ограничения на количество слов в странице - но постарайтесь создать ваш дорвей с 500-600 словами.

Созданную страницу назовите ключевыми словами, разделенными дефисом:travel-to-australia.html Это даст вам высокую оценку поисковиками (например Nothern Light), которые обращают внимание на присутствие ключевого слова в URL.
Теперь вам нужно правильно прописать дорвеи в поисковых системах. Многие вебмастера, загрузив дорвеи на сервер начинают регистрировать их один за другим в поисковых системах. Это распространенная ошибка. Поисковые системы низко оценивают страницу, с которой есть несколько ссылок, но нет ссылок на нее, а бывает так, что такие страницы оцениваются как дорвеи и тогда поисковая машина заносит URL в черный список - блэклист.

Что вам еще нужно сделать, так это сделать ссылку на дорвей с вашей основной страницы, но сделать это так, чтобы ссылка существовала только для поисковой машины - но не для посетителя. Однако не делайте текстовые ссылки под цвет фона - 99% поисковиков занесут вас в блэклист за такие проделки. Вот здесь я вам открою свой маленький секрет Создайте небольшую картинку под цвет вашего фона. Назовите рисунок именем дорвея - travel-to-australia.gif Вставьте рисунок в конец основной страницы и сделайте с него ссылку на дорвей. В ALT-тэг рисунка также вставьте ключевые слова . Не забудьте установить border=0 для рисунка.

Создайте подобные дорвеи для других ключевых слов, скопируйте тот же рисунок на основной странице еще раз, изменив его имя, ALT-тэг и ссылку. Повторяйте этот процесс для каждого ключевого слова или фразы. Таким образом, когда будет создано достаточное количество дорвеев, вы можете прописать вашу основную страницу сайта в поисковые системы. Не прописывайте все страницы сайта - пропишите только основную страницу. Несмотря на то, что на обнаружение всех страниц сайта уйдет больше времени, я настоятельно рекомендую поступить именно так: спайдер, пройдясь по ссылкам и обнаружив тем самым дорвеи и не узнав их, придаст более высокое ранжирование им!

Поиск

Том Кайт - Oracle для профессионалов

Использование регулярных выражений в PHP - 2

Дорвеи и поисковые системы