Книга английского специалиста, в которой в наглядной и оригинальной форме представлен стандарт языка Паскаль, имеющего реализации практически на всех современных ЭВМ. Изложение рассчитано на изучение языка. Для программистов разной квалификации.
Открыв эту книгу, не сразу понимаешь, что держишь в руках учебник по языку программирования Паскаль. На одной странице - какие-то падающие пирамидки из кубиков, на другой - переплетение стрелочек, на третьей - вроде бы программа, но по ней почему-то ползает множество жучков. Все это - выразительные средства, делающие чтение книги не только полезным, но и по возможности простым и интересным занятием. Упомянутые жучки, в частности, указывают ошибочные места в программе. Этот символ происходит из омонимии английского слова bug, означающего одновременно и жука и ошибку в программе.
Поиск по шаблону является настолько обычным занятием в разработке программного обеспечения, что для облегчения этой задачи была создана специальная технология — регулярные выражения. Узнайте, как можно использовать ее при написании кода, прочитав эту статью.
Все устройства получают входную информацию, выполняют какие-либо операции и выдают результат. Например, телефон во время разговора преобразует звуковую энергию в электрический сигнал и обратно. Двигатель потребляет топливо (пар, расщепление атомных ядер, бензин, мышечные усилия) и преобразует его в энергию. Блендер поглощает ром, лед, лайм и кюрасао и взбалтывает их в коктейль Mai Tai. (Или, если вам хочется чего-то изысканного, сделайте Bellini из шампанского и грушевого сока. Блендер – замечательное универсальное устройство.)
Так как программное обеспечение преобразует данные, то каждое приложение фактически является устройством (хоть и виртуальным, так как у него нет физических составляющих). Например, компилятор в качестве входной информации получает исходную программу и преобразует ее в двоичный исполняемый код. Программа прогнозирования погоды генерирует предсказания на основе результатов прошлых (исторических) замеров, а графический редактор обрабатывает пикселы, применяя правила к отдельным пикселам или их группам, чтобы, например, сделать изображение более четким или изменить его стиль.
Так же, как и любое другое устройство, программное обеспечение предназначено для работы с определенным исходным материалом, например, набором чисел, данными XML-схемы или протоколом. Если программе задать некорректную входную информацию — неподходящую по форме или типу, то существует большая вероятность того, что результат будет непредсказуемым и, возможно, даже катастрофическим. Как говорится: "Мусор заложишь - мусор получишь".
На самом деле для решения всех нетривиальных задач необходимо отделять правильные данные от некорректных и отклонять некорректные данные во избежание ошибок в результатах. Это, конечно же, актуально и для Web-приложений, написанных на языке PHP. Неважно, получены ли входные данные из формы для ввода с клавиатуры или в результате выполнения программного запроса Asynchronous JavaScript + XML (Ajax), прежде чем начать какие-либо вычисления, программа должна проверить входную информацию. Возможно, что числовые значения должны находиться в пределах определенного диапазона чисел или представлять собой только целые числа. Возможно, значение должно соответствовать определенному формату, например, почтового индекса. Например, почтовый индекс в США представляет собой пять цифр плюс дополнительный префикс "Plus 4", состоящий из дефиса и 4 дополнительных цифр. Возможно, другие строки также должны состоять из определенного количества символов, например, две буквы для указания аббревиатуры штата США. Строковые данные доставляют особенно много проблем: PHP-приложение должно быть начеку по отношению к злонамеренным программам-агентам, вложенным в SQL-запросы, код JavaScript или любой другой код, которые способны изменить поведение приложения или обойти защиту.
Однако каким образом программа может определить, являются ли входные данные числом или соответствуют ли определенным требованиям, например, к почтовому индексу? На самом деле для реализации проверки путем сопоставления с шаблоном необходим небольшой парсер, создающий конечный автомат, считывающий входные данные, обрабатывающий маркеры, отслеживающий состояние и выдающий результаты. Однако создание и обслуживание даже самого простого парсера может оказаться непростым делом.
К счастью, анализ на основе сопоставления с шаблоном настолько широко распространен в компьютерных технологиях, что с течением времени (примерно с момента появления UNIX®) были разработаны специальные технологии и, конечно же, механизмы обработки, чтобы облегчить рутинную работу. Регулярное выражение (regex) описывает шаблоны посредством лаконичных и удобочитаемых обозначений. Получив регулярное выражение и данные, механизм regex сообщает, совпадают ли эти данные с шаблоном, и если совпадение было обнаружено, что именно совпало.
Вот небольшой пример использования регулярного выражения, взятый из UNIX-утилиты, работающей в режиме командной строки, которая ищет заданный шаблон в содержимом одного или нескольких текстовых файлов UNIX. Команда grep -i -E '^Bat' ищет последовательность символов beginning-of-line (начало строки), обозначаемое "крышкой", [^]), за которым следуют буквы b, a, и t верхнего или нижнего регистра (ключ -i указывает на то, что при сопоставлении с шаблоном регистр не учитывается, таким образом, например, B и b - тождественны). Следовательно, для файла heroes.txt:
Листинг 1. heroes.txt
Вышеупомянутая команда grep выдаст два совпадения:
Batman
Batgirl
Регулярные выражения
PHP предлагает два программных интерфейса регулярных выражений: один -- для интерфейса переносимых операционных систем (POSIX), а второй - для регулярных выражений, совместимых с языком Perl (PCRE). В общем и целом второй интерфейс является более предпочтительным, так как PCRE сам по себе мощнее, чем POSIX, и предоставляет все операторы, используемые в языке Perl. Более подробная информация по обращению к regex-функциям POSIX представлена в документации по языку PHP (см. раздел Ресурсы). В данной статье мы сосредоточим свое внимание на свойствах PCRE.
Регулярные выражения PHP PCRE содержат операторы, позволяющие путем сопоставления находить конкретные символы или другие операторы, определенные местоположения, например, начало и конец строки, начало или конец слова. Регулярные выражения также позволяют описывать альтернативы, которые можно задать альтернативы типа "или"-"или"; повторения фиксированной, изменяемой или неопределенной длины; наборы символов (например, "любая буква от a до m"); и классы, или типы символов (печатаемые символы, знаки препинания). Специальные операторы также разрешают использовать группировку — возможность применить оператор к целой группе других операторов.
В таблице 1 показаны некоторые типичные операторы регулярных выражений. Для создания сложных выражений можно последовательно объединять элементарные операторы из таблицы 1 (и другие).
Таблица 1. Типичные операторы регулярных выражений
Оператор Значение
. (точка) Любой одиночный символ
^ (крышка) Пустая последовательность в начале строки или цепочки
$ (знак доллара) Пустая последовательность в конце строки
A Буква A верхнего регистра
a Буква a нижнего регистра
\d Любая цифра
\D Любой нецифровой символ
\w Любая буква или цифра; синоним - [:alnum:]
[A-E] Любая заглавная буква из A, B, C, D или E
[^A-E] Любой символ, за исключением заглавных букв A, B, C, D или E
X? Найти совпадение по отсутствию или наличию одной заглавной буквы X
X* Ни одной или любое количество заглавных букв X
X+ Одна или несколько заглавных букв X
X{n} Ровно n заглавных букв X
X{n,m} Не менее n и не более m заглавных букв X; если опустить m, то выражение будет искать не менее n заглавных букв X
(abc|def)+ По меньшей мере одно вхождение последовательности abc и def
В следующем примере показано типичное использование регулярного выражения. Например, для web-сайта необходимо, чтобы каждый пользователь регистрировался. Имя пользователя должно начинаться с буквы и содержать от 3 до 10 буквенно-цифровых символов. Для проверки имени пользователя на соответствие ограничениям при отправке данных в приложение можно использовать следующее регулярное выражение: ^[A-Za-z][A-Za-z0-9_]{2,9}$.
Знак "крышка" соответствует началу строки. Первый набор [A-Za-z] соответствует любой букве. Второй набор [A-Za-z0-9_]{2,9} соответствует последовательности, содержащей от 2 до 9 букв, цифр или символов подчеркивания. Знак доллара ($) соответствует концу строки.
На первый взгляд, знак доллара может показаться лишним, однако его использование важно. Если его пропустить, то условиям данного регулярного выражения будет отвечать любая строка, которая начинается с буквы, содержит от 2 до 9 буквенно-цифровых символов и любое количество других символов. Иными словами, если бы не было знака доллара как привязки к концу строки, то подошла бы недопустимо длинная строка с подходящим началом, например, "martin1234-cruft" .
Программирование на языке PHP и регулярные выражения
В PHP есть функции для поиска совпадений в тексте, замены каждого совпадения на другой текст (похоже на операцию "найти и заменить") и поиска совпадений среди элементов списка. Вот эти функции:
Чтобы показать, как работают эти функции, давайте создадим небольшое PHP-приложение, которое будет просматривать список слов на соответствие определенному шаблону. Слова и регулярные выражения будут вводиться из обычной web-формы, а результаты отображаться в браузере посредством функции simple print_r(). Эта программка пригодится, если возникнет желание проверить или отладить регулярное выражение.
PHP-код показан в листинге 2. Все входные данные берутся из обычной HTML-формы. (Для краткости эту форму и PHP-код, отслеживающий ошибки, опустим.)
Листинг 2. Сравнение текста с шаблоном
Вначале с помощью функции preg_split() строка из слов, разделенных запятыми, преобразуется в отдельные элементы. Данная функция разбивает строку в тех местах, которые соответствуют условиям регулярного выражения. В данном случае регулярное выражение представляет собой просто "," , (запятая - разделитель списка слов, указанных через запятую). Слэш в начале и в конце просто показывает начало и конец regex.
Третий и четвертый аргументы функции preg_split() необязательны, но полезны. Добавьте в третий аргумент число n целого типа, если необходимо вернуть только первые n совпадений, или -1, если необходимо вернуть все совпадения. Если в качестве четвертого аргумента задать идентификатор PREG_SPLIT_NO_EMPTY, то функция preg_split() не будет возвращать пустые результаты.
Затем каждый элемент списка слов, разделенных запятыми, корректируется (убираются начальные и конечные пробелы) с помощью функции trim() и сравнивается с заданным регулярным выражением. Функция preg_grep() существенно упрощает процесс обработки списка: просто укажите в качестве первого аргумента шаблон, а в качестве второго - массив слов для сравнения. Функция возвращает массив совпадений.
Например, если в качестве шаблона задать регулярное выражение ^[A-Za-z][A-Za-z0-9_]{2,9}$ и список слов разной длины, то можно получить результат, показанный в листинге 3.
Листинг 3. Результат работы простого регулярного выражения
Кстати, с помощью дополнительного маркера PREG_GREP_INVERT можно инвертировать операцию preg_grep() и найти элементы, которые не совпадают с шаблоном (аналогично оператору grep -v в командной строке). Заменяя 22 строку на $matches = preg_grep( "/${_REQUEST[ 'regex' ]}/", $words, PREG_GREP_INVERT ) и используя входные данные из листинга 3, мы получим Array ( [1] => 1happy [2] => hermanmunster ).
Разбор строк
Функции preg_split() и preg_grep() очень удобны. Первая из них может разбирать строку на подстроки, если подстроки разделяются определенным шаблоном. Функция preg_grep() позволяет быстро отфильтровать список.
Но что произойдет, если строку нужно разобрать на составные части, используя одно или несколько сложных правил? Например, в США номера телефонов обычно выглядят следующим образом: "(305) 555-1212," "305-555-1212," или "305.555.1212." Если убрать пунктуацию, то количество символов сократится до 10 цифр, что легко можно определить с помощью регулярного выражения \d{10}. Однако код и префикс (каждый из которых состоит из трех цифр) телефонного номера США не могут начинаться с нуля или единицы (так как нуль и единица используются как префиксы для междугородных звонков). Вместо того чтобы разбивать числовую последовательность на отдельные цифры и создавать сложный код, для верификации можно использовать регулярное выражение.
Фрагмент кода позволяющий решить эту задачу, показан в листинге 4.
Листинг 4. Проверка американского телефонного номера
Давайте пройдем по этому коду:
* Как показано в таблице 1, в регулярных выражениях используется ограниченный набор специальных символов, например, квадратные скобки ([ ]) для наименования последовательности. Если надо найти такой символ в тексте, необходимо "выделить" специальный символ в регулярном выражении, поставив перед ним обратный слэш (\). Когда символ выделен, можно задать его посик, как и любого другого символа. Если нужно найти символ точки, например, в полном составном имени хоста, то напишите \.. При желании строку можно подать в функцию preg_quote() которая выполняет автоматическую изоляцию всех специальных символов регулярных выражений, как показано в строке 1. Если поставить echo() $punctuation после первой строки, то вы должны увидеть \(\)\.-.
* В строке 2 из телефонного номера убираются все знаки пунктуации. Функция preg_replace() заменяет все символы из $punctuation — операторы из набора [ ] - пустой строкой, эффективно устраняя такие символы. Возвращаемая новая строка присваивается переменной $number.
* В строке 4 определен шаблон верифицируемого телефонного номера США.
* Строка 5 реализует сопоставление, сравнивая телефонный номер, который теперь состоит только из цифр, с шаблоном. Функция preg_match() возвращает 1, если есть совпадение. Если совпадения нет, функция preg_match() возвращает нулевое значение. Если во время обработки возникла ошибка, то функция возвращает значение False (ложно). Таким образом, чтобы проверить удачное завершение, необходимо посмотреть, было ли возвращено значение 1. В противном случае проверьте итоговое значение функции preg_last_error() (если используется PHP версии 5.2.0 или выше). Если оно не равно нулю, то, возможно, был превышен лимит вычислений, например, разрешенная глубина рекурсии регулярного выражения. Обсуждение констант и ограничений, применяемых в регулярных выражениях PHP, представлено на странице, посвященной функциям регулярных выражений PCRE (см. раздел Ресурсы).
Извлечение данных
Во многих случаях необходимо только получить ответ на вопрос: "Соответствуют ли данные шаблону?" – например, при проверке данных. Однако чаще регулярные выражения используются для подтверждения соответствия и получения информации о совпадении.
Вернемся к примеру с телефонным номером. Пусть при соответствии шаблону нам необходимо сохранить код, префикс и номер линии в отдельных полях базы данных. Регулярные выражения могут запоминать совпадающие с шаблоном данные с помощью оператора capture. Оператор capture обозначается круглыми скобками и может использоваться в любой части регулярного выражения. Операции capture можно делать вложенными для поиска подсегментов в извлеченных сегментах данных. Например, чтобы из 10-значного номера телефона извлечь код города, префикс и номер линии, можно использовать следующую строку:
/([2-9][0-9]{2})([2-9][0-9]{2})([0-9]{4})/
Если входные данные соответствуют шаблону, первые три цифры захватываются первой парой круглых скобок, следующие три цифры - второй парой, а последние 4 цифры - последним оператором. Модификация вызова функции preg_match() возвращает извлеченные данные.
Листинг 5. Возврат извлеченных данных функцией preg_match()
Если в качестве третьего аргумента функции preg_match() указать переменную, например, в нашем коде, $matches, то в качестве ее значения будет выступать список извлеченных результатов. Нулевой элемент списка (с индексом 0) - это все совпадение целиком; первый элемент - совпадение, относящееся к первой паре круглых скобок, и так далее.
Вложенные операторы capture извлекают сегменты и подсегменты фактически любой глубины. Сложность с вложенными операторами capture состоит в том, чтобы определить, в какой части массива соответствий находится каждое соответствие, например, $matches. Действует следующее правило: подсчитайте порядковый номер открывающей скобки в регулярном выражении — этот номер и будет индексом нужного совпадения в массиве соответствий.
В листинге 6 показан пример (немного надуманный) извлечения частей городского адреса.
Листинг 6. Код для извлечения городского адреса
Опять все совпадение целиком хранится по индексу 0. А где хранится номер улицы? Если считать слева направо, номер улицы проверяется \d+. Это вторая открывающая круглая скобка слева, следовательно, значением $matches[2] будет 123. В $matches[4] оказывается название города, а в $matches[6] - почтовый индекс.
Продвинутые технологии
Обработка текста – широко распространенная задача, и PHP предоставляет ряд функций, упрощающих выполнение большого числа операций. Обратите внимание на следующее:
* Функция preg_replace() может работать как с одной строкой, так и с массивом строк. Если вызвать preg_replace() для массива строк, замена будет выполнена во всех элементах массива. В этом случае код preg_replace() возвращает массив измененных строк.
* Как и во всех остальных реализациях PCRE, здесь для осуществления замены можно прибегать к сравнению с вложенным шаблоном. Для наглядности давайте рассмотрим проблему стандартизации формата телефонного номера. Заменим все знаки пунктуации точками. Наше решение показано в листинге 7.
Листинг 7. Замена знаков пунктуации точками
Сопоставление с шаблоном и, в случае совпадения, перевод в стандартный телефонный номер выполняется за один шаг.
Рекламно-контекстовые системы оплаты за клик (Pay per click), такие, как AdSense, много внимания уделяют позиционированию и дизайну своих публикуемых объявлений. Но есть и другой важный аспект - релевантность рекламы, т.е. соответствие текста рекламного объявления содержанию страницы.
Ее принцип действительно прост - читатели приходят на Ваш сайт в поисках информации по какой-то конкретной теме и, если видят объявление, ей соответствующее, то есть большая вероятность, что они обратят на него внимание и отреагируют, кликнув по рекламе.
Нерелевантная реклама почти всегда приносит низкий отклик, поэтому публикующий, работая над ее дизайном и позиционированием, должен убедиться в том, что рекламные объявления максимально релевантны контенту, в котором они размещаются.
Каждая контентно-зависимая система рекламы будет требовать применения своих собственных методов для получения наиболее релевантной рекламы.
Ниже следуют 11 подсказок для получения релевантных объявлений, нацеленных на рекламу AdSense:
1. Секционный Таргетинг - Данная идея очень проста - Вы просто проставляете специальные теги вокруг тех частей контента, для которых требуется соответствие объявлений и теги вокруг того контента, который не нужно учитывать при ориентации объявлений. Получается, что вы самостоятельно можете делать таргетинг объявлений в соответствии с тематикой вашего сайта. Я думаю, что объявления о продаже цветов не будут уместны на сайте о программировании. А узнать больше информации об этом от Гугла, пройдя сюда.
2. Ключевые Слова в Контенте Страниц - Ваши посты с ключевыми словами должны быть подкреплены основным содержанием статьи. В противном случает он будут мало читаемы. Также имеет смысл проверить, какие слова в тексте встречаются чаще других, поскольку это те слова, которым с большей вероятностью будет соответствовать текст рекламного объявления. Чтобы помочь AdSense'у вывести нужные объявления, Вы должны найти способ использования нужных ключевых слов более одного-двух раз в каждом сообщении.
3. Ключевые Слова в Заголовках - Как показывает опыт, присутствие ключевых слов в заголовках (title) статей реально влияет на содержимое отображаемых рекламных объявлений. Это утверждение еще более справедливо, если заголовки статей, по сути, являются и заголовками страниц. Идеальный вариант - это когда название статьи есть в заголовке браузера и содержит ключевые слова.
4. Метатеги - Могу сказать, что времена, когда поисковики верили метатегам - в далеком прошлом. Когда инет начинал свое становление, трава была зеленой, а небо голубым :) Сейчас дела обстоят по-другому. Да и сама Google AdSense никогда не говорила о значимости метатегов при отображении рекламы, однако достаточно много пользователей верят, что AdSense обращает на них внимание. Поэтому рекомендую Вам самим убедиться в том, что это значимый показатель, включив в метатеги ключевые слова.
5. Фокусируйте Посты в Одну Тему - Чем больше Ваши посты сфокусированы на одной теме, тем больше AdSense "понимает" то, о чем Вы пишите, и с большей степенью вероятности выводит нужные Вам объявления. И, наоборот, посты, раскрывающие разносторонние темы, приведут к эффекту несоответствия объявления тексту Вашего сайта. Это объясняет причину, по которой иногда главные страницы блогов отображают релевантные объявления значительно реже, чем страницы, отведенные только одному посту. Поэтому для достижения необходимо результата на главной странице, возможно, придется поработать с плотностью ключевых слов на ней.
6. Фокусируйте Blog/URL в Одну Тему - Некоторые веб-мастера верят, что AdSense проверяет не только страницы, на которых размещены объявления, но и весь сайт. Вполне вероятно, что Вы можете не получить релевантную рекламу на страницах своего блога, если пишите на разные темы, расположенные по одному URL. Конечно, это не так существенно, но соблюдение данного условия позволит Вам двигаться в правильном направлении.
7. Проверяйте, Отображаются ли Рекламные Объявления - Это редко случается с объявлениями AdSense, но возможно такое, что веб-мастер прилагает усилия к тому, чтобы добиться отображения релевантных объявлений и в результате обнаруживает, что показывается совсем немного объявлений по его нишевой категории, поскольку она слишком узкоспециализированная. Совсем нетрудно это проверить, например, сделать в Гугле поиск по ключевым словам, по которым Вы хотели бы видеть объявления. И, если страница выданных результатов поиска показывает рекламу, то есть большой шанс, что объявления отобразятся и на Вашем сайте. Если же нет, то, скорее всего, Вам необходимо полнее раскрывать тему в своей нише.
8. Проверяйте, какую рекламу видят другие - Более, чем вероятно, что реклама, которую Вы видите на своем блоге, отличается от той, которую видят Ваши читатели. Это происходит из-за настроек геотаргетинга, т.е. отображения объявления в зависимости от местоположения (географии) читателя. Рекламодатели могут выбирать, каким странам или регионам разрешен показ их объявлений. В результате Ваш регион может иметь меньшую релевантность объявлений, чем другие регионы, поэтому имеет смысл попросить кого-нибудь, кто находится в другой части мира, сказать, какие он видит объявления на Вашем блоге.
9. Блокируйте нерелевантные объявления - AdSense позволяет веб-мастерам блокировать объявления через свои Фильтры Конкурирующих Объявлений. Если Вы наблюдаете объявления, которые не следует отображать на Вашем блоге, то можете заблокировать их, используя данный метод. Безусловно, Вы должны помнить, что объявления, которые видите на своем блоге Вы, специфичны для Вашего местоположения (зависят от IP-адреса), поэтому для Ваших читателей, возможно, показываются совершенно другие объявления. Исходя из этого, блокировка рекламы может быть отчасти бессмысленным занятием.
10. Релевантность рекламы требует времени - Если Ваш блог открыт совсем недавно, и Вы видите, что оторбажается несоответствующая реклама, то причина этого в том, что прошло недостаточно времени. Однако некоторые блоги могут сразу же получить на свои страницы необходимую рекламу, тогда как другим для этого может потребоваться одна-две недели. В последнем случае просто подождите некоторое время.
11. Если сомневаетесь, спросите у AdSense'а - Если у Вас возникают сомнения или затруднения при работе над достижением релевантности объявлений Google AdSense, обращайтесь за помощью в техническую поддержку системы, воспользовавшись формой обратной связи. Письма от русскоязычных пользователей не остаются в стороне, и, возможно, Вы получите полезные ответы. Однако не стоит задавать вопросы, решение которых уже изложено в Справочном Центре AdSense.