]> Редактор регулярных выражений Jesper K. Pedersen
blackie@kde.org
2001-07-03 0.1 &underFDL; 2001 Jesper K. Pedersen Это руководство описывает редактор регулярных выражений, встраиваемый в приложения KDE. KDE регулярное выражение
Введение Редактор регулярных выражений предназначен для редактирования регулярных выражений в графическом виде (в отличие от текстовых строк). Традиционно, регулярные выражения имеют ASCII-синтаксис, к примеру: ^.*kde\b. Основными недостатками данного стиля являются: Сложность применения для людей, не занимающихся программированием. Необходимость экранировать определённые символы (например, чтобы использовать символ звёздочки, придётся набрать \*). Необходимость постоянно помнить и соблюдать правила приоритетов выполнения - что делает операция x|y*? Значение x или множество y, ИЛИ множества x и y смешаны? Редактор регулярных выражений позволяет рисовать регулярные выражения. Он позволяет решить проблемы, изложенные в пунктах два и три выше. Делает ли редактор простым и доступным использование регулярных выражений для всех — покажет практика. Если вы не программист, который мастерски манипулирует всей мощью регулярных выражений — сообщите нам своё мнение. Что такое регулярное выражение? Регулярные выражения являются способом записи условий, которыми мы обычно мысленно описываем ситуацию. Обычно в текстовом редакторе для поиска вы используете какие-то конкретные строки, однако использование регулярных выражений позволяет описать: на что должен быть похожим искомый текст. К примеру, Я ищу слово KDE, стоящее только в начале строки, или Я ищу слово под, но только как слово целиком, или Я ищу файлы, начинающиеся со слова test и последующих цифр, к примеру test12, test107 и test007 Регулярные выражения можно составлять из более мелких регулярных выражений, подобно тому как строятся большие дома из маленьких кирпичей. Так как в строительстве существует множество материалов, то далее мы постараемся на примерах рассказать об основных «кирпичах», тем самым заложив фундамент для построения регулярных выражений. Поиск обычного текста Оговоримся сразу, что регулярные выражения не являются наилучшим способом поиска конкретных строк в тексте. Причина кроется в том, что в регулярных выражениях некоторым символам присвоены специальные значения. Среди них следующие: .*|$. Таким образом, если вы хотите найти в тексте kde. (то есть слово kde с точкой), то придётся набрать kde\. Редактор регулярных выражений выполнит все необходимые формальности за вас, записав \. вместо ., то есть подставив управляющую последовательность (escape sequence, также это было названо экранированием выше) вместо символа. Поиск интернет-адресов При выделении текста похожего на URL в KDE программа klipper, если она настроена соответствующим образом, предложить вам открыть этот URL при помощи konqueror. Klipper осуществляет свой выбор, руководствуясь результатами сопоставления нескольких регулярных выражений, и когда одно из регулярных выражений совпадает с искомым, тогда и будет предложен подходящий вариант. Регулярное выражение для URL содержит (помимо всего прочего) условие, что текст должен начинаться с http://. С помощью регулярного выражения это условие можно описать следующим образом: http:// со «шляпой» (с символом ^). Предыдущий пример показывает, как с помощью регулярных выражений можно указать расположение искомого фрагмента в тексте (сравнение по позиции). Аналогично можно указать на то, что искомый фрагмент находится в конце строки , для этого используется символ $ (символ доллара). Поиск слова <literal >the</literal >, но не <emphasis >the</emphasis ><literal >re</literal >, <literal >brea</literal ><emphasis >the</emphasis > или <literal >ano</literal ><emphasis >the</emphasis ><literal >r</literal > По образу и подобию вышеизложенного могут быть указаны ещё два дополнительных условия при поиске, а именно: позиция на границе слова (в начале, либо конце) и не на границе слова. Для обозначения этих условий применяются обозначения \b (указание на границу слова) и \B (не на границе слова). Таким образом, слово the можно найти, воспользовавшись регулярным выражением \bthe\b. Этим мы указываем, что ищем просто слово the без каких-бы то ни было «довесков» перед и после слова (т.е с границами по каждой из сторон фразы). Все четыре типа указания на расположение, использующиеся в регулярных выражениях, включены в редактор, см. четыре различных типа расположения Поиск всех <literal >this</literal > или <literal >that</literal > Представьте себе, что вы хотите найти в документе слово this или слово that. При обычном поиске вам необходимо сделать два прохода: в первый произвести поиск слова this, во второй — that. Используя регулярные выражения, сделать всё это можно за один приём. Для этого запишите выражение следующим образом: this|that, т.е. разделите оба искомых слова вертикальной чертой.Обратите внимание, что по обе стороны от вертикальной черты могут находиться не только искомые слова, но и два регулярных выражения. В редакторе регулярных выражений вы не вводите вручную вертикальную черту, а активируете инструмент Варианты и вводите регулярные выражения в отдельные поля. Поиск произвольных символов Регулярные выражения часто сравнивают с шаблоном, использующемся в командном интерпретаторе (оболочке), где можно выбрать несколько файлов, используя звёздочку. Вы без всякого сомнения узнаете шаблон в следующих примерах: ls *.txt — здесь *.txtявляется шаблоном, указывающим на то, что необходимо показать все файлы с расширением .txt cat test??.res — вывод всех файлов, имена которых начинаются с test, за которым следуют два любых символа, и заканчиваются на .res. В оболочке звёздочка указывает, что любой символ может встретиться в названии любое количество раз, другими словами, звёздочка означает всё, что угодно. В регулярном выражении подобное условие задаётся при помощи записи .*. Точка указывает, что может быть один произвольный символ, в свою очередь звёздочка сообщает, что предыдущее регулярное выражение может повторяться любое количество раз. Вместе они задают условие поиска: любой единичный символ может быть встречен произвольное количество раз. Это может на первый взгляд показаться чрезмерно сложным, но когда вы увидите всю картину работы регулярных выражений, то сможете по достоинству оценить всё их изящество. Позвольте продемонстрировать ещё одно основное выражение: a. Эта запись указывает, что регулярное выражение ищет соответствие одиночному символу a. Если объединить эту запись со звёздочкой, т.е. a*, то получится регулярное выражение соответствующее любому количеству символов «a» подряд. Можно объединять несколько регулярных выражений последовательно, например ba(na)*. Запись (na)* указывает, что строка в скобках может повторяться любое количество раз. Представьте себе, что работая в текстовом редакторе, необходимо найти следующие слова: ba, bana, banana, bananananananana Как сказано выше, не составляет труда записать шаблон оболочки: test??.res через регулярное выражение: test..\.res. Точка означает любой символ. Для того чтобы указать, что нужна именно точка, вы должны записать \. Здесь использована управляющая последовательность. Во всех словах регулярное выражение \. означает собственно точку, а просто точка — соответствие любому символу в данной позиции. В редакторе регулярных выражений повторяющиеся выражения могут быть вставлены с использованием инструмента Повторение Замена <literal >&</literal > на <literal >&amp;</literal > в документе HTML. Для показа на странице HTML специального символа &, его необходимо записывать как &amp; — по аналогии с тем, как происходит замена служебных символов на управляющие последовательности в регулярных выражениях. Представьте себе, что вы набрали документ HTML в обычном текстовом редакторе (XEmacs, Kate или Notepad), и полностью забыли про эти правила. Для того чтобы устранить ошибку, необходимо заменить все символы & на &amp;. Эта операция может быть достаточно просто реализована с использованием традиционных средств поиска и замены, однако возможны некоторые осложнения. Представьте себе, что что вы периодически вспоминали об этих правилах, т.е. местами у вас записано правильно. В этом случае все ошибочные варианты будут заменены на правильные &amp;, а в тех местах, где было записано правильно, возникнет новая ошибка: &amp;amp; На самом деле вы хотите произвести замену записи & только в том случае, если за ней не стоит amp;. Для этого нужно задать ограничение на контекст (т.е. то, что будет непосредственно после найденного текста). Для того чтобы указать, при котором за искомым текстом не должно стоять amp;, необходимо записать следующее выражение: &(?!amp;). Гораздо проще всё будет выглядеть в редакторе регулярных выражений, если вы воспользуетесь инструментом Упреждающий поиск по отрицанию. Работа с редактором регулярных выражений В этой главе рассказывается о работе непосредственно с редактором регулярных выражений. Окно редактора Наиболее важной частью редактора является область редактирования: это область, в который вы рисуете регулярные выражения. Область имеет серый цвет и расположена в центре окна редактора. Выше области редактирования расположены две панели инструментов. Первая панель содержит средства редактирования и очень похожа на инструменты для рисования в графических программах. Вторая панель содержит кнопку Что это? и кнопки отмены и повтора. Ниже области редактирования находится строка регулярного выражения в текстовом (ASCII) виде. Все изменения, вносимые в графическом редакторе переносятся в текстовую форму. Если вы захотите поправить регулярное выражение в текстовом виде, то все изменения также будут внесены в графическое представление. Наконец, слева от области редактирования есть много заготовок регулярных выражений. Они служат для достижения двух целей: (1) когда вы используете редактор, эти выражения являются более качественными или, если хотите, более исчерпывающими, заменяя общие регулярные выражения. На рисунке выше вы можете увидеть, как текстовое представление «.*» заменяется на шаблонное «всё что угодно».(2) Вы можете использовать эти заготовки в качестве строительного материала для построения своих регулярных выражений. За более исчерпывающей информацией обратитесь к разделу Регулярные выражения, определяемые пользователями, где содержится подробная информация о том, как сохранить ваши собственные регулярные выражения. Средства редактирования В этой главе предполагается, что вы изучили главу Что такое регулярные выражения ? и имеете представление, о чём идёт речь. Все инструменты расположены на панели инструментов выше области редактирования. Далее будет описан каждый из инструментов. Выделение Выделение предназначено для обозначения элементов, подлежащих копированию, вставке или перетаскиванию. Выделение работает также как и в обычных программах для работы с графикой. Текст Используя этот инструмент, вы можете вставить обычный текст, при этом не заботясь о необходимости экранирования специальных символов. Далее в примере будет создано регулярное выражение: abc\*\\\) Один символ, определённый в диапазоне значений Используя этот инструмент, вы определяете области символов. К примеру, что в тексте содержатся символы [0-9], [^a-zA-Z,_]. Если вы воспользовались данным инструментом, то должен появиться диалог, в котором определяются области символов. См. также Повторение регулярных выражений. Любой символ Регулярное выражение «точка» (.). Точка соответствует любому одиночному символу. Повторение Повторяющиеся элементы (квалификаторы). Включают в себя звёздочку (*), плюс (+), знак вопроса (?) и интервал ({3,5}). Если вы используете этот инструмент, то появится диалог, в котором вы должны указать необходимое количество повторов. Вы определяете, что требуется повторять, рисуя его внутри рамки, которая появляется при использовании данного инструмента. Повторяемые элементы выражения можно взять извне, затем поместить в квадрат. Также вы можете сперва нарисовать то что потом должно будет быть повторено, а затем выбрать инструмент повторения. И наоборот: вы можете сперва вставить символ повторения (квалификатор), а затем нарисовать внутри него повторяемое. См. Повторение регулярных выражений. Варианты Задание альтернативы — это использование оператора (|). Вы рисуете другой вариант поверх имеющегося, после того как в редакторе появится новая рамка для ввода. См. раздел Варианты в регулярных выражениях Составное регулярное выражение Этот инструмент — не регулярное выражение. Оно позволяет группировать блоки для того, чтобы вы могли их легко использовать, руководствуясь только названиями. Это видно в правой части рисунка. Начало и конец строки Инструменты начала и конца строк указывают на соответствие условиям начала и конца строки. Регулярное выражение в приведённом выше примере окна редактора не содержит операторов соответствия началу или концу строк. См. Позиционирование в регулярных выражениях. Границы слов Инструментальные средства границ позволяют задавать условия соответствие границам или содержимому слова. Регулярное выражение, изображённое на рисунке, совпадает с любыми словами, начинающимися с the. Само слово the однако не совпадает с этим условием. См. описание в разделе Границы слов в регулярных выражениях. Упреждающий поиск Запрет или разрешение того, чтобы после найденного текста шёл текст, отвечающий указанному шаблону. Этот текст, тем не менее, не будет являться частью результата. Примечание: разрешается устанавливать такие условия только в конце регулярного выражения. Редактор регулярных выражений не следит за этим. См. описание в разделе Упреждающий поиск. Регулярные выражения, определяемые пользователем Слева от области редактирования расположен список регулярных выражений, определяемых пользователем. Несколько регулярных выражений занесено в этот список непосредственно после установки KDE, тогда как другие вы можете внести и сохранить самостоятельно. Данные регулярные выражения обеспечивают достижение двух целей: (см. более подробное описание), а именно: 1) Обеспечивают блоки для компоновки регулярных выражений 2) делают регулярные выражения более понятными. Вы можете сохранить ваши собственные регулярные выражения, щёлкнув правой кнопкой мыши в области редактирования и выбрав пункт Сохранить регулярное выражение в появившемся меню. Если регулярное выражение сохраняется в составе контейнера, то оно может участвовать в создании последующих регулярных выражений. Регулярные выражения, определяемые пользователем, могут быть переименованы или удалены щелчком правой кнопки мыши на их названии в списке и выбором соответствующего пункта в появившемся меню. Как сообщить о пожеланиях и замеченных ошибках? Замеченные ошибки и пожелания направляйте в систему отслеживания ошибок, но сначала убедитесь в том, что подобная ошибка ещё не была зафиксирована. Вопросы и ответы Поддерживает ли редактор регулярных выражений обратные ссылки? В настоящий момент нет, но планируется к реализации в следующей версии. Будет ли в редакторе регулярных выражений предусмотрена возможность показа совпадений? Нет, но будем надеяться, что это будет реализовано в будущем. Я являюсь автором программы для KDE, как я могу использовать ваш редактор в своём приложении? См. ссылку Документация для класса KRegExpEditorInterface Я не могу найти кнопку <emphasis >Изменить</emphasis > регулярное выражение, допустим, в konqueror, после переустановки KDE 3. Почему? Редактор регулярных выражений содержится в пакете tdeutils. Если вы не установили этот пакет, то кнопка Изменить регулярное выражение не появится в соответствующих программах. Лицензия и благодарности Документация © 2001, Jesper K. Pedersen blackie@kde.org,Перевод на русский язык © 2002 Клютченя А.Л. asoneofus@kde.ru. Редактирование перевода © 2004, 2007 Шафоростов Н. shaforostoff@kde.ru &underGPL; &underFDL;