Regular Expression - 윈디하나의 솔라나라

분류: 어플리케이션
설명: Regular Expression, BRE, ERE, PCRE 에 대해 설명 (2016-02-01)
위치: 윈디하나의 솔라나라: Regular Expression (처음 오신 분은 윈디하나의 솔라나라 이야기를 읽어주십시오)
윈디하나의 솔라나라 트위터 @solanara

개요

정규표현식(Regular Expression)은 패턴을 사용해 문자열의 매칭 또는 변환을 수행하기 위한 식이다. 패턴이라 함은 특정한 규칙을 가진 문자열을 표현하기 위한 식이다. 유닉스를 비롯해 많은 환경에서 매우 광범위한 용도로 사용하고 있다.
현재 정규표현식은 크게 아래와 같이 나눌 수 있다. (필자가 임의로 나눴다)
- POSIX 기본(POSIX BRE, POSIX Basic Regular Expressions, ISO/IEC/IEEE 9945:2009)
- POSIX 확장(POSIX ERE, POSIX Extended Regular Expressions)
- BSD 표준
- GNU 기본(GNU BRE)
- GNU 확장(GNU ERE)
- PCRE, PCRE2
이중 POSIX 기본 및 확장 정규 표현식은 솔라리스의 각종 유틸리티에서 사용한다. BSD표준도 솔라리스에서 사용되었지만, 지금은 사용되지 않는다. GNU BinUtils에 사용되는 정규표현식은 GNU 기본을 사용하는 유틸리티(grep, sed)와 GNU 확장을 사용할 수 있는 유틸리티(egrep, awk)로 구분되어있다. 마지막으로 펄 호환 정규 표현식은 펄 프로그래밍 언어에서 사용하는 정규표현식을 사용할 수 있다. 이외에도 각종 어플리케이션에서는 각 어플에 맞는 고유한 정규표현식을 가지고 있는 경우가 많다.
정규표현식을 사용하는 유틸리티중 유명한것을 꼽으라면 grep 이 아닐까 한다. 원칙적으로 grep 에 사용되는 식은 제한적인 정규표현식이긴 하지만, 매우 유용하게 사용할 수 있을 것이다. 아래에 몇가지 대표적인 예제를 보였다.
```
$ cat sample
abc
dabc
def
acb
aed
$ cat sample | grep -e 'abc'
abc
dabc
$ cat sample | grep -E 'abc|def'
abc
dabc
def
$ cat sample | grep -E '^abc$'
abc
```
''으로 둘러쌓인 부분이 정규표현식이다.
정규표현식을 구현하는 알고리즘은 크게 세가지다. NFA와 POSIX NFA, DFA가 그것이다. PCRE, Perl, sed(1), vi(1), grep(1)가 NFA를 사용해 구현했고 Java, mawk(1) 는 POSIX NFA 구현을 사용했다. awk(1), nawk(1), egrep(1), lex(1), flex(1) 등은 DFA를 사용했다. NFA, DFA에 대한 설명은 Mastering Regular Expressions - Chapter 4 The Mechanics of Expression Processing를 읽어보자. 인터넷을 검색하면 정규표현식을 NFA나 DFA로 변경하는 방법에 대해 설명한 문서를 쉽게 찾을 수 있다.
이 문서에서는 POSIX 기본/확장 정규표현식을 기본으로, GNU 확장과 펄 확장에 대해 다룬다.
정규표현식과 유사한 표현식으로 파일 매칭에 사용되는 와일드카드 문자(Wildcard Character) 규격이 있다. 파일을 다루는 유틸에서 아래와 같은 형식을 많이 보아왔을 것이다.
- ?: 하나의 문자 또는 없음
- *: 하나 또는 그 이상의 문자 또는 없음
?와 * 는 정규표현식의 .+와 .*에 해당된다.
참조

POSIX BRE

POSIX BRE(이하 BRE)에서 특별한 의미를 가진 문자는 다음과 같다.
(){}123456789.[]\*^$
각 문자에 대한 설명은 아래와 같다.
. 은 괄호 밖에서 사용될 경우 하나 이상의 문자를 의미한다.
[]안의 표현식
- [] 안에 기술된 문자는 각 문자의 매칭을 의미한다.
  예) [abc] - a, b, c 중 하나의 문자에 매칭
- [ 뒤에 오는 ^ 은 not 의 의미다.
  예) [^abc] - a, b, c 가 아닌 문자에 매칭
- ., *, [, \ 문자는 []안에서 특수문자로 취급하지 않는다.
- [., .]: 콜레이션(Collation, 정렬이나 검색을 위해 문자를 비교할 때 사용하는 규칙)에서 특별한 심볼을 지정. 한국어에서는 해당 없다.
  예) [.ch.] - ch 심볼을 의미.
- [=, =]: 콜레이션(Collation)에서 특별한 심볼을 지정. 한국어에서는 해당 없다.
  예) [=a=] - aa`a^ 심볼을 의미
- [:alnum:], [:cntrl:], [:lower:], [:space:], [:alpha:], [:digit:], [:print:], [:upper:], [:blank:], [:graph:], [:punct:], [:xdigit:], [:name:] 1): 각 콜레이션에 맞는 캐릭터를 의미한다. alnum(영문숫자), cntrl(제어문자), lower(소문자), space(공백문자), alpha(알파벳), digit(숫자), print(출력가능문자), upper(대문자), blank(빈문자(공백문자 및 탭)), graph(출력가능하고볼수있는문자), punct(문장부호(.,;:)), xdigit(16진수숫자), name(LC_CTYPE 에 정의된 문자)
- - 은 범위를 지정한다. 예를 들어 [a-z] 은 a ~ z 문자를 의미한다. [ac-] 은 a, c, - 문자를 의미한다. [0-9] 은 0 ~ 9 까지의 문자를 의미한다.
1) 솔라리스 기본 정규표현식에서는 콜레이션 관련 브래킷([..], [==], [::])을 지원하지 않는경우가 있다. 따라서 솔라리스의 일부 번들 프로그램에서는 [::]을 이용한 정규표현식을 사용할 수 없다.
사용예) [0-9[:space:][=a=]def.\]
다중 문자 매칭
- : 각 부 표현식을 그룹으로 묶어줄때 사용한다. 예) $a[bc]$$[bc]a$ - a 다음에 b또는 c가 와야하고, 다시 b또는 c가 온 후 a가 온 경우, 첫 두 글자를 1번 그룹, 다음 두 글자를 2번그룹으로 나눈다.
- \n: 백 레퍼런스 표현식. n은 1~9까지의 숫자. 그룹에 매치된 값을 표현한다. 매치될 값이 없다면 매치 실패로 간주한다. 예) $a[bc]*$\1 - a 다음에 b 또는 c가 와야하고 이 규칙을 한번 더 적용한다. 즉 ab 는 매칭되지 않고 abac 는 매칭된다.
- \{m\}, \{m,n\}, \{m,\}, \{,n\}: \{m\}은 m 회 매칭을 의미하고, \{m,n\}은 m회~n회 매칭됨을 나타낸다. \{m,\}은 m회 이상, \{,n\}은 n회 이하 매칭되는 것을 의미한다.
- *: 괄호 밖에서 사용될 경우 앞의 문자에 매치되지 않거나 하나 이상 매치됨을 나타낸다. {0,}와 동일한 의미다. 예) [ab]* - [], [ab], [ab][ab], [ab][ab][ab] ...에 매치되는 것을 의미한다.
주의) \n에 매치된 표현식이 두개 이상 있는 경우 마지막 매칭된 심볼들을 따라간다. 예를 들어 ^$ab*$*\1$ 는 ababbabb 와 매치되지만, ababbab에는 매치되지 않는다. ([0-9])\1+의 경우 222는 매치되지만 234는 매치되지 않는다.
앵커
- ^: 정규표현식의 시작을 의미
- $: 정규표현식의 끝을 의미
사용예) 정규표현식 ^abc$ 은 abc 는 매칭되지만 abcd 는 매칭하지 못한다.
우선순위
- [==] [::] [..]
- \<특수문자>
- []
-  \n
- * \{m,n\}
- 나머지
- ^ $
쉽게 말해 콜레이션 관련 특수문자가 먼저 해석되고 다중 문자에 이어 ^ 와 $ 가 가장 마지막에 해석된다.

POSIX ERE

POSIX BRE에 비해 아래와 같이 추가되거나 삭제되어있다.

다중 문자 매칭
- 다중 문자 매칭임을 표시하기 위한 \ 은 사용하지 않아도 된다. 즉 \{1\} 이 아니라 {1} 을 사용할 수 있다.
- + 가 추가되었다. {1,}와 동일한 의미다
- ? 가 추가되었다. {,1}와 동일한 의미다
| 이 추가되었다. 두개의 표현식 중 하나에 해당되면 매칭. 예를 들어 정규표현식 a((bc)|d) 의 경우 abc 또는 ad 에 매칭한다. 단 abcd 는 매칭하지 않는다.
백 레퍼런싱(\n)은 삭제
\ 은 사용하지 않아도 된다.  → ( ), \{ \} → { }
우선순위
- [==] [::] [..]
- \<특수문자>
- []
- ()
- * {m,n}
- 나머지
- ^ $
- |
우선순위는 POSIX BRE와 별로 다르지 않다. | 이 마지막에 해석되는 것에 주의하자.

GNU BRE/ERE

GNU BRE는 GNU grep 에서 사용하는 문법이다. POSIX BRE에서 아래와 같이 확장되었다.
- ** 를 허용. * 와 같은 의미.
- \+, \?, \| 사용 가능. 의미는 POSIX ERE 의 +, ?, | 와 동일
GNU ERE는 GNU egrep 에서 사용하는 문법이다. POSIX ERE에서 아래와 같이 확장되었다. [grep -E]에서도 사용된다.
- 백 레퍼런싱 지원
GNU 공통(GNU BRE, GNU ERE가릴것 없이 아래와 같이 확장)
- \w, \W, \s, \S: (shorthand classes라 부른다)[[:alnum:]_], [^[:alnum:]_], [[:space:]], [^[:space:]]을 의미. [\D\S]와 [^\d\s]는 같지 않다!
- \b, \B: 단어의 바운더리 포지션. \B는 not \b 의 의미. \b 는 \<, \> 와 같다고 보면 된다.
- \<, \>: 단어의 시작과 끝. 정규표현식 전체의 시작과 끝이 ^, $ 임을 상기하자.
- \`, \': 버퍼(라인)의 시작과 끝.
예) \brat\b 의 경우 rat 은 매치하지만, crat 은 매치되지 않는다. \Brat\B 의 경우 crate 에 매치되지만, dirty rat 에 매치되지 않는다.

PCRE

설치

libedit
- 강력한 편집 기능을 가진 CLI를 쉽게 구현할 수 있도록 해주는 라이브러리
- 공식홈페이지: Editline Library (libedit) - Port of NetBSD Command Line Editor Library
- 이 라이브러리는 NetBSD Editline 라이브러리의 autotools, libtoolize 가능한 판이다. (다른 시스템에서도 사용할 수 있도록 포팅되었다는 의미다) GNU Readline 라이브러리와 동일한 기능을 하고 같은 메소드를 제공해준다. GNU Readline 은 GPL 라이선스(LGPL라이선스가 아니다!), libedit 는 BSD스타일의 라이선스를 가지고 있다.
- 솔라리스 11에는 번들되어있다.
```
# wget http://thrysoee.dk/editline/libedit-20210714-3.1.tar.gz
# tar xvfz libedit-20210714-3.1.tar.gz
# cd libedit-20210714-3.1
# ./configure CFLAGS="-m64"
# vi src/vis.c 2)
#define MIN(a,b) (((a)<(b))?(a):(b))
#define MAX(a,b) (((a)>(b))?(a):(b))
# make 1)
# sudo make install
```
1) GNUAwk 4.x 가 필요하다.
2) Linux 에는 /usr/include/sys/param.h에 MIN, MAX 매크로가 있지만 솔라리스에는 없다. 매크로를 추가해준다.

Perl Compatible Regular Expressions

펄 호환 정규 표현식 라이브러리
공식홈페이지: PCRE - Perl Compatible Regular Expressions
솔라리스 11에는 번들되어있다.
libedit 필요

# wget https://ftp.pcre.org/pub/pcre/pcre-8.45.tar.bz2
# tar xvfj pcre-8.45.tar.bz2
# cd pcre-8.45
# ./configure CFLAGS="-I/usr/local/include"\
  --enable-utf \
  --enable-unicode-properties \
  --enable-pcregrep-libz \
  --enable-pcregrep-libbz2 \
  --enable-newline-is-anycrlf \
  --enable-pcre16 \
  --enable-pcre32 \
  --enable-jit \
  --enable-pcretest-libedit \
  CFLAGS="-m64" LDFLAGS="-m64" CXXFLAGS="-m64" 1)
# make
# sudo make install

1) pcretest에 라인 편집 기능이 필요하지 않다면 이 줄을 제외하고 빌드 해도 된다.

펄 정규표현식

Perl regular expressions를 읽어보자. 또한 pcresyntax(3)을 읽어보자.

구현

regexp_pcre.c

(830 바이트)

/*
    PCRE Sample
    WindyHana's Solanara http://www.solanara.net/solanara/regexp
    cc -o regexp_pcre -lpcre -I/usr/local/include -L/usr/local/lib regexp_pcre.c
*/
#include <stdio.h>
#include <string.h>
#include <pcre.h>

/*
* Match string against the extended regular expression in
* pattern, treating errors as no match.
*
* return 1 for match, 0 for no match
*/
#define OVECCOUNT 30
int match(const char *string, char *pattern) {
	int status;
	pcre *re;
	const char *error;
	int erroffset;
	int ovector[OVECCOUNT];
	re = pcre_compile(pattern, 0, &error, &erroffset, NULL);
	status = pcre_exec(re, NULL, string, strlen(string), 0, 0, ovector, OVECCOUNT);
	pcre_free(re);
	return status >= 1;
}

int main(int argc, char *argv[]) {
    printf("%s\n", match("Hello World", ".*") == 1 ? "match" : "no match");
    return 0;
}

pcretest

pcretest(1)은 pcre를 테스트해볼 수 있는 툴이다.

root@ ~ # pcretest -d -t
PCRE version 8.34 2013-12-15

  re> /(a|bc)x+yz/
Compile time 0.0032 milliseconds
------------------------------------------------------------------
  0  26 Bra
  3   7 CBra 1
  8     a
 10   7 Alt
 13     bc
 17  14 Ket
 20     x++
 22     yz
 26  26 Ket
 29     End
------------------------------------------------------------------
Capturing subpattern count = 1
No options
No first char
Need char = 'z'
data> abyz
Execute time 0.0017 milliseconds
No match
data> axyz
Execute time 0.0007 milliseconds
 0: axyz
 1: a
data>

pcregrep

pcregrep(1)은 grep(1)과 유사하지만 pcre 를 사용할 수 있는 grep 이다. pcregrep man page를 참조하자.

PCRE2

설치

Perl Compatible Regular Expressions 2

펄 호환 정규 표현식 라이브러리 2
공식홈페이지: PCRE - Perl Compatible Regular Expressions
PCRE의 두번째 버전이다. PCRE 라이브러리와는 호환되지 않는다. 변경 사항은 [pcre-dev] PCRE2 is released을 읽어보자.
libedit 필요

# wget ftp://ftp.csx.cam.ac.uk/pub/software/programming/pcre/pcre2-10.32.tar.bz2
# tar xvfj pcre2-10.32.tar.bz2
# cd pcre2-10.32
# ./configure CFLAGS="-I/usr/local/include"\
  --enable-pcre2-16 \
  --enable-pcre2-32 \
  --enable-jit \
  --enable-rebuild-chartables \
  --enable-newline-is-anycrlf \
  --enable-pcre2grep-libz \
  --enable-pcre2grep-libbz2 \
  --enable-pcre2test-libedit \
  --with-pcre2grep-bufsize=40960 \
  CFLAGS="-m64" LDFLAGS="-m64"
# make
# make install

구현

regexp_pcre2.c

(1,713 바이트)

/*
    PCRE2 Sample
    WindyHana's Solanara http://www.solanara.net/solanara/regexp
    cc -o regexp_pcre2 -lpcre2-8 -I/usr/local/include -L/usr/local/lib regexp_pcre2.c
*/
#include <stdio.h>
#include <string.h>
#define PCRE2_CODE_UNIT_WIDTH 8
#include <pcre2.h>

/*
* Match string against the extended regular expression in
* pattern, treating errors as no match.
*
* return 1 for match, 0 for no match
*/
#define OVECCOUNT 30
int match(const char *string, char *pattern) {
	int status;
	int errornumber;
	pcre2_code *re;
	pcre2_match_data *match_data;
	PCRE2_SIZE erroroffset;
	PCRE2_SIZE *ovector;

	re = pcre2_compile((const unsigned char*) pattern, PCRE2_ZERO_TERMINATED, 0, &errornumber, &erroroffset, NULL);
	if (re == NULL) {
		PCRE2_UCHAR buffer[256];
		pcre2_get_error_message(errornumber, buffer, sizeof(buffer));
		printf("PCRE2 compilation failed at offset %d: %s\n", (int) erroroffset, buffer);
		return 0;
	}
	match_data = pcre2_match_data_create_from_pattern(re, NULL);
	status = pcre2_match(re, (const unsigned char*) string, strlen(string), 0, 0, match_data, NULL);
	if (status < 0) {
		switch (status) {
			case PCRE2_ERROR_NOMATCH: printf("PCRE2 No match\n"); break;
			default: printf("PCRE2 Matching error %d\n", status); break;
		}
		pcre2_match_data_free(match_data);
		pcre2_code_free(re);
		return 0;
	}
	ovector = pcre2_get_ovector_pointer(match_data);
//	printf("Match succeeded at offset %d\n", (int)ovector[0]);
	
	pcre2_match_data_free(match_data);
	pcre2_code_free(re);
	return status >= 1;
}

int main(int argc, char *argv[]) {
    printf("%s\n", match("Hello World", ".*") == 1 ? "match" : "no match");
    return 0;
}

pcre2test

pcre2test(1)은 PCRE2를 테스트해볼 수 있는 툴이다. 자세한 설명은 MAN페이지를 참조하자.

pcre2grep

pcre2grep(1)는 PCRE2를 사용한 grep 이다. 자세한 설명은 MAN페이지를 참조하자.

샘플

몇가지 유용한 정규표현식 샘플을 담았다. 모든 샘플은 POSIX ERE를 따랐다.

메일 주소
메일 주소를 나타내는 규약은 꽤 복잡하다. 메일 주소를 나타내는 표준 규약인 RFC 2822 - Internet Message Format에 의하면 아래와 같이 표현한다.
(?:[a-z0-9!#$%&'*+/=?^_`{|}~-]+(?:\.[a-z0-9!#$%&'*+/=?^_`{|}~-]+)*|"(?:[\x01-\x08\x0b\x0c\x0e-\x1f\x21\x23-\x5b\x5d-\x7f]|\\[\x01-\x09\x0b\x0c\x0e-\x7f])*")@(?:(?:[a-z0-9](?:[a-z0-9-]*[a-z0-9])?\.)+[a-z0-9](?:[a-z0-9-]*[a-z0-9])?|\[(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?|[a-z0-9-]*[a-z0-9]:(?:[\x01-\x08\x0b\x0c\x0e-\x1f\x21-\x5a\x53-\x7f]|\\[\x01-\x09\x0b\x0c\x0e-\x7f])+)\])
예를 들자면, !#$%&*+-/=?^_`{}|~@[192.168.0.100]도 올바른 메일 주소다. 하지만 현실적으로 아래와 같은 정규표현식만으로도 대부분의 이메일 주소는 매칭할 수 있을 것이다. 아래 식은 HTML 5에서 input 태그의 type="email" 에 사용되는 정규표현식이다. (4.10.7.1 States of the type attribute - E-Mail STATE에서 발췌)
^[a-zA-Z0-9.!#$%&'*+/=?^_`{|}~-]+@[a-zA-Z0-9-]+(?:\.[a-zA-Z0-9-]+)*$
URL
URL 패턴은 아래와 같이 인식할 수 있다.
(http|https)://([\w-]+\.)+[\w-]+(/[\w- ./?%&=]*)?
IPv4
IPv4는 0.0.0.0 ~ 255.255.255.255 까지의 주소다. 아래는 999.999.999.999 까지 매칭되지만, IP 적합성 여부는 소프트웨어적으로 하는 것이 좋다는게 내 생각이다. (25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)형식의 정규표현식을 사용할 필요는 없다는게 내 생각이다.
\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}

구현

솔라리스도 정규 표현식 라이브러리를 제공하지만, 아마 많은 경우 사용하지 않을 것이다. 유닉스마다 또는 리눅스 배포판마다 사용방법이 미묘하게 다르기 때문에, 시스템에서 제공하는 라이브러리를 사용하느니 차라리 미리 구현되어있는 라이브러리를 배포판에 포함하는 것이 더 편리하기 때문이다. 주로 regex - Henry Spencer's regular expression libraries 나 PCRE - Perl Compatible Regular Expressions를 번들에 포함시키는게 더 편리하다. 솔라나라에서는 솔라리스 번들된 정규표현식 라이브러리의 사용방법에 대해 간단히 설명하겠다.

POSIX

다양한 형태의 정규 표현식 함수를 지원해준다.

regcomp, regexec

regcomp(3c), regexec(3c), regerror(3c), regfree(3c) 을 사용한 예제다.

regexp_posix.c

(829 바이트)

/*
    Regular Expression Sample
    WindyHana's Solanara http://www.solanara.net/solanara/regexp
    cc -o regexp_posix regexp_posix.c
*/
#include <stdio.h>
#include <regex.h>

/*
* Match string against the extended regular expression in
* pattern, treating errors as no match.
*
* return 1 for match, 0 for no match
*/
int match(const char *string, char *pattern) {
      int status;
      regex_t re;
      if (regcomp(&re, pattern, REG_EXTENDED | REG_NOSUB) != 0) {
           return(0);      /* report error */
      }
      status = regexec(&re, string, (size_t) 0, NULL, 0);
      regfree(&re);
      if (status != 0) {
            return(0);      /* report error */
      }
      return(1);
}

int main(int argc, char *argv[]) {
    printf("%s\n", match("Hello World", ".*") == 1 ? "match" : "no match");
    return 0;
}

regcmp, regex

regcmp(1), regcmp(3c), regex(3c) 을 사용한 예제다.

regexp_regcmp.c

(770 바이트)

/*
    Regular Expression Sample
    WindyHana's Solanara http://www.solanara.net/solanara/regexp
    cc -o regexp_regcmp regexp_regcmp.c
*/
#include <stdio.h>
#include <stdlib.h>
#include <libgen.h>

/*
* Match string against the extended regular expression in
* pattern, treating errors as no match.
*
* return 1 for match, 0 for no match
*/
int match(const char *string, char *pattern) {
      char *newcursor, *ptr;
      char ret[9];
      ptr = regcmp(pattern, (char *)0); // ptr equal result of regexp(1) "char ptr[] = {021, 064, 00, 0};"
      newcursor = regex(ptr, string, ret);
      free(ptr);
      return(newcursor != NULL);
}
 
int main(int argc, char *argv[]) {
    printf("%s\n", match("Hello World", ".*") == 1 ? "match" : "no match");
    return 0;
}

regexp

regexp(5) 을 사용한 예제다.

regexp_regexp.c

(881 바이트)

/*
    Regular Expression Sample
    WindyHana's Solanara http://www.solanara.net/solanara/regexp
    cc -o regexp_regexp regexp_regexp.c
*/
#include <stdio.h>
#include <stdlib.h>

#define INIT       register char *sp = instring;
#define GETC()     (*sp++)
#define PEEKC()    (*sp)
#define UNGETC(c)  (--sp)
#define RETURN(c)  return;
#define ERROR(c)   regerr()
#include <regexp.h>

#define ESIZE 100;
/*
* Match string against the extended regular expression in
* pattern, treating errors as no match.
*
* return 1 for match, 0 for no match
*/
int match(const char *string, char *pattern) {
	char expbuf[100];

	compile(pattern, expbuf, &expbuf[100],'\0');

	if (step(string, expbuf)) {
		return 1;
	}
	return 0;
}

int regerr() {
	printf("ERROR");
}

int main(int argc, char *argv[]) {
    printf("%s\n", match("Hello World", ".*") == 1 ? "match" : "no match");
    return 0;
}

GNU

아래 예제는 GNU의 regexp 를 사용하는 예제로, 솔라리스에서는 컴파일되지 않는다.

regexp_gnu.c

(893 바이트)

/*
    Regular Expression Sample
    WindyHana's Solanara http://www.solanara.net/solanara/regexp
    gcc -o regexp_gnu regexp_gnu.c
*/

#include <stdio.h>
#include <regex.h>
#include <string.h>

/*
* Match string against the extended regular expression in
* pattern, treating errors as no match.
*
* return 1 for match, 0 for no match
*/
int match(const char *string, char *pattern) {
      int status;
      struct re_pattern_buffer re;

      re.translate = 0;
      re.fastmap = 0;
      re.buffer = 0;
      re.allocated = 0;
      
      if (re_compile_pattern(pattern, strlen(pattern), &re)) {
           return(0);      /* report error */
      }
      status = re_match(&re, string, strlen(string), 0, NULL);
      regfree(&re);
      return status > 0;
}

int main(int argc, char *argv[]) {
    printf("%s\n", match("Hello World", ".*") == 1 ? "match" : "no match");
    return 0;
}

BSD

regexp_bsd.c

(567 바이트)

/*
    Regular Expression Sample
    WindyHana's Solanara http://www.solanara.net/solanara/regexp
    cc -o regexp_bsd regexp_bsd.c
*/

#include <stdio.h>
#include <re_comp.h>

/*
* Match string against the extended regular expression in
* pattern, treating errors as no match.
*
* return 1 for match, 0 for no match
*/
int match(const char *string, char *pattern) {
	if (re_comp(pattern) == 0) {
		return re_exec(string);
	}
	return 0;
}

int main(int argc, char *argv[]) {
    printf("%s\n", match("Hello World", ".*") == 1 ? "match" : "no match");
    return 0;
}

RSS ATOM XHTML 5 CSS3