본문 바로가기

Biusiness Insight/Computer Science

[Python] Regular Expressions (파이썬 정규표현식)


Regular Expression (정규표현식) 정의 : 문자열에 대한 표현을 메타 문자로 표기하는 것

Regular Expression 실행 : 실제 문자열을 정규표현식과 매칭여부 검증

import re


Matches the beginning of a line
문자열의 처음과 일치 (행의 시작)


Matches the end of the line
문자열의 마지막과 일치 (행의 마지막)


Matches any character
모든 문자와 일치, 개행문자(\n) 제외


Matches whitespace
공백 문자와 매치 (\t, \n, \r, \f, \v)


Matches any non-whitespace character
공백 문자가 아닌 문자와 매치 


Repeats a character zero or more times 

0회 이상 반복


Repeats a character zero or more times (non-greedy)
0회 이상 반복 (최소일치)

+Repeats a character one or more times
1회 이상 반복
+?Repeats a character one or more times (non-greedy)
1회 이상 반복 (최소 일치)

Matches a single character in the listed set
소문자와 일치

[^XYZ]Matches a single character not in the listed set

The set of characters can include a range
범위내에 해당하는 문자, 숫자 (ex. 숫자찾기 - find_num = re.findall('[0-9]+',text) )


Indicates where string extraction is to start
( ) 괄호 안의 내용을 그룹화, reference를 생성

)Indicates where string extraction is to end
( ) 괄호 안의 내용을 그룹화, reference를 생성을 종료

 match( )

 문자열의 처음부터 정규식과 일치하는지 확인

 search( )

 정규식과 일치하는지 문자열 전체에서 검색

 findall( )

 정규식과 일치하는 모든 문자열(substring)을 리스트로 반환 

 finditer( )

 정규식과 일치하는 모든 문자열(substring)을 iterator 객체로 반환

 sub( )

 정규식과 일치하면 변경

 split( ) 정규식과 일치하면 split 하여 반환
