출처
: Programmers
문제
카카오에 입사한 신입 개발자 네오
는 “카카오계정개발팀”에 배치되어, 카카오 서비스에 가입하는 유저들의 아이디를 생성하는 업무를 담당하게 되었습니다. “네오”에게 주어진 첫 업무는 새로 가입하는 유저들이 카카오 아이디 규칙에 맞지 않는 아이디를 입력했을 때, 입력된 아이디와 유사하면서 규칙에 맞는 아이디를 추천해주는 프로그램을 개발하는 것입니다. 다음은 카카오 아이디의 규칙입니다.
- 아이디의 길이는 3자 이상 15자 이하여야 합니다.
- 아이디는 알파벳 소문자, 숫자, 빼기(
-
), 밑줄(_
), 마침표(.
) 문자만 사용할 수 있습니다. - 단, 마침표(
.
)는 처음과 끝에 사용할 수 없으며 또한 연속으로 사용할 수 없습니다.
“네오”는 다음과 같이 7단계의 순차적인 처리 과정을 통해 신규 유저가 입력한 아이디가 카카오 아이디 규칙에 맞는 지 검사하고 규칙에 맞지 않은 경우 규칙에 맞는 새로운 아이디를 추천해 주려고 합니다.
나의 풀이
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
def solution(new_id):
size = len(new_id)
# 1단계
'''
모든 대문자를 대응되는 소문자로 치환
'''
for i in range(size):
temp_chr = ord(new_id[i])
if (temp_chr >= 65 and temp_chr <= 90):
new_id = new_id.replace(chr(temp_chr), chr(temp_chr + 32))
# 2단계
'''
알파벳 소문자, 숫자, 빼기(-), 밑줄(_), 마침표(.)
제외한 모든 문자 제거
'''
temp_id_str = new_id
new_str = ""
low_init = ord("a")
low_fin = ord("z")
num_init = ord("0")
num_fin = ord("9")
minus = ord("-")
under_bar = ord("_")
end_dot = ord(".")
for i in range(size):
temp_chr = ord(temp_id_str[i])
if ((temp_chr >= low_init and temp_chr <= low_fin)
or
(temp_chr >= num_init and temp_chr <= num_fin)
or
(temp_chr == minus)
or
temp_chr == under_bar
or
temp_chr == end_dot):
new_str += chr(temp_chr)
else:
continue
new_id = new_str
# 3단계
'''
마침표(.)가 2번 이상 연속된 부분을
하나의 마침표(.)로 치환
'''
temp_id_str = new_id
size = len(temp_id_str)
pos = 0
# 다음 문자가 '.'이면 1, 아니면 0
is_next_dot = 0
while(pos < size):
# 이 조건은 '.'의 연속체 중에서
# 첫 번째 만날 때만 분기하는 로직 돼야됨
if (temp_id_str[pos] == '.'):
# 첫번째 '.'의 위치
init_pos = pos
# 다음 문자도 '.'일 때만
# 이걸 1씩 증가시킴
fin_pos = pos
is_next_dot = 1
while(is_next_dot and fin_pos < size - 1):
if (temp_id_str[fin_pos+1] == '.'):
fin_pos += 1
else:
is_next_dot = 0
# 차이가 날 때만 slice 후 '.' 하나 남김
if (fin_pos - init_pos >= 1):
front = temp_id_str[:(init_pos+1)]
post = temp_id_str[(fin_pos+1):]
temp_id_str = front + post
# 사이즈 갱신
size = len(temp_id_str)
fin_pos = init_pos
pos += 1
new_id = temp_id_str
# 4단계
'''
마침표(.)가 처음이나 끝에 위치한다면
제거
'''
size = len(new_id)
if (size == 1):
if (new_id == "."):
new_id = ""
else:
pass
else:
if (new_id[0] == '.'):
new_id = new_id[1:]
size = len(new_id)
if (new_id[size-1] == '.'):
new_id = new_id[:(size-1)]
# 5단계
'''
빈 문자열이라면
new_id에 "a" 대입
'''
if (len(new_id) == 0):
new_id = "a"
# 6단계
'''
길이가 16자 이상이면
new_id의 첫 15개 문자 제외한
나머지 문자들 모두 제거
만약 제거 후,
마침표(.)가 new_id의 끝에 위치한다면
끝에 위치한 마침표(.) 문자 제거
'''
size = len(new_id)
while (size >= 16):
new_id = new_id[:15]
size = len(new_id)
if (new_id[size-1] == '.'):
new_id = new_id[:(size-1)]
size = len(new_id)
# 7단계
'''
new_id의 길이가 2자 이하라면
new_id의 길이가 3이 될 때까지
new_id의 마지막 문자를
반복해서 끝에 붙임
'''
size = len(new_id)
while (len(new_id) <= 2):
new_id = new_id + new_id[size - 1]
answer = new_id
return answer
이 문제를 보고 바로 정규표현식을 떠올렸지만
하나하나 찾아가며 해보다가 포기했다.
차라리 빨리 구현한 뒤에
다른 고수의 정규식 풀이를 보고 배우고자 했다.
다른 사람들의 풀이
1
2
3
4
5
6
7
8
9
10
11
12
import re
def solution(new_id):
st = new_id
st = st.lower()
st = re.sub('[^a-z0-9\-_.]', '', st)
st = re.sub('\.+', '.', st)
st = re.sub('^[.]|[.]$', '', st)
st = 'a' if len(st) == 0 else st[:15]
st = re.sub('^[.]|[.]$', '', st)
st = st if len(st) > 2 else st + "".join([st[-1] for i in range(3-len(st))])
return st
(출처: 프로그래머스 스쿨 다른사람 풀이)
이번 기회를 통해 정규표현식에 대해 알아보도록 하려 한다.
1
st = re.sub('[^a-z0-9\-_.]', '', st)
정규식에서 ^
는 not
을 의미한다.
a-z
는 'a'
부터 'z'
까지,
0-9
는 '0'
부터 '9'
까지를 의미하고,
\-
는 -
가 메타 문자이므로 \
가 붙었다.
_
과 .
은 문자 그대로 '_'
, '.'
이다.
즉, 종합하면 해당 정규식의 의미는
‘소문자와 숫자, ‘-‘, ‘_’, ‘.’를 제외한 모든 문자’이다.
1
st = re.sub('\.+', '.', st)
\.
역시 .
이 메타 문자이기 때문이다.
+
는 메타 문자로서
‘최소 1번 이상 반복됨’을 의미한다.
re.sub()
는
아래의 인자들로 구성되어 있다.
1
re.sub(pattern, repl, string, count=0, flags=0)
즉,
특정 string
중에서
pattern
에 맞는 문자열을
repl
로 대체하는 것이다.
종합하면,
‘대상 문자열(st
) 중에서
‘.’이 1번 이상 반복되는 부분을
‘.’로 바꾼다.’이다.
1
st = re.sub('^[.]|[.]$', '', st)
[]
는 문자 클래스를 의미한다.
‘해당 클래스 안에 있는 문자들 중 1개와 매칭’이다.
문자 클래스([]
) 안에서 ^
를 사용하면 not이지만
그 이외에서는 의미가 다르다.
즉, ‘문자열의 맨 처음과 일치함’을 의미한다.
|
는 or
의 의미이다.
$
는 ^
와 대응되는 반대의 의미,
즉, ‘문자열의 마지막과 일치함’이다.
이를 종합하면 다음과 같다.
‘'.'
으로 시작하거나 '.'
으로 끝나는 문자열’.
1
st = 'a' if len(st) == 0 else st[:15]
이건 낯선 부분은 없지만,
문제 조건의 5단계와 6단계 앞부분을 결합한 게 놀랍다.
1
2
3
st = st if len(st) > 2
else
st + "".join([st[-1] for i in range(3-len(st))])
이건 정규식과는 무관하지만,
join
이 쓰였기에 공부 차원에서 뜯어본다.
(읽기 좋게 임의로 개행을 했다.)
일단, str.join()
이라는 메서드는
iterable한 문자열 인자들을 받아서
그 문자열들 사이를 str
로 연결하여 반환한다.
위의 코드에서는 아무것도 없으므로
인자들을 바로 연결하는 셈이 된다.
그리고 st[-1]
은 해당 문자열의 마지막 문자이고,
위 for
문은 (3 - (st의 길이))만큼 반복된다.
즉, 맥락상 해당 문자열 길이를 3의 보수를 취한다.
따라서 해당 join
메서드는
문자열의 마지막 문자를 1~2번만큼 반복된 문자열을 반환한다.
그리고 "".join()
앞에는 st +
이므로
최종적으로는
문자열 길이가 3이 될 때까지 붙인 셈이 된다.