]> gitweb.factorcode.org Git - factor.git/blob - basis/regexp/classes/classes.factor
Merge branch 'master' of git://factorcode.org/git/factor into regexp
[factor.git] / basis / regexp / classes / classes.factor
1 ! Copyright (C) 2008, 2009 Doug Coleman, Daniel Ehrenberg.
2 ! See http://factorcode.org/license.txt for BSD license.
3 USING: accessors kernel math math.order words combinators locals
4 ascii unicode.categories combinators.short-circuit sequences ;
5 QUALIFIED-WITH: multi-methods m
6 IN: regexp.classes
7
8 SINGLETONS: any-char any-char-no-nl
9 letter-class LETTER-class Letter-class digit-class
10 alpha-class non-newline-blank-class
11 ascii-class punctuation-class java-printable-class blank-class
12 control-character-class hex-digit-class java-blank-class c-identifier-class
13 unmatchable-class terminator-class word-boundary-class ;
14
15 SINGLETONS: beginning-of-input beginning-of-line
16 end-of-input end-of-line ;
17
18 TUPLE: range from to ;
19 C: <range> range
20
21 GENERIC: class-member? ( obj class -- ? )
22
23 M: t class-member? ( obj class -- ? ) 2drop t ;
24
25 M: integer class-member? ( obj class -- ? ) = ;
26
27 M: range class-member? ( obj class -- ? )
28     [ from>> ] [ to>> ] bi between? ;
29
30 M: any-char class-member? ( obj class -- ? )
31     2drop t ;
32
33 M: any-char-no-nl class-member? ( obj class -- ? )
34     drop CHAR: \n = not ;
35
36 M: letter-class class-member? ( obj class -- ? )
37     drop letter? ;
38             
39 M: LETTER-class class-member? ( obj class -- ? )
40     drop LETTER? ;
41
42 M: Letter-class class-member? ( obj class -- ? )
43     drop Letter? ;
44
45 M: ascii-class class-member? ( obj class -- ? )
46     drop ascii? ;
47
48 M: digit-class class-member? ( obj class -- ? )
49     drop digit? ;
50
51 : c-identifier-char? ( ch -- ? )
52     { [ alpha? ] [ CHAR: _ = ] } 1|| ;
53
54 M: c-identifier-class class-member? ( obj class -- ? )
55     drop c-identifier-char? ;
56
57 M: alpha-class class-member? ( obj class -- ? )
58     drop alpha? ;
59
60 : punct? ( ch -- ? )
61     "!\"#$%&'()*+,-./:;<=>?@[\\]^_`{|}~" member? ;
62
63 M: punctuation-class class-member? ( obj class -- ? )
64     drop punct? ;
65
66 : java-printable? ( ch -- ? )
67     { [ alpha? ] [ punct? ] } 1|| ;
68
69 M: java-printable-class class-member? ( obj class -- ? )
70     drop java-printable? ;
71
72 M: non-newline-blank-class class-member? ( obj class -- ? )
73     drop { [ blank? ] [ CHAR: \n = not ] } 1&& ;
74
75 M: control-character-class class-member? ( obj class -- ? )
76     drop control? ;
77
78 : hex-digit? ( ch -- ? )
79     {
80         [ CHAR: A CHAR: F between? ]
81         [ CHAR: a CHAR: f between? ]
82         [ CHAR: 0 CHAR: 9 between? ]
83     } 1|| ;
84
85 M: hex-digit-class class-member? ( obj class -- ? )
86     drop hex-digit? ;
87
88 : java-blank? ( ch -- ? )
89     {
90         CHAR: \s CHAR: \t CHAR: \n
91         HEX: b HEX: 7 CHAR: \r
92     } member? ;
93
94 M: java-blank-class class-member? ( obj class -- ? )
95     drop java-blank? ;
96
97 M: unmatchable-class class-member? ( obj class -- ? )
98     2drop f ;
99
100 M: terminator-class class-member? ( obj class -- ? )
101     drop "\r\n\u000085\u002029\u002028" member? ;
102
103 M: beginning-of-line class-member? ( obj class -- ? )
104     2drop f ;
105
106 M: end-of-line class-member? ( obj class -- ? )
107     2drop f ;
108
109 M: f class-member? 2drop f ;
110
111 TUPLE: primitive-class class ;
112 C: <primitive-class> primitive-class
113
114 TUPLE: or-class seq ;
115
116 TUPLE: not-class class ;
117
118 TUPLE: and-class seq ;
119
120 m:GENERIC: combine-and ( class1 class2 -- combined ? )
121
122 : replace-if-= ( object object -- object ? )
123     over = ;
124
125 m:METHOD: combine-and { object object } replace-if-= ;
126
127 m:METHOD: combine-and { integer integer }
128     2dup = [ drop t ] [ 2drop f t ] if ;
129
130 m:METHOD: combine-and { t object }
131     nip t ;
132
133 m:METHOD: combine-and { f object }
134     drop t ;
135
136 m:METHOD: combine-and { not-class object }
137     [ class>> ] dip = [ f t ] [ f f ] if ;
138
139 m:METHOD: combine-and { integer object }
140     2dup class-member? [ drop t ] [ 2drop f t ] if ;
141
142 m:GENERIC: combine-or ( class1 class2 -- combined ? )
143
144 m:METHOD: combine-or { object object } replace-if-= ;
145
146 m:METHOD: combine-or { integer integer }
147     2dup = [ drop t ] [ 2drop f f ] if ;
148
149 m:METHOD: combine-or { t object }
150     drop t ;
151
152 m:METHOD: combine-or { f object }
153     nip t ;
154
155 m:METHOD: combine-or { not-class object }
156     [ class>> ] dip = [ t t ] [ f f ] if ;
157
158 m:METHOD: combine-or { integer object }
159     2dup class-member? [ nip t ] [ 2drop f f ] if ;
160
161 : try-combine ( elt1 elt2 quot -- combined/f ? )
162     3dup call [ [ 3drop ] dip t ] [ drop swapd call ] if ; inline
163
164 :: prefix-combining ( seq elt quot: ( elt1 elt2 -- combined/f ? ) -- newseq )
165     f :> combined!
166     seq [ elt quot try-combine swap combined! ] find drop
167     [ seq remove-nth combined prefix ]
168     [ seq elt prefix ] if* ; inline
169
170 :: combine ( seq quot: ( elt1 elt2 -- combined/f ? ) empty class -- newseq )
171     seq { } [ quot prefix-combining ] reduce
172     dup length {
173         { 0 [ drop empty ] }
174         { 1 [ first ] }
175         [ drop class new swap >>seq ]
176     } case ; inline
177
178 : <and-class> ( seq -- class )
179     [ combine-and ] t and-class combine ;
180
181 M: and-class class-member?
182     seq>> [ class-member? ] with all? ;
183
184 : <or-class> ( seq -- class )
185     [ combine-or ] f or-class combine ;
186
187 M: or-class class-member?
188     seq>> [ class-member? ] with any? ;
189
190 : <not-class> ( class -- inverse )
191     {
192         { t [ f ] }
193         { f [ t ] }
194         [ dup not-class? [ class>> ] [ not-class boa ] if ]
195     } case ;
196
197 M: not-class class-member?
198     class>> class-member? not ;
199
200 M: primitive-class class-member?
201     class>> class-member? ;
202
203 UNION: class primitive-class not-class or-class range ;