]> gitweb.factorcode.org Git - factor.git/blob - extra/sequence-parser/sequence-parser.factor
rename html.parser.state to sequence-parser
[factor.git] / extra / sequence-parser / sequence-parser.factor
1 ! Copyright (C) 2005, 2009 Daniel Ehrenberg, Doug Coleman.
2 ! See http://factorcode.org/license.txt for BSD license.
3 USING: namespaces math kernel sequences accessors fry circular
4 unicode.case unicode.categories locals combinators.short-circuit
5 make combinators io splitting ;
6 IN: sequence-parser
7
8 TUPLE: sequence-parser sequence n ;
9
10 : <sequence-parser> ( sequence -- sequence-parser )
11     sequence-parser new
12         swap >>sequence
13         0 >>n ;
14
15 : offset  ( sequence-parser offset -- char/f )
16     swap
17     [ n>> + ] [ sequence>> ?nth ] bi ; inline
18
19 : current ( sequence-parser -- char/f ) 0 offset ; inline
20
21 : previous ( sequence-parser -- char/f ) -1 offset ; inline
22
23 : peek-next ( sequence-parser -- char/f ) 1 offset ; inline
24
25 : advance ( sequence-parser -- sequence-parser )
26     [ 1 + ] change-n ; inline
27
28 : advance* ( sequence-parser -- )
29     advance drop ; inline
30
31 : get+increment ( sequence-parser -- char/f )
32     [ current ] [ advance drop ] bi ; inline
33
34 :: skip-until ( sequence-parser quot: ( obj -- ? ) -- )
35     sequence-parser current [
36         sequence-parser quot call [ sequence-parser advance quot skip-until ] unless
37     ] when ; inline recursive
38
39 : sequence-parse-end? ( sequence-parser -- ? ) current not ;
40
41 : take-until ( sequence-parser quot: ( obj -- ? ) -- sequence/f )
42     over sequence-parse-end? [
43         2drop f
44     ] [
45         [ drop n>> ]
46         [ skip-until ]
47         [ drop [ n>> ] [ sequence>> ] bi ] 2tri subseq
48     ] if ; inline
49
50 : take-while ( sequence-parser quot: ( obj -- ? ) -- sequence/f )
51     [ not ] compose take-until ; inline
52
53 : <safe-slice> ( from to seq -- slice/f )
54     3dup {
55         [ 2drop 0 < ]
56         [ [ drop ] 2dip length > ]
57         [ drop > ]
58     } 3|| [ 3drop f ] [ slice boa ] if ; inline
59
60 :: take-sequence ( sequence-parser sequence -- obj/f )
61     sequence-parser [ n>> dup sequence length + ] [ sequence>> ] bi
62     <safe-slice> sequence sequence= [
63         sequence
64         sequence-parser [ sequence length + ] change-n drop
65     ] [
66         f
67     ] if ;
68
69 :: take-until-sequence ( sequence-parser sequence -- sequence' )
70     sequence length <growing-circular> :> growing
71     sequence-parser
72     [
73         current growing push-growing-circular
74         sequence growing sequence=
75     ] take-until :> found
76     found dup length
77     growing length 1- - head
78     sequence-parser advance drop ;
79     
80 : skip-whitespace ( sequence-parser -- sequence-parser )
81     [ [ current blank? not ] take-until drop ] keep ;
82
83 : take-rest-slice ( sequence-parser -- sequence/f )
84     [ sequence>> ] [ n>> ] bi
85     2dup [ length ] dip < [ 2drop f ] [ tail-slice ] if ; inline
86
87 : take-rest ( sequence-parser -- sequence )
88     [ take-rest-slice ] [ sequence>> like ] bi ;
89
90 : take-until-object ( sequence-parser obj -- sequence )
91     '[ current _ = ] take-until ;
92
93 : parse-sequence ( sequence quot -- )
94     [ <sequence-parser> ] dip call ; inline
95
96 :: take-quoted-string ( sequence-parser escape-char quote-char -- string )
97     sequence-parser n>> :> start-n
98     sequence-parser advance
99     [
100         {
101             [ { [ previous escape-char = ] [ current quote-char = ] } 1&& ]
102             [ current quote-char = not ]
103         } 1||
104     ] take-while :> string
105     sequence-parser current quote-char = [
106         sequence-parser advance* string
107     ] [
108         start-n sequence-parser (>>n) f
109     ] if ;
110
111 : (take-token) ( sequence-parser -- string )
112     skip-whitespace [ current { [ blank? ] [ f = ] } 1|| ] take-until ;
113
114 :: take-token* ( sequence-parser escape-char quote-char -- string/f )
115     sequence-parser skip-whitespace
116     dup current {
117         { quote-char [ escape-char quote-char take-quoted-string ] }
118         { f [ drop f ] }
119         [ drop (take-token) ]
120     } case ;
121
122 : take-token ( sequence-parser -- string/f )
123     CHAR: \ CHAR: " take-token* ;
124
125 : write-full ( sequence-parser -- ) sequence>> write ;
126 : write-rest ( sequence-parser -- ) take-rest write ;