]> gitweb.factorcode.org Git - factor.git/blob - basis/unicode/UCD/CompositionExclusions.txt
unicode: update to 15.0.0
[factor.git] / basis / unicode / UCD / CompositionExclusions.txt
1 # CompositionExclusions-15.0.0.txt
2 # Date: 2022-05-03, 18:50:00 GMT [KW, LI]
3 # © 2022 Unicode®, Inc.
4 # For terms of use, see https://www.unicode.org/terms_of_use.html
5 #
6 # Unicode Character Database
7 # For documentation, see https://www.unicode.org/reports/tr44/
8 #
9 # This file lists the characters for the Composition Exclusion Table
10 # defined in UAX #15, Unicode Normalization Forms.
11 #
12 # This file is a normative contributory data file in the
13 # Unicode Character Database.
14 #
15 # For more information, see
16 # https://www.unicode.org/reports/tr15/#Primary_Exclusion_List_Table
17 #
18 # For a full derivation of composition exclusions, see the derived property
19 # Full_Composition_Exclusion in DerivedNormalizationProps.txt
20 #
21
22 # ================================================
23 # (1) Script Specifics
24 #
25 # This list of characters cannot be derived from the UnicodeData.txt file.
26 #
27 # Included are the following subcategories:
28 #
29 # - Many precomposed characters using a nukta diacritic in the Devanagari,
30 #   Bangla/Bengali, Gurmukhi, or Odia/Oriya scripts.
31 # - Tibetan letters and subjoined letters with decompositions including 
32 #   U+0FB7 TIBETAN SUBJOINED LETTER HA or U+0FB5 TIBETAN SUBJOINED LETTER SSA.
33 # - Two two-part Tibetan vowel signs involving top and bottom pieces.
34 # - A large collection of compatibility precomposed characters for Hebrew
35 #   involving dagesh and/or other combining marks.
36 #
37 # This list is unlikely to grow.
38 #
39 # ================================================
40
41 0958    #  DEVANAGARI LETTER QA
42 0959    #  DEVANAGARI LETTER KHHA
43 095A    #  DEVANAGARI LETTER GHHA
44 095B    #  DEVANAGARI LETTER ZA
45 095C    #  DEVANAGARI LETTER DDDHA
46 095D    #  DEVANAGARI LETTER RHA
47 095E    #  DEVANAGARI LETTER FA
48 095F    #  DEVANAGARI LETTER YYA
49 09DC    #  BENGALI LETTER RRA
50 09DD    #  BENGALI LETTER RHA
51 09DF    #  BENGALI LETTER YYA
52 0A33    #  GURMUKHI LETTER LLA
53 0A36    #  GURMUKHI LETTER SHA
54 0A59    #  GURMUKHI LETTER KHHA
55 0A5A    #  GURMUKHI LETTER GHHA
56 0A5B    #  GURMUKHI LETTER ZA
57 0A5E    #  GURMUKHI LETTER FA
58 0B5C    #  ORIYA LETTER RRA
59 0B5D    #  ORIYA LETTER RHA
60 0F43    #  TIBETAN LETTER GHA
61 0F4D    #  TIBETAN LETTER DDHA
62 0F52    #  TIBETAN LETTER DHA
63 0F57    #  TIBETAN LETTER BHA
64 0F5C    #  TIBETAN LETTER DZHA
65 0F69    #  TIBETAN LETTER KSSA
66 0F76    #  TIBETAN VOWEL SIGN VOCALIC R
67 0F78    #  TIBETAN VOWEL SIGN VOCALIC L
68 0F93    #  TIBETAN SUBJOINED LETTER GHA
69 0F9D    #  TIBETAN SUBJOINED LETTER DDHA
70 0FA2    #  TIBETAN SUBJOINED LETTER DHA
71 0FA7    #  TIBETAN SUBJOINED LETTER BHA
72 0FAC    #  TIBETAN SUBJOINED LETTER DZHA
73 0FB9    #  TIBETAN SUBJOINED LETTER KSSA
74 FB1D    #  HEBREW LETTER YOD WITH HIRIQ
75 FB1F    #  HEBREW LIGATURE YIDDISH YOD YOD PATAH
76 FB2A    #  HEBREW LETTER SHIN WITH SHIN DOT
77 FB2B    #  HEBREW LETTER SHIN WITH SIN DOT
78 FB2C    #  HEBREW LETTER SHIN WITH DAGESH AND SHIN DOT
79 FB2D    #  HEBREW LETTER SHIN WITH DAGESH AND SIN DOT
80 FB2E    #  HEBREW LETTER ALEF WITH PATAH
81 FB2F    #  HEBREW LETTER ALEF WITH QAMATS
82 FB30    #  HEBREW LETTER ALEF WITH MAPIQ
83 FB31    #  HEBREW LETTER BET WITH DAGESH
84 FB32    #  HEBREW LETTER GIMEL WITH DAGESH
85 FB33    #  HEBREW LETTER DALET WITH DAGESH
86 FB34    #  HEBREW LETTER HE WITH MAPIQ
87 FB35    #  HEBREW LETTER VAV WITH DAGESH
88 FB36    #  HEBREW LETTER ZAYIN WITH DAGESH
89 FB38    #  HEBREW LETTER TET WITH DAGESH
90 FB39    #  HEBREW LETTER YOD WITH DAGESH
91 FB3A    #  HEBREW LETTER FINAL KAF WITH DAGESH
92 FB3B    #  HEBREW LETTER KAF WITH DAGESH
93 FB3C    #  HEBREW LETTER LAMED WITH DAGESH
94 FB3E    #  HEBREW LETTER MEM WITH DAGESH
95 FB40    #  HEBREW LETTER NUN WITH DAGESH
96 FB41    #  HEBREW LETTER SAMEKH WITH DAGESH
97 FB43    #  HEBREW LETTER FINAL PE WITH DAGESH
98 FB44    #  HEBREW LETTER PE WITH DAGESH
99 FB46    #  HEBREW LETTER TSADI WITH DAGESH
100 FB47    #  HEBREW LETTER QOF WITH DAGESH
101 FB48    #  HEBREW LETTER RESH WITH DAGESH
102 FB49    #  HEBREW LETTER SHIN WITH DAGESH
103 FB4A    #  HEBREW LETTER TAV WITH DAGESH
104 FB4B    #  HEBREW LETTER VAV WITH HOLAM
105 FB4C    #  HEBREW LETTER BET WITH RAFE
106 FB4D    #  HEBREW LETTER KAF WITH RAFE
107 FB4E    #  HEBREW LETTER PE WITH RAFE
108
109 # Total code points: 67
110
111 # ================================================
112 # (2) Post Composition Version precomposed characters
113 #
114 # These characters cannot be derived solely from the UnicodeData.txt file
115 # in this version of Unicode.
116 #
117 # Note that characters added to the standard after the
118 # Composition Version and which have canonical decomposition mappings
119 # are not automatically added to this list of Post Composition
120 # Version precomposed characters.
121 # ================================================
122
123 2ADC    #  FORKING
124 1D15E   #  MUSICAL SYMBOL HALF NOTE
125 1D15F   #  MUSICAL SYMBOL QUARTER NOTE
126 1D160   #  MUSICAL SYMBOL EIGHTH NOTE
127 1D161   #  MUSICAL SYMBOL SIXTEENTH NOTE
128 1D162   #  MUSICAL SYMBOL THIRTY-SECOND NOTE
129 1D163   #  MUSICAL SYMBOL SIXTY-FOURTH NOTE
130 1D164   #  MUSICAL SYMBOL ONE HUNDRED TWENTY-EIGHTH NOTE
131 1D1BB   #  MUSICAL SYMBOL MINIMA
132 1D1BC   #  MUSICAL SYMBOL MINIMA BLACK
133 1D1BD   #  MUSICAL SYMBOL SEMIMINIMA WHITE
134 1D1BE   #  MUSICAL SYMBOL SEMIMINIMA BLACK
135 1D1BF   #  MUSICAL SYMBOL FUSA WHITE
136 1D1C0   #  MUSICAL SYMBOL FUSA BLACK
137
138 # Total code points: 14
139
140 # ================================================
141 # (3) Singleton Decompositions
142 #
143 # These characters can be derived from the UnicodeData.txt file
144 # by including all canonically decomposable characters whose
145 # canonical decomposition consists of a single character.
146 #
147 # These characters are simply quoted here for reference.
148 # See also Full_Composition_Exclusion in DerivedNormalizationProps.txt
149 # ================================================
150
151 # 0340..0341       [2] COMBINING GRAVE TONE MARK..COMBINING ACUTE TONE MARK
152 # 0343                 COMBINING GREEK KORONIS
153 # 0374                 GREEK NUMERAL SIGN
154 # 037E                 GREEK QUESTION MARK
155 # 0387                 GREEK ANO TELEIA
156 # 1F71                 GREEK SMALL LETTER ALPHA WITH OXIA
157 # 1F73                 GREEK SMALL LETTER EPSILON WITH OXIA
158 # 1F75                 GREEK SMALL LETTER ETA WITH OXIA
159 # 1F77                 GREEK SMALL LETTER IOTA WITH OXIA
160 # 1F79                 GREEK SMALL LETTER OMICRON WITH OXIA
161 # 1F7B                 GREEK SMALL LETTER UPSILON WITH OXIA
162 # 1F7D                 GREEK SMALL LETTER OMEGA WITH OXIA
163 # 1FBB                 GREEK CAPITAL LETTER ALPHA WITH OXIA
164 # 1FBE                 GREEK PROSGEGRAMMENI
165 # 1FC9                 GREEK CAPITAL LETTER EPSILON WITH OXIA
166 # 1FCB                 GREEK CAPITAL LETTER ETA WITH OXIA
167 # 1FD3                 GREEK SMALL LETTER IOTA WITH DIALYTIKA AND OXIA
168 # 1FDB                 GREEK CAPITAL LETTER IOTA WITH OXIA
169 # 1FE3                 GREEK SMALL LETTER UPSILON WITH DIALYTIKA AND OXIA
170 # 1FEB                 GREEK CAPITAL LETTER UPSILON WITH OXIA
171 # 1FEE..1FEF       [2] GREEK DIALYTIKA AND OXIA..GREEK VARIA
172 # 1FF9                 GREEK CAPITAL LETTER OMICRON WITH OXIA
173 # 1FFB                 GREEK CAPITAL LETTER OMEGA WITH OXIA
174 # 1FFD                 GREEK OXIA
175 # 2000..2001       [2] EN QUAD..EM QUAD
176 # 2126                 OHM SIGN
177 # 212A..212B       [2] KELVIN SIGN..ANGSTROM SIGN
178 # 2329                 LEFT-POINTING ANGLE BRACKET
179 # 232A                 RIGHT-POINTING ANGLE BRACKET
180 # F900..FA0D     [270] CJK COMPATIBILITY IDEOGRAPH-F900..CJK COMPATIBILITY IDEOGRAPH-FA0D
181 # FA10                 CJK COMPATIBILITY IDEOGRAPH-FA10
182 # FA12                 CJK COMPATIBILITY IDEOGRAPH-FA12
183 # FA15..FA1E      [10] CJK COMPATIBILITY IDEOGRAPH-FA15..CJK COMPATIBILITY IDEOGRAPH-FA1E
184 # FA20                 CJK COMPATIBILITY IDEOGRAPH-FA20
185 # FA22                 CJK COMPATIBILITY IDEOGRAPH-FA22
186 # FA25..FA26       [2] CJK COMPATIBILITY IDEOGRAPH-FA25..CJK COMPATIBILITY IDEOGRAPH-FA26
187 # FA2A..FA6D      [68] CJK COMPATIBILITY IDEOGRAPH-FA2A..CJK COMPATIBILITY IDEOGRAPH-FA6D
188 # FA70..FAD9     [106] CJK COMPATIBILITY IDEOGRAPH-FA70..CJK COMPATIBILITY IDEOGRAPH-FAD9
189 # 2F800..2FA1D   [542] CJK COMPATIBILITY IDEOGRAPH-2F800..CJK COMPATIBILITY IDEOGRAPH-2FA1D
190
191 # Total code points: 1035
192
193 # ================================================
194 # (4) Non-Starter Decompositions
195 #
196 # These characters can be derived from the UnicodeData.txt file
197 # by including each expanding canonical decomposition
198 # (i.e., those which canonically decompose to a sequence
199 # of characters instead of a single character), such that:
200 #
201 # A. The character is not a Starter.
202 #
203 # OR (inclusive)
204 #
205 # B. The character's canonical decomposition begins
206 # with a character that is not a Starter.
207 #
208 # Note that a "Starter" is any character with a zero combining class.
209 #
210 # These characters are simply quoted here for reference.
211 # See also Full_Composition_Exclusion in DerivedNormalizationProps.txt
212 # ================================================
213
214 # 0344                 COMBINING GREEK DIALYTIKA TONOS
215 # 0F73                 TIBETAN VOWEL SIGN II
216 # 0F75                 TIBETAN VOWEL SIGN UU
217 # 0F81                 TIBETAN VOWEL SIGN REVERSED II
218
219 # Total code points: 4
220
221 # EOF