]> gitweb.factorcode.org Git - factor.git/blobdiff - basis/unicode/UCD/NamedSequences.txt
unicode: update to 15.0.0
[factor.git] / basis / unicode / UCD / NamedSequences.txt
index 0c1d6cbd61115e891bc2afcc4df4cf9a8c0c7b0c..273eeeabad86d0ea4c3f4c3765b81f6dcf148397 100644 (file)
@@ -1,10 +1,10 @@
-# NamedSequences-12.1.0.txt
-# Date: 2019-03-08, 23:59:00 GMT [KW, LI]
-# © 2019 Unicode®, Inc.
-# For terms of use, see http://www.unicode.org/terms_of_use.html
+# NamedSequences-15.0.0.txt
+# Date: 2021-12-07, 17:18:00 GMT [KW]
+# © 2021 Unicode®, Inc.
+# For terms of use, see https://www.unicode.org/terms_of_use.html
 #
 # Unicode Character Database
-# For documentation, see http://www.unicode.org/reports/tr44/
+# For documentation, see https://www.unicode.org/reports/tr44/
 #
 # Unicode Named Character Sequences
 #
@@ -28,7 +28,7 @@
 # <1000, 1001, 1002>
 #
 # For more information, see UAX #34: Unicode Named Character
-# Sequences, at http://www.unicode.org/unicode/reports/tr34/
+# Sequences, at https://www.unicode.org/reports/tr34/
 #
 # Note: The order of entries in this file is not significant.
 # However, entries are generally in script order corresponding
@@ -58,23 +58,28 @@ KEYCAP DIGIT NINE;0039 FE0F 20E3
 # Latin letter plus accent combinations.
 # These are part of the original set of approved named sequences
 # for Unicode 4.1. 2005.
+# Subgroupings of this original set are identified here by
+# purpose and source.
+
+# Subset 1: Originally requested for a Latin orthography
+# of Hausa. See WG2 N1143 and UTC/1996-005. (6 total)
 
 LATIN CAPITAL LETTER A WITH MACRON AND GRAVE;0100 0300
 LATIN SMALL LETTER A WITH MACRON AND GRAVE;0101 0300
+LATIN CAPITAL LETTER I WITH MACRON AND GRAVE;012A 0300
+LATIN SMALL LETTER I WITH MACRON AND GRAVE;012B 0300
+LATIN CAPITAL LETTER U WITH MACRON AND GRAVE;016A 0300
+LATIN SMALL LETTER U WITH MACRON AND GRAVE;016B 0300
+
+# Subset 2: Originally requested for a Latin orthography
+# of Yoruba. See WG2 N1143 and UTC/1996-005. (14 total)
+
 LATIN CAPITAL LETTER E WITH VERTICAL LINE BELOW;0045 0329
 LATIN SMALL LETTER E WITH VERTICAL LINE BELOW;0065 0329
 LATIN CAPITAL LETTER E WITH VERTICAL LINE BELOW AND GRAVE;00C8 0329
 LATIN SMALL LETTER E WITH VERTICAL LINE BELOW AND GRAVE;00E8 0329
 LATIN CAPITAL LETTER E WITH VERTICAL LINE BELOW AND ACUTE;00C9 0329
 LATIN SMALL LETTER E WITH VERTICAL LINE BELOW AND ACUTE;00E9 0329
-LATIN CAPITAL LETTER E WITH CIRCUMFLEX AND MACRON;00CA 0304
-LATIN SMALL LETTER E WITH CIRCUMFLEX AND MACRON;00EA 0304
-LATIN CAPITAL LETTER E WITH CIRCUMFLEX AND CARON;00CA 030C
-LATIN SMALL LETTER E WITH CIRCUMFLEX AND CARON;00EA 030C
-LATIN CAPITAL LETTER I WITH MACRON AND GRAVE;012A 0300
-LATIN SMALL LETTER I WITH MACRON AND GRAVE;012B 0300
-LATIN SMALL LETTER I WITH DOT ABOVE AND ACUTE;0069 0307 0301
-LATIN SMALL LETTER NG WITH TILDE ABOVE;006E 0360 0067
 LATIN CAPITAL LETTER O WITH VERTICAL LINE BELOW;004F 0329
 LATIN SMALL LETTER O WITH VERTICAL LINE BELOW;006F 0329
 LATIN CAPITAL LETTER O WITH VERTICAL LINE BELOW AND GRAVE;00D2 0329
@@ -83,8 +88,21 @@ LATIN CAPITAL LETTER O WITH VERTICAL LINE BELOW AND ACUTE;00D3 0329
 LATIN SMALL LETTER O WITH VERTICAL LINE BELOW AND ACUTE;00F3 0329
 LATIN CAPITAL LETTER S WITH VERTICAL LINE BELOW;0053 0329
 LATIN SMALL LETTER S WITH VERTICAL LINE BELOW;0073 0329
-LATIN CAPITAL LETTER U WITH MACRON AND GRAVE;016A 0300
-LATIN SMALL LETTER U WITH MACRON AND GRAVE;016B 0300
+
+# Subset 3: Originally requested for Pinyin forms noted
+# in HKSCS. See L2/02-423 and WG2 N2513. (4 total)
+
+LATIN CAPITAL LETTER E WITH CIRCUMFLEX AND MACRON;00CA 0304
+LATIN SMALL LETTER E WITH CIRCUMFLEX AND MACRON;00EA 0304
+LATIN CAPITAL LETTER E WITH CIRCUMFLEX AND CARON;00CA 030C
+LATIN SMALL LETTER E WITH CIRCUMFLEX AND CARON;00EA 030C
+
+# Subset 4: Prominent use cases pulled from examples 
+# for Lithuanian and Tagalog in
+# Unicode 4.0 and early drafts of UAX #34. (2 total)
+
+LATIN SMALL LETTER I WITH DOT ABOVE AND ACUTE;0069 0307 0301
+LATIN SMALL LETTER NG WITH TILDE ABOVE;006E 0360 0067
 
 # Additions for Lithuanian.
 # Provisional 2006-05-18, Approved 2007-10-19
@@ -150,6 +168,35 @@ ARABIC SEQUENCE YEH WITH HAMZA ABOVE WITH E;0626 06D0
 ARABIC SEQUENCE YEH WITH HAMZA ABOVE WITH AE;0626 06D5
 ARABIC SEQUENCE NOON WITH KEHEH;0646 06A9
 
+# Entries that correspond to Indic characters with nuktas
+# that are also listed in CompositionExclusions.txt.
+# These characters decompose for normalized text, even
+# in NFC. Having named sequences for these helps in
+# certain specifications, including Label Generation Rules (LGR)
+# for Internationalized Domain Names (IDN).
+#
+# Provisional 2020-01-16, Approved 2021-07-27
+
+DEVANAGARI SEQUENCE FOR LETTER QA; 0915 093C
+DEVANAGARI SEQUENCE FOR LETTER KHHA; 0916 093C
+DEVANAGARI SEQUENCE FOR LETTER GHHA; 0917 093C
+DEVANAGARI SEQUENCE FOR LETTER ZA; 091C 093C
+DEVANAGARI SEQUENCE FOR LETTER DDDHA; 0921 093C
+DEVANAGARI SEQUENCE FOR LETTER RHA; 0922 093C
+DEVANAGARI SEQUENCE FOR LETTER FA; 092B 093C
+DEVANAGARI SEQUENCE FOR LETTER YYA; 092F 093C
+BENGALI SEQUENCE FOR LETTER RRA; 09A1 09BC
+BENGALI SEQUENCE FOR LETTER RHA; 09A2 09BC
+BENGALI SEQUENCE FOR LETTER YYA; 09AF 09BC
+GURMUKHI SEQUENCE FOR LETTER LLA; 0A32 0A3C
+GURMUKHI SEQUENCE FOR LETTER SHA; 0A38 0A3C
+GURMUKHI SEQUENCE FOR LETTER KHHA; 0A16 0A3C
+GURMUKHI SEQUENCE FOR LETTER GHHA; 0A17 0A3C
+GURMUKHI SEQUENCE FOR LETTER ZA; 0A1C 0A3C
+GURMUKHI SEQUENCE FOR LETTER FA; 0A2B 0A3C
+ORIYA SEQUENCE FOR LETTER RRA; 0B21 0B3C
+ORIYA SEQUENCE FOR LETTER RHA; 0B22 0B3C
+
 # Entry for a Bangla entity.
 # Provisional 2009-08-10, Approved 2010-05-14
 #
@@ -162,7 +209,7 @@ BENGALI LETTER KHINYA;0995 09CD 09B7
 #
 # A visual display of the Tamil named character sequences is available
 # in the documentation for the Unicode Standard. See Section 12.6, Tamil in
-# http://www.unicode.org/versions/latest/
+# https://www.unicode.org/versions/latest/
 
 TAMIL CONSONANT K;  0B95 0BCD
 TAMIL CONSONANT NG; 0B99 0BCD