From mboxrd@z Thu Jan  1 00:00:00 1970
X-Spam-Checker-Version: SpamAssassin 3.4.4 (2020-01-24) on polar.synack.me
X-Spam-Level: 
X-Spam-Status: No, score=-1.9 required=5.0 tests=BAYES_00
	autolearn=unavailable autolearn_force=no version=3.4.4
Path: 
 eternal-september.org!reader01.eternal-september.org!reader02.eternal-september.org!news.eternal-september.org!news.eternal-september.org!feeder.eternal-september.org!aioe.org!.POSTED!not-for-mail
From: Luke A. Guest <laguest@archeia.com>
Newsgroups: comp.lang.ada
Subject: Re: Bug in Ada - Latin 1 is not a subset of UTF-8
Date: Mon, 24 Oct 2016 12:35:16 +0100
Organization: Aioe.org NNTP Server
Message-ID: <2045448975.499001639.190687.laguest-archeia.com@nntp.aioe.org>
References: <86f0d2fe-d498-4bc4-bb9d-e34629c89bb4@googlegroups.com>
 <nu3mkc$agg$1@dont-email.me>
 <nu4jnj$11va$1@gioia.aioe.org>
 <nu4m5k$g7g$1@dont-email.me>
 <nu4nee$18le$1@gioia.aioe.org>
 <nu938r$g7h$1@franka.jacob-sparre.dk>
 <nu9s5v$18f0$1@gioia.aioe.org>
 <nud1le$6is$1@dont-email.me>
 <f5fea891-5d0a-437e-8e22-facea87613b7@googlegroups.com>
 <nudgk5$1e0k$1@gioia.aioe.org>
 <nueuo5$cl5$1@dont-email.me>
 <nuf5lt$1itm$1@gioia.aioe.org>
NNTP-Posting-Host: zopdCbYgmdXxDLpOHn9ynw.user.gioia.aioe.org
Mime-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit
X-Complaints-To: abuse@aioe.org
User-Agent: NewsTap/5.2 (iPhone/iPod Touch)
Cancel-Lock: sha1:n5ziQ5ED8d2sw9dIWhWFRSNyzHM=
X-Notice: Filtered by postfilter v. 0.8.2
Xref: news.eternal-september.org comp.lang.ada:32166
Date: 2016-10-24T12:35:16+01:00
List-Id: <comp.lang.ada>

Dmitry A. Kazakov <mailbox@dmitry-kazakov.de> wrote:
> On 2016-10-22 07:51, G.B. wrote:
>> On 21.10.16 18:43, Dmitry A. Kazakov wrote:
>>> For an UTF-8 string proper no checks would be ever required when a
>>> character is appanded.
>> 
>> No Unicode sequence in UTF should ever exist visibly in a
>> program other than either during parsing, or during output.
> 
> Right.
> 
> Any encoded string must implement two distinct interfaces: an array of 
> characters and a sequence of encoding elements (e.g. octets). They 
> somehow fit to each other for Latin-1 and UCS-2 strings, but for 
> majority of encoding methods they are drastically different.
> 

There's no such thing as a character, there are octets for Utf-8 and code
points. 

You should also implement graphème clutter access too.