[Python-de] Buch "Objektorientierte Programmierung mit Python"Verlag mitp

Achim Domma (Procoders) domma at procoders.net
Sam Nov 29 21:28:18 CET 2003


Hallo,

> Wie bitte? Latin-1 ist ein 8-bit-Zeichensatz, Unicode (zumindest als ISO
> 10646, bzw. UCS-4) ist 32bit. Wie sollen die gleich sein? Ansonsten gibt
> es Unicode noch als UCS-2, das ist 16bit. Die einzige 8-bit Variante ist
> AFAIK UTF-8, und das ist nun gerade *nicht* identisch mit ISO 8859-1
> oder -15. UTF-8 verwendet naemlich shift-bytes, ein Konzept, das ISO8859
> nicht kennt. Kann sein, dass es noch 16bit UTF Versionen gibt, das kann
> ich gerade nicht nachgucken.

du wirfst da Unicode und die Varianten solche Zeichen zu kodieren gnadenlos
durcheinander. Unicode weiß nichts von Bits, sondern ordnet erstmal nur
einem Zeichen einen Zahl zu. Zufällig lassen sich all' diese Zahlen im
aktuellen Standard mit 32 Bit darstellen.
UCS-2, UCS-4, UTF-8 unt UTF-16 sind alles Varianten, diese Zahlen auf
verschiedene Arten im Rechner zu kodieren. Das eine hat mit dem anderen aber
nichts zu tun.

Gruß,
Achim