[Python-de] UTF-8 Python Datei

"Martin v. Löwis" martin at v.loewis.de
Die Apr 26 00:27:55 CEST 2005


Simon Pamies wrote:
> Das Skript (der Code) ist Unicode

Das ist der Trugschluss. Das Script ist *nicht* Unicode.

Es ist in UTF-8 gespeichert, und Unicode und UTF-8 sind überhaupt
nicht dasgleiche. UTF-8 ist eine Zeichenkodierung, so wie us-ascii,
ISO-8859-1 und windows-1252.

Unicode ist ein Zeichen*satz* (keine Byte-Kodierung), und, in
Bezug auf Python, ein Datentyp (so wie int, list, dict).

> aber die einzelnen Strings die du
> dort benutzt (alles innerhalb von quotes) sind erstmal ascii.

Auch falsch. Die einzelnen Strings sind Werte vom Typ str,
welchen ich gern als "byte string" bezeichne (im Gegensatz zu
"unicode string"). Mit "" bezeichnet man in Python Bytestrings,
mit u"" Unicode-Strings.

Die konkreten Byte-Strings sind UTF-8-kodiert.

Ciao,
Martin