[Python-de] Re: XML, Umlaute, Unicode, Projektorganisation, RPC, MPUC - Wer bietet mehr?

Gerson Kurz Gerson.Kurz at t-online.de
Mit Jul 23 20:30:50 EDT 2003


> Wie schreibt man
> denn nun tatsächlich Umlaute in Python-Quellcode damit es funktioniert?

Ich würde sagen, das hängt von der Zielgruppe ab. Wenn ich Umlaute verwende,
dann ja für Text, den ich am Bildschirm irgendwie anzeigen will. Der
Computer selber spricht ja kein Deutsch, *Menschen* oder zumindest
gutgemachte Menschensimulationen (Denn SIE sind unter uns...) sprechen
Deutsch.

Zum Anzeigen brauche ich ein Medium:

- Ein GUI, z.B. wxPython
- Ausgabe am Prompt
- HTML-Ausgabe
- XML-Ausgabe

usw.

Für sowas wie wxPython brauche ich gar kein Encoding, sondern einfach ein
"ü" in der Windows-Codepage. Es wird nix bringen, wenn ich die Datei in
UTF16LE ablege: weil der C++ Kern ganz normale "unsaubere" Bytezeichenbatzen
nimmt. (Es gibt wohl einen experimentellen Unicode-Build von wxPython). Eher
schon erwarte ich eine Encodingexception, wenn ich wxPython damit quäle.

An dieser Stelle der leicht entflammbare Einschub: Es ist ja wunderschön,
daß wir uns um koreanische Zeichensätze kümmern, aber die
Python-Unicode-Behandlung kommt mir schon ein bisserl korinthenkackerisch
vor. Das kann man schon alleine daran erkennen, *wie oft* und *wie viele*
Fragen dazu gestellt wurden und noch werden. Ich kann mich nicht erinnern,
daß ich in grauer Vorzeit, als ich Assembler oder Pascal oder C oder C++
erlernte, Umlaute als ein PROBLEM DER INFORMATIK erkannt habe. Wieviele
C/C++-Programme wurden rein für den deutschen Markt erstellt, mit "ü"s drin:
und war diese Tatsache nicht das *aller*geringste Problem der
Sw-Entwicklung? Wie groß ist der Markt für Programme mit "ü"s drin in
Südostasien? Ganz besonders nervt es mich, wenn man z.B. ein großes Projekt
hat, und per Murphy kommt an einer Codestelle, die nur an ungeraden
Wochentagen in Monaten die durch eine Primzahl teilbar sind aufgerufen wird,
und dann kommt eine dumme Encodingexception auf die keiner gefasst ist und
das Programm beendet sich. Noch anders ausgedrückt. Wenn in einem
Sourcecode, der von (z.B.) "Unfallverhütungsvorschriften für
beschäftigtenbediente Banknotenautomaten" handelt, ein Thema, welches selbst
in Deutschland nur einen Menschenkreis von Supermodellartig geringem Umfang
interessiert, ein Byte \xFC drin vorkommt, DANN IST DAS EIN Ü. Klar? ICH
SCHWÖRE. Auch halte ich es für übereilt, die Schlußfolgerung zu ziehen,
sämtliche pyds dieser Erde kämen mit etwas anderem als
8-Bit-Byte-Buchstabensalaten zurecht.

Ende des Einschubs.

Wenn ich es am prompt ausgebe, unter NT, habe ich das Codepage-Problem.
Aber, das ist ein allgemeines Problem; wie schon erwähnt zeitigt printf("ü")
genau das gleiche ärgerliche Verhalten.

In HTML habe ich mir mühsam angewöhnt, &?uml; und co zu verwenden; in XML
siehe meine zur allseitigen Erheiterung ins Netz gestellten Ergüsse.