[mailinglist] Re: [Python-de] htmllib und Umlaute

Martin v. Löwis martin at v.loewis.de
Sat Apr 26 10:27:57 EDT 2003


"Uwe Schmitt" <rocksportrocker at gmx.de> writes:

> Wie krieg ich jetzt eine Mail, die einmal einen Klartext-Part
> hat und das gleiche via HTML-Part konsistenz dekodiert ???
[...]
> Und das am besten unabhängig davon ob die Mail aus
> den USA oder China stammt ....

Du musst beim Verarbeiten der Email stets aufzeichnen, in welcher
Kodierung der Text versendet wird. Für MIME-Text-Parts steht das im
charset=-Feld, für HTML steht das entweder
a) im <?xml-Header,
b) im <META http-equiv-Header, oder
c) im MIME-Type (charset=)

Wenn Du mit dem htmllib-Dumbwriter HTML in Text umwandelst, bekommst
Du einen Byte-String, genauso, wie wenn Du Dir einen text/plain-Teil
betrachtest (nachdem evtl. ein Content-transfer-encoding aufgelöst
wurde).

Wenn Du also eine Byte-String-Version B des Texts hast sowie die
Kodierung K, dann kannst Du mittels

U = unicode(B, K)

die Unicode-Version des Texts ermitteln. Diese solltest Du zur Suche
nach Stichwörtern verwenden. Dann klappt es auch mit den asiatischen
Nachbarn.

Ciao,
Martin




More information about the Python-de mailing list