[Python-de] verzwicktes Umlaut /unicode Problem

Alexander Crössmann alexander.croessmann at gmail.com
Do Jun 5 17:03:04 UTC 2008


Vielen Dank für die Tipps! Das Problem konnte ich nun umgehen.

> Welches encoding hat deine CSV-Datei?
chardet hat angegeben, dass das die Datei "MacCyrillic" codiert ist
(auch wenn Sie nie auf einem Mac war).
codecs.open("...", encoding="MacCyrillic") brachte aber wieder die
alte Fehlermeldung.
Dann habe ich die csv Datei mit meinem Editor in utf-8 umcodiert.
Danach hat codecs.open('...',encoding='utf-8') auch wieder die
Fehlermeldung gebracht, aber nach dem ich alle decodes und encodes aus
dem Python-Code wieder herausgelöscht habe, hat Python die Dateien
korrekt als Strings zusammen gefügt. Um dem Ganzen auf den Grund zu
gehen müsste ich mir wahrscheinlich das csv Modul ansehen und noch
mehr Experimente machen wozu ich gerade keine Zeit habe.


> Wie sieht, der Code ein, mit dem du die Datei einliest?
jetzt wieder so: reader=csv.reader(open(file,"rb"), delimiter=",")


>> Dann habe ich eine xml  Datei (<?xml version="1.0" encoding="UTF-8"?>)
>> die ich mit Hilfe eines Regulären Ausdrucks nach Feldern (z.B.
>> <<hallo>>) durchsuche.

>Kann ich nur von abraten, ist grob fahrlässig. Nimm lieber ein XML tool wie lxml.
Die xml Datei ist eine content.xml Datei aus einen aufgezippten odt
file. Die Felder habe ich selbst eingeführt, die haben mit xml nichts
zu tun. Was könnte mir ein xml tool da helfen? Die Datei will ich ja
gar nicht parsen.


Viele Grüße
Alex.