[Python-de] utf8 Problem mit Blockgrenzen

Diez B. Roggisch deets at web.de
Sam Aug 20 16:32:28 CEST 2005


> Ahh, interessante Idee, aber ich versuche, den Speicherverbrauch 
> möglichst deterministisch zu halten, sonst hätte ich mir den hassle mit 
> dem Tempfile ganz sparen können, wenn im dümmsten Falle doch wieder 
> alle Daten im Speicher landen. Alternativ könnte man die Blockgröße 
> reduzieren, was dann zwar diese Wahrscheinlichkeit verringert, aber 
> auch den Sinn und Zweck des blockweisen Verarbeitens in Frage stellt, 
> also bleibt nach reiflicher Überlegung als beste Alternative doch nur 
> die zeilenweise Verarbeitung (mit den Vorteilen der knappsten Notation 
> und der Selbstdokumentiertheit ;-)).

Sind die Dateien so gross? Unabhängig davon kann man das ja auch nach 
oben begrenzen, indem man bei zwei Blöcken _und_ fehlerhafter Codierung 
den zweiten halbiert, und es dann nochmal probiert. Oder Zeichenweise 
zurückgeht. Den unparsierbaren Rest wieder nimmt mann dann als nächsten 
Block.

Darüber hinaus denke ich das der worst-case _so_ unwahrscheinlich ist, 
das man das getrost ignoriren kann - es sei denn, du bist embedded "mit 
ohne" MMU oder so unterwegs.

Mfg Diez