[Python-de] utf8 Problem mit Blockgrenzen

"Martin v. Löwis" martin at v.loewis.de
Sam Aug 20 17:52:51 CEST 2005


Hans-Peter Jansen wrote:
> ..und viel zu komplex, um in meinem Falle einen Einsatz zu 
> rechtfertigen. Aber dennoch sehr nützlich, um mehr über die Struktur 
> der utf8 Kodierung zu erfahren. So komprimiert habe ich das noch 
> nirgends gefunden. 

Das wird halt über UTF-8 immer gelobt: Man kann jedem Byte ansehen,
ob es
- ein einzelnes Byte ist
- das erste byte einer multi-byte-Folge, und falls ja, wieviele
  Folgebytes kommen
- ein Folgebyte

Da bedeutet, man kann "mittendrin" einsteigen und sich wieder
leicht synchronisieren, oder, wie in diesem Fall, auch "rückwärts"
lesen.

Ich hatte allerdings bisher geglaubt, dass diese tollen Eigenschaften
in der Praxis nie eine Rolle spielen.

Ciao,
Martin