[Python-de] HTML parsen, ü nach ü

Fritz Cizmarov fritz at sol.at
Don Dez 9 15:49:08 CET 2004


Hallo David,

ich hatte mal ein Modul für Entities im Pythonforum gepostet.
http://python.sandtner.org/viewtopic.php?t=1872
Beim Testcode am Ende des Scripts siehst du wie alle html-Entities übersetzt werden können.

Gruß

Fritz


On Thu, 9 Dec 2004 14:27:51 +0100 (MET)
"David Wojak" <Cherubyn at gmx.at> wrote:

> Hallo!
> 
> Ich möchte eine HTML Datei parsen, und alle maskierten Teile der Form
> "&uuml;" normal, also in dem Fall als "ü" darstellen, um die
> erhaltenen Daten in weiterer Folge zu XML weiter zu verarbeiten.
> 
> Konkret: Man nehme HTML-Seite, parst sich gewisse Daten (bsp: Newspage
> wie www.heise.de) und generiert daraus eine XML Datei.
> 
> Wie geh ich das an?
> 
> Bin noch relativ neu in Python, also bitte ned bös sein, wenn die
> Frage Müll ist, allerdings hab ich hier ein Problem mit den
> Encodings... (&uuml; ->&#123)
> 
> Kann mir da wer helfen?
> 
> G,
> David
> 
> -- 
> NEU +++ DSL Komplett von GMX +++ http://www.gmx.net/de/go/dsl
> GMX DSL-Netzanschluss + Tarif zum supergünstigen Komplett-Preis!
> 
> _______________________________________________
> python-de maillist  -  python-de at python.net
> http://python.net/mailman/listinfo/python-de