[Python-de] HTML parsen, ü nach ü

Diez B. Roggisch deets at web.de
Don Dez 9 14:40:47 CET 2004


Am Donnerstag, 9. Dezember 2004 14:27 schrieb David Wojak:
> Ich möchte eine HTML Datei parsen, und alle maskierten Teile der Form
> "ü" normal, also in dem Fall als "ü" darstellen, um die erhaltenen
> Daten in weiterer Folge zu XML weiter zu verarbeiten.
>
> Konkret: Man nehme HTML-Seite, parst sich gewisse Daten (bsp: Newspage wie
> www.heise.de) und generiert daraus eine XML Datei.
>
> Wie geh ich das an?

Das hier sind ein paar tools die dabei helfen:

    http://www.crummy.com/software/BeautifulSoup/
    http://effbot.org/zone/element-tidylib.htm
    http://utidylib.berlios.de/
    http://www.xmlsoft.org/
    http://effbot.org/zone/pythondoc-elementtree-HTMLTreeBuilder.htm

Grundsätzlich benutzt man für sowas die Klasse HTMLParser und darin dann die 
Methoden handle_charref(name) und handle_entityref(name).

Diez