[Python-de] HTML parsen, ü nach ü

Achim Domma (Procoders) domma at procoders.net
Fre Dez 10 10:42:07 CET 2004


Peter Otten wrote:

> Am Freitag, 10. Dezember 2004 09:56 schrieb genrich:

>>Uhi! Also in deinem Beispiel mag es vielleicht noch klappen... Aber wenn
>>nur innerhalb des zu suchenden Tags (in dem Falle <h3></h3>) noch ein
>>anderes Tag ist, sieht es nicht so gut aus!
> 
> Aber das ist doch gerade der Punkt, dass es in dem konkreten Fall 
> funktioniert! Ein Skript, dass eine Website nach Informationen abgrast, 
> überlebt eh nur bis zu deren nächster Renovierung. Wer würde denn zum Bau 
> einer Sandburg einen Statiker bemühen?

In dem konkreten Fall sehe ich das auch so. Wenn's um automatisch 
generierten Content geht hat sich bei mir folgendes bewährt:

- HTML Code der Seite via tidy in XML verwandeln.
- Daten via XPath aus dem XML extrahieren.

In XPath kann man Regeln codieren wie: Gib mir den Text aus der 
Tabellenzelle, in deren linkem Nachbar der Text 'xyz' steht. Das ist 
natürlich nicht perfekt, hat sich in der Praxis aber als relativ stabil 
erwiesen. Gegen ein komplettes Redesign ist man natürlich immer machtlos.

Gruß,
Achim