[Python-de] HTML mit RegEx filtern

Stefan Antonelli stefan.antonelli at operun.de
Mi Dez 20 21:47:55 CET 2006


Diez B. Roggisch <deets at ...> writes:

> Prinzipiell ja, aber es ist eine schlechte idee. Nimm stattdessen 
> BeautifulSoup. 
> 
> Das Problem mit regulaeren Ausdruecken und HTML ist einfach, das sie immer 
> komplizierter werden und immer mehr Spezialfaelle anhaeufen. 

Klingt interessant - ich glaube das hab ich sogar schon mal in Action gesehen...
Hast Du vielleicht ein oder zwei Links mit ein paar guten Tutorials? Ich finde
zwar ne menge Links, aber eben kein gutes Tutorial.

Trotzdem interessiert mich die RegularExpression um aus aus einem String einen
Teil (wie im Beispiel die URL in src) zu übernehmen und in einen neuen String
ein zu bauen?

Ich bin immerhin schon so weit (bitte nicht kreuzigen):

text = re.sub('<img src="(.*?)">', lambda mat: mat.group(1), text)

Das filtert mir in einem String enthaltene Bilder heraus und gibt deren URLs
zurück... Aber das muss doch schöner gehen? Und lambda ist an der Stelle doch
eigentlich auch irgendwie weg zu kriegen?

Stefan.