[Python-de] BeautifulSoup contents Listen error

Marek Kubica marek at xivilization.net
Sa Mai 31 17:07:34 UTC 2008


On Sat, 31 May 2008 14:47:39 +0200
Stefan Behnel <python-de at behnel.de> wrote:

> > Nach kurzer Recherche schien mir das die bessere implementierung für
> > meine Bedürfnisse zu sein oder spricht irgendwas gröberes gegen
> > Soup?
> 
> Langsamkeit? Speicherverbrauch?
> 
> http://blog.ianbicking.org/2008/03/30/python-html-parser-performance/

Ich tät ja "implementation" sagen, denn Markup mit regulären Ausdrücken
zu parsen ist irgendwie alles andere als vertrauenserweckend. Manchmal
ist auch die API seltsam, das etwas schlichtweg nicht so funktioniert,
wie man sich das denken würde und es auch logisch wäre (ich habe dann
den Autor um Hilfe gefragt, der auch bald geantwortet hat - das rechne
ich BS durchaus an). Ich würde aber inzwischen eher zu lxml tendieren,
wenn da noch HTML im Spiel ist auch noch zur html5lib. Insbesondere
XPath und CSS Selektoren sind etwas, was BS nicht bieten wird können
und die IMHO sehr angehehm sind, wenn man mit XML arbeitet.

Disclaimer: ich preise gerade eine Lib an, die von meinem Vorposter
maintaint wird. Nichtsdestotrotz ist lxml der derzeit wohl beste Weg
aus Python XML-Dateien zu verarbeiten, etwa "making XML suck less".

grüße,
Marek