[Python-de] BeautifulSoup contents Listen error

Stefan Schwarzer sschwarzer at sschwarzer.net
Mi Jun 4 18:48:18 UTC 2008


Hallo Alexander,

On 2008-06-02 16:01, A. Nigl wrote:
> Nun lebe ich aber leider in einer realen/fehlerhaften Welt und habe bei
> ersten Sichtungen schon gesehen das nun doch nicht alles XML ist was
> glänzt. Somit brauche ich einen fehlertoleranten Parser, da ich leider
> keinerlei Einfluss auf die Distributoren nehmen kann (wenn ich die Daten
> nicht so nehme wie sie kommen, nimmt sie wer anderes).
>
> BS erledigt diese Arbeit zu meiner Zufriedenheit, ich werde aber (bei
> gelegenheit) einmal den libxml testen und über die Daten laufen lassen
> sollte dieser gleich viele oder mehr Datein sinnvoll parsen können werde
> ich ihn logischerweise übernehmen.

was ist, wenn Beautiful Soup die Datei ohne zu "meckern" parst,
aber nicht das dabei rauskommt, was gemeint ist? Wenn du die
Dateien so nimmst, wie sie kommen, kann es passieren, dass sie
zwar gelesen werden aber falsche Daten in deiner Anwendung
ankommen. (Zum Vergleich: Wenn jemand aus "Geben Sie mir die
Hund" fehlertolerant "Geben Sie mir die Hand" macht, könnte er
sich irren; vielleicht war "Geben Sie mir den Hund" gemeint.)
Wenn du fehlerhaftes XML zurückweist, reduzierst du die
Wahrscheinlichkeit solcher "Missverständnisse" schonmal ein Stück
weit.

Ich empfehle dir, die Wahrscheinlichkeit deiner Aussage "wenn ich
die Daten nicht so nehme wie sie kommen, nimmt sie wer anderes"
nochmal zu überdenken und, wie von anderen im Thread empfohlen,
auf einwandfreiem XML zu bestehen. Du kannst das durchaus
professionell - und zutreffend - als Qualitätssicherung
verkaufen.

Viele Grüße
Stefan