[Python-de] XML mit LXML einlesen, wobei die Struktur nicht alltäglich ist.

Andreas Jung lists at zopyx.com
Di Mär 24 11:51:10 UTC 2009


-----BEGIN PGP SIGNED MESSAGE-----
Hash: SHA1

On 24.03.2009 11:58 Uhr, Thomas Gebhard wrote:
> Hallo Python-De Mailingliste,
> 
> ich habe für euch eine knifflige Aufgabe. Diese habe  ich zwar gelöst
> habe, jedoch mit einem hässlichem workaround. Im speziellem muss ich
> mehrere XML Files auslesen, die in Summe ca. 140GB Blog Daten enthalten.

140GB??

> Die Einträge im XML File beginnen alle mit:
> 
> <item>
> </item>
> <item>
> ....
> 
> dies bedeutet, dass die Files KEIN Root Element enthalten. 

Kein Root Element -> Du hast *kein* XML.

>Hier hatte
> ich schon mein erstes Problem.
> Denn wie kann man mit LXML ein File parsen, sei es mit dem parser als
> auch mit dem Iterparser,
> wenn es kein Root Element beinhaltet. Ich habe immer nur das erste Item
> erhalten, und die restlichen waren für
> mich unsichtbar.
> 
> Dies habe ich nun gelöst, indem ich zu Beginn <root> und am Ende des
> Files </root> hinzugefügt habe.
> Wie bereits gesagt, eine nicht sehr schöne Notlösung.
> Habt ihr eine Idee wie das auch anders gehen könnte?

Jeder vernünftige XML Parser setzt gültiges XML voraus. Also gibt es
zwei Möglichkeiten: Du machst aus Deinem Datengrab gültiges XML oder
Du schreibst Dir einen entsprechenden Parser selbst.


- -aj


- -- 
ZOPYX Ltd. & Co. KG - Charlottenstr. 37/1 - 72070 Tübingen - Germany
Web: www.zopyx.com - Email: info at zopyx.com - Phone +49 - 7071 - 793376
Registergericht: Amtsgericht Stuttgart, Handelsregister A 381535
Geschäftsführer/Gesellschafter: ZOPYX Limited, Birmingham, UK
- ------------------------------------------------------------------------
E-Publishing, Python, Zope & Plone development, Consulting

-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.4.9 (Darwin)
Comment: Using GnuPG with Mozilla - http://enigmail.mozdev.org/

iEYEARECAAYFAknIyS4ACgkQCJIWIbr9KYwzjgCeMQqtHTa7cUxFjvEwvzaXnDm5
NSIAn3yvAe6woZtwnR2mMVLXPCdLHr/E
=kodV
-----END PGP SIGNATURE-----
-------------- nächster Teil --------------
Ein Dateianhang mit Binärdaten wurde abgetrennt...
Dateiname   : lists.vcf
Dateityp    : text/x-vcard
Dateigröße  : 316 bytes
Beschreibung: nicht verfügbar
URL         : <http://python.net/pipermail/python-de/attachments/20090324/e488a3eb/attachment.vcf>


Mehr Informationen über die Mailingliste python-de