[Python-de] mit RegEx text extrahieren?

Stefan J. Betz stefan_betz at gmx.net
Fre Jul 4 17:55:59 EDT 2003


Am Fri, Jul 04, 2003 at 04:02:15PM +0200, Guenther Sommermann schrieb:
> Hi Liste
> 
> Ich habe hier eine Textdatei mit folgendem Format:
> 
> <htmltag>URL-einer-Seite</htmltag>
> <htmltag>URL-einer-anderen-Seite</htmltag>
> <htmltag>URL-von-nocheiner-Seite</htmltag>
> 
> Aus dieser Datei würde ich jetzt gern nur den Text zwischen den
> Html-Tags extrahieren...
> 
> Ich habe versucht die Datei mit "readlines()" einzulesen, das geht
> auch soweit ganz gut.
> Allerdings scheitere ich jetzt an dem RegEx..
> 
> Mit welchem RegEx kann ich NUR den Text extrahieren bzw. ausschließen
> das die Html-Tags mit extrahiert werden?
> (Soviel wie: gib mir alles was zwischen dem und dem Html-Tag steht)
> 
> 
> Gruß Günther
> (Python Newbie)

Hallo Günther,

wenn die Textdatei wirklich nur diesen eine Tagtyp enthält, dann kannst
du dies auch ohne regxp lösen:

for each in dateiobjekt.readlines():
    print each[9:-10]


du kannst natürlich statt print auch alle andere damit machen...

regxp würde ich nur verwenden wenn auch noch was anderes im file
steht...:

from re import match

for line in dateiobjekt.readlines():
    if match("regxp", line) != None:
       print line[9:-10]

das was diese [] konstruktion hinter dem string macht steht in der online doku von
python (Tutorial), oder in jedem schlechten python buch...


mfg Betz Stefan

-- 
Profitip No. 413:
Zeit sparen durch Rebooten im Hintergrund.
Man will ja nicht jedesmal die Arbeit unterbrechen...
stefan at athlon.hornynet:~$ reboot &
-------------- nächster Teil --------------
Ein Dateianhang mit Binärdaten wurde geschreddert...
Dateiname   : nicht verfügbar
Dateityp    : application/pgp-signature
Dateigröße  : 248 bytes
Beschreibung: nicht verfügbar
URL         : http://starship.python.net/pipermail/python-de/attachments/20030704/8b8be8c0/attachment.bin