[Python-de] mit RegEx text extrahieren?

Karl Pflästerer sigurd at 12move.de
Fre Jul 4 19:38:48 EDT 2003


On  4 Jul 2003, Detlef Lannert <- lannert at uni-duesseldorf.de wrote:

> Die Regex hier sucht nach einem ">", anschließend beliebig vielen Zeichen,
> die nicht "<" sind, und als hinterer Begrenzung nach "</". Durch die

Wenn du die non-greedy Variante von »+« verwendest, kannst du auf die
Einschränkung, daß kein »<« im Text vorhanden sein darf verzichten.

re.compile(r'<.+?>(.+)(?=</.+?>)')

böte sich hier zB an. Bei geschachtelten Tags ginge eventuell so etwas
wie:

re.compile(r'^.*<.+?>(.+)(?=</.+?>.*$)')

   Karl
-- 
 He took his vorpal sword in hand:
     Long time the manxome foe he sought--
 So rested he by the Tumtum tree,
     And stood awhile in thought.  "Lewis Carroll" "Jabberwocky"