[Python-de] HTML-Tags

Rainer Fischbach fischbach at ecs-gmbh.de
Mon Sep 2 23:55:01 EDT 2002


Es gibt grundsätzlich zwei Möglichkeiten:

1. nimm einen XML-Parser (hier reicht ein eventorientier wie Expat) und zieh die Sachen, die dich interessieren durch passende Callbacks heraus. Du musst im Begintag-Handler nur nach <tr> und <td> Tags schauen und in einem Behälterobjekt Flags setzen bzw. (es reicht auch eine Liste) Marken ablegen, die Du dann im Content-Handler zurücksetzt bzw. durch den Inhalt ersetzt.

2. Wenn Du genau weißt, dass die <tr> und <td>-Tags immer nur in der angegebenen statischen Schachtelung vorkommen, kannst Du den Inhalt auch durch einen regulären Ausdruck greifen. Dazu ist allerdings ein wenig Erfahrung mit re anzeigt.

btw: Wenn es auf die einfachen bzw. doppelten Anführungszeichen ankommt, musst Du sie zum Inhalt der Strings machen, denn die Begrenzer sind keine Bestandteile der Stringobjekte sondern von deren Darstellung auf dem Bildschirm!

ciao, Rainer


---------- Original Message ----------------------------------
From: "Dirk Lannatewitz" <dirk.lannatewitz at web.de>
Reply-To: python-de at python.net
Date:  Mon, 2 Sep 2002 21:39:21 +0200

>Hallo all,
>
>ich habe eine Datei. Der Ursprung war eine HTML-Datei mit einer Tabelle.
>Bis auf die Tabellenzeilen habe ich alles rausgelöscht. Nun habe ich
>allerhand Zeilen vom Format:
><tr><td width=200 align=right valign=top bgcolor=#CECEFF><font face='Arial,
>Helv, Helvetica' size=2>z.Zt.</td><td width=200 bgcolor=#CECEFF><font
>face='Arial, Helv, Helvetica' size=2>zur Zeit</td></tr>.
>
>Gibt es eine elegante Möglichkeit die Tags zu entfernen, und den Rest (z.Zt.
>zur Zeit) so umzuformen, dass folgendes Ergebnis erziehlt wird. ['z.Zt.'
>"zur Zeit"]
>
>p.s. die Single- und Doublequotes sind wichtig
>
>Danke
>Dirk
>
>
>_______________________________________________
>Python-de maillist  -  Python-de at starship.python.net
>http://starship.python.net/mailman/listinfo/python-de
>

---------- Original Message ----------------------------------
From: "Dirk Lannatewitz" <dirk.lannatewitz at web.de>
Reply-To: python-de at python.net
Date:  Mon, 2 Sep 2002 21:39:21 +0200

>Hallo all,
>
>ich habe eine Datei. Der Ursprung war eine HTML-Datei mit einer Tabelle.
>Bis auf die Tabellenzeilen habe ich alles rausgelöscht. Nun habe ich
>allerhand Zeilen vom Format:
><tr><td width=200 align=right valign=top bgcolor=#CECEFF><font face='Arial,
>Helv, Helvetica' size=2>z.Zt.</td><td width=200 bgcolor=#CECEFF><font
>face='Arial, Helv, Helvetica' size=2>zur Zeit</td></tr>.
>
>Gibt es eine elegante Möglichkeit die Tags zu entfernen, und den Rest (z.Zt.
>zur Zeit) so umzuformen, dass folgendes Ergebnis erziehlt wird. ['z.Zt.'
>"zur Zeit"]
>
>p.s. die Single- und Doublequotes sind wichtig
>
>Danke
>Dirk
>
>
>_______________________________________________
>Python-de maillist  -  Python-de at starship.python.net
>http://starship.python.net/mailman/listinfo/python-de
>

--
i. V. Rainer Fischbach

Senior Consultant
ECS Engineering Consulting & Solutions GmbH
Mühlstraße 3, D-92318 Neumarkt
Fon +49 (0) 9181 4764-84
Fax +49 (0) 9181 4764-50
Mobil +49 (0) 171 4141570
E-Mail: fischbach at ecs-gmbh.de
http://www.ecs-gmbh.de
--





More information about the Python-de mailing list