[Python-de] Http download as text

robert_kuzelj at yahoo.com robert_kuzelj at yahoo.com
Wed Jun 26 11:35:24 EDT 2002


hallo josef,

> Wie kann ich bitte eine www Seite herunterladen als Plain/Text mit
> Hilfe von Python.
>
> Mit httplib habe ich nur geschaft die Seite als HTTP Code herunterlagen,
> aber ich brauche nur Text?
das ist ganz klar. du hast hier einfach zwei anforderungen, die
du nacheinander abarbeiten musst.

die erste ist der request nach einer url - das gibt meist eine
html/text resource zurueck. das wirst du auch nicht aendern koennen,
da es per se erstmal keine moeglichkeit gibt einen server nach einer
resource in reinem textformat zu befragen. es sei denn der server
saehe das explizit vor zb. anhand eines webservices. aber die
meisten tun das nicht, sonst koennten ja leute auf die idee kommen
nur die reine information einer seite zu requesten ohne die ganze
tolle, bunte werbung. waer doch schade ;-)

anyway.
nachdem du also deine html-resource (als stream) hast, musst
du die html-tags los werden. in abhaengigkeit der komplixtaet
der runtergeladenen seite gibts denk ich mal zwei moeglichkeiten

einfach strukturierte seiten koennen sicherlich mit regex-substitution
gesaeubert werden (findest du im module re) und fuer komplexere
wirst du um die programmierung eines eigenen HTMLParsers nicht
rumkommen (findest du im module HTMLParser und htmllib).

ciao robertj
------------------------------------------------------------
Robert Kuzelj
Gaissacherstrasse 7           email: robert_kuzelj at yahoo.com
81371 Muenchen                tel:   0177/5302230

the trinity of desirables of (software) architecture:
Firmitas, Utilitas, Venustas (marcus vitruvius 20 BC)
strength, utility, beauty

----- Original Message -----
From: "Josef Cihal" <josef.cihal at irm.at>
To: "PYTHON MAILING" <python-de at starship.python.net>
Sent: Wednesday, June 26, 2002 8:20 AM
Subject: [Python-de] Http download as text


>
> WWW-Anfänger Frage:
>
> Wie kann ich bitte eine www Seite herunterladen als Plain/Text mit
> Hilfe von Python.
>
> Mit httplib habe ich nur geschaft die Seite als HTTP Code herunterlagen,
> aber ich brauche nur Text?
>
> Vielen Dank für jede Hilfe.
>
> mfg
> josef
>
>
> _______________________________________________
> Python-de maillist  -  Python-de at starship.python.net
> http://starship.python.net/mailman/listinfo/python-de




More information about the Python-de mailing list