[Python-de] Pyton und pdf

Christian Tismer tismer at stackless.com
Fre Jan 23 22:57:22 CET 2004


Dinu Gherman wrote:

> Albert Hermeling:
> 
>> Hallo Liste,
>>
>> ich suche jetzt schon eine ganze Weile nach einer Funktion oder 
>> Methode die
>> PDF Dateien lesen kann und denn darin enthaltenden Text als String 
>> ausgib. So
>> das man den Text weiterverarbeiten kann.
>>
>> Kennt jemand so eine Python Funktion?
> 
> 
> Nein und gibt es wahrscheinlich auch nicht, ausser ueber Umwege
> wie pdf2text oder wie diese Werkzeuge alle heissen... Das Thema
> ist komplexer als es scheint, da man im unguenstigsten Fall die
> enthaltenen Textteile erst selbst als zusammengehoerend identi-
> fizieren muss. D.h. die erwaehnten Werkzeuge sind in der Regel
> auch alles andere als perfekt...

Ganz recht.
Ich habe mal was ähnliches gebraucht und angefangen,
selber einen Postscript-interpreter in Python zu schreiben.
Der sollte auch das Problem der Zusammengehörigkeit von Text
einigermaßen lösen, und Einrückungen erhalten etc.

Der Sinn war eine direkte Konvertierung von Postscript zu
Wiki-Seiten.
Leider ist das Projekt nie über das Hack-Stadium hinaus gekommen
und funktioniert nur mit einem speziellen Postscript-Treiber.

Leider habe ich keine Zeit, daran zu arbeiten, und der Code,
naja, ist schlimm... Aber ich möchte trotzdem hiermit einen
Postscript-Emulator in Python als Projekt anregen, ich
würde zumindest beratend mitmachen.

ciao - chris

-- 
Christian Tismer             :^)   <mailto:tismer at stackless.com>
Mission Impossible 5oftware  :     Have a break! Take a ride on Python's
Johannes-Niemeyer-Weg 9a     :    *Starship* http://starship.python.net/
14109 Berlin                 :     PGP key -> http://wwwkeys.pgp.net/
work +49 30 89 09 53 34  home +49 30 802 86 56  mobile +49 173 24 18 776
PGP 0x57F3BF04       9064 F4E1 D754 C2FF 1619  305B C09C 5A3B 57F3 BF04
      whom do you want to sponsor today?   http://www.stackless.com/