[Python-Leipzig] Pandas unter 7 Minuten!

Stefan Schwarzer sschwarzer at sschwarzer.net
Sa Aug 15 16:20:41 UTC 2015


Hallo Mike,

On 2015-08-14 12:50, Mike Müller wrote:
> Am 14.08.15 um 08:06 schrieb Stefan Schwarzer:
>> On 2015-08-13 23:31, Mike Müller wrote:
>>> wir versprochen hier die Fortsetzung vom Dienstag.
>>
>> Mike, kannst du vielleicht noch für die Abwesenden ;-) in
>> ein paar Sätzen das Problem beschreiben? Es muss ja (vermute
>> ich) nicht im Detail sein.
> 
> Es geht hauptsächlich um das Umsortieren von Daten.
> [...]

Vielen Dank für die Erläuterungen (und natürlich den Code).
:-)

>>> @Arnold: Ob eine In-PostgreSQL-Importieren-Variante noch schneller sein
>>> könnte. ;)
>>
>> Vor allem, wenn man nach dem Einlesen der Daten in die
>> Datenbank noch mehr Rechnungen anstellen will, könnte sich
>> das durchaus lohnen.
> 
> Die Daten sind ja dann in einer HDF5-Datei. Benchmarks für das reine
> Lesen zeigen, dass HDF5 teilweise deutlich schneller ist als PostgreSQL:
> http://www.pytables.org/usersguide/optimization.html
> 
> Da ich die Daten nur einmal importieren muss und dann immer wieder lese,
> scheint ein entscheidender Geschwindigkeitsgewinn mit PostgreSQL eher
> unwahrscheinlich.

Ich sagte (beziehungsweise meinte ;-) ) ja, dass es auf den
Anwendungsfall ankommen würde. Bei dem, was du machst, lohnt
sich das Füllen der Datenbank halt nicht.

>> Was mir noch dazu einfällt (und in Klammern, warum):
>>
>> SQLite (sicher langsamer und weniger Features als
>> PostgreSQL, aber weniger Aufwand für die Inbetriebnahme ;-) )
> 
> Ich denke die Zwischenstufe SQL erzeugen ist sicher nicht zu vernachlässigen.

Meine Idee war, dass die Datenbank etwas bringen könnte,
_falls_ man mehr mit den Daten machen will, und es wird
darauf ankommen, was. Wenn dein konkretes Problem nicht vom
Füllen einer Datenbank profitiert, benutze sie nicht. :-)

>> Julia (beliebte Hilfssprache bei SciPy-Nutzern, wie Python
>> ziemlich high-level; http://julialang.org/ )
> 
> Würde mich interessieren. Kann ich aber überhaupt nicht.

Konnte ich auch nicht, bevor ich die erste Funktion damit
geschrieben habe. ;-)

> Ich kann gern ein Script liefern, das Test-Daten in der richten Größe
> erzeugt. ;)

Wenn du das schon hast oder sehr einfach erstellen kannst,
gerne. Ich kann aber leider keine Garantie dafür geben, dass
ich in den nächsten zehn Jahren damit experimentiere. Ich
habe auch noch etliche andere Dinge im Kopf, die ich gern
mal machen würde.

Viele Grüße
Stefan



Mehr Informationen über die Mailingliste Python-Leipzig