måndag 27 augusti 2012

Stora data, små triumfer

Jag har visserligen jobbat med stora datamaterial förut, men då har det varit data som jag skapat, så jag har kunnat lagt dem snyggt i matriser och allt har gått ganska bra. Lite parallellprocessning behövde jag göra, men då i dess mest primitiva form (helt separata körningar på tre olika datorer, som råkade ha tre olika operativsystem...).

Stora RIKTIGA data är en helt annan fråga. Jag fick ett jättefint datamaterial i mina händer nyligen och hade lite problem med att läsa ihop (merga) olika deldataset med varandra i R. Lyckades efter lite snubblande med det jag ville. Hittade trevliga biblioteket sqldf, som är föredömligt dokumenterat. Det använde jag för att sortera data, sedan använde jag en vanlig merge utan sortering. I ett annat moment behövde jag göra en "reshape", men fick aldrig R att orka med. Troligen var det sortering som spökade även där. Det löste jag med en loop (jag vet, det är fult). Det gick inte snabbt, men det gick. Det man inte har i huvudet får man ha i benen.

Inga kommentarer:

Skicka en kommentar