Nya möjligheter att söka i SOU

Kungliga biblioteket har digitaliserat Statens offentliga utredningar (SOU), 1922–1996. Utredningarna finns nu fritt tillgängliga som pdf, vilket är en fantastisk resurs för historisk forskning av olika slag. Men gränssnittet är klent. Exempelvis erbjuder KB ingen sökfunktion.

För ganska länge sedan uttryckte jag några tankar kring detta, vilket fick pettter (Umeå hackerspace) att slänga ihop ett script för nedladdning av samtliga SOU:er. Härom dagen plockades handsken upp av Christopher Kullenberg, som just gjorde arkivet väldigt mycket mer användbart.

Han laddade helt enkelt ner alla pdf-filerna (400 GB) och extraherade dem som textfiler (879 MB) som han låter envar ladda ner. Därmed går det t.ex. att söka i det samlade utredningsmaterialet lokalt på sin egen dator. Mer avancerade sökningar får göras via kommandorad, men många operativsystem indexerar ju automatiskt av filernas innehåll. Så fort jag laddat ner textfilerna kunde jag (i OSX) få fram listor över vilka SOU:er som innehöll ett visst namn och ett visst begrepp som jag intresserat mig för i min forskning.
Man bör påpeka att sökresultaten inte är garanterat fullständiga: konverteringen från bild (pdf) till text är bristfällig. Men för att hitta ingångar i svensk politisk historia är det ett enormt steg framåt.

Sen visade det sig att KB faktiskt har en ännu enklare kanal för att ladda ner stora mängder data och att de även är på gång att ge stöd för torrents. Kanske kommer de rentav att skapa ett sökgränssnitt för allmänheten? Men tills vidare är det på Christopher Kullenbergs blogg som saker händer.

10 kommentarer ↓

#1 Christopher Kullenberg on 1 June 2015 at 3:37 pm

Kan bara tillägga att ett liknande korpus redan finns på Korp. Det är lite smidigare att använda för enkla sökningar. Däremot finns det stora fördelar att ha själva rådatan lokalt, om man vill behandla och processa materialet eller få delvis andra sökresultat.

Hoppas KB får igång en bittorrent-tracker. Det känns som framtiden för öppen data.

#2 rasmus on 1 June 2015 at 9:28 pm

Det där Korp verkar ju bara ge en bråkdel av resultatet jämfört med när jag söker lokalt i SOU:erna.

#3 e on 1 June 2015 at 9:30 pm

Bra KB och Christopher!

Christophers blogg nämner Grep som sökverktyg. Några andra användbara verktyg för att söka i många lokala plaintextfiler samtidigt:
Ack, http://beyondgrep.com/
Ag och fler Ack-varianter, http://betterthanack.com/
Ag/Silver Searcher för Windows, https://blog.kowalczyk.info/software/the-silver-searcher-for-windows.html

#4 Peter Krantz on 2 June 2015 at 9:11 am

För att tanka saker från data.kb.se innan torrent trackern är på plats (vilket den faktiskt är, men vi har inte hunnit uppdatera GUI:t än och få till en egen seed) så kan man använda wget så här för ett specifikt dataset:

wget -r -w 1 –random-wait -m –no-parent –limit-rate=800K https://data.kb.se/datasets/2014/10/aftonbladet/

#5 Christopher Kullenberg on 2 June 2015 at 9:13 am

e: oj vilken stor skillnad det gör! ag (The Silver Searcher) är ju sjukt mycket snabbare och det blir sökbart på en laptop igen.

Enkel installation:

MacOS (med brew): brew install the_silver_searcher

Ubuntu/Debian (som de är): apt-get install silversearcher-ag

Mer information på Github.

Jag gjorde följande sökning (på min laptop med en core i5 processor) som jämförelse:

$ time ag ‘.{10,100}tredje uppgiften.*.{0,100}’ *
real 2m13.106s

$ time grep -r -Eio ‘.{10,100}tredje uppgiften.*.{0,100}’ *
real 33m8.610s

#6 Mikael on 2 June 2015 at 9:57 am

Några tankar om att söka halvt planlöst i textmängder…

Förutom att jag är stort fan av rekursiva grep-kommandon och ag så har jag också fina minnen av Spotlights automatiska indexering. Den glufsar tålmodigt i sig alla möjliga PDF:er och ligger sedan redo att överraska mig med en intressant referens när jag egentligen bara ville slå upp ett ords definition…

Som en gång när jag höll på att skriva en text som tog upp ämnet ironi, och skrev mest av rastlöshet in ordet “irony” i Spotlights sökruta. Då hittade jag en länk in i filen “Cambridge Companion to James Joyce.pdf” som erbjöd någon sorts intressant vinkel.

Skrev en fråga om detta på Ask MetaFilter. [1] Där lärde jag mig om begreppen “serendipity” och “accidental information encountering”. Fick även en länk till en intressant bloggpost [2] där Steven Berlin Johnson förklarar hur verktyget DevonThink, som söker igenom hans samling av bokutdrag, hjälper honom att skriva. Han är inne på ett rätt bra spår:

“The other thing that would be fascinating would be to open up these personal libraries to the external world. That would be a lovely combination of old-fashioned book-based wisdom, advanced semantic search technology, and the personality-driven filters that we’ve come to enjoy in the blogosphere. I can imagine someone sitting down to write an article about complexity theory and the web, and saying, ‘I bet Johnson’s got some good material on this in his “library.”‘ (You wouldn’t be able to pull down the entire database, just query it, so there wouldn’t be any potential for intellectual property abuse.) I can imagine saying to myself: ‘I have to write this essay on taxonomies, so I’d better sift through Weinberger’s library, and that chapter about power laws won’t be complete without a visit to Shirky’s database.'”

[1]: http://ask.metafilter.com/257795/Erudition-as-a-service

[2]: http://www.stevenberlinjohnson.com/movabletype/archives/000230.html

#7 e on 2 June 2015 at 10:16 pm

@Christopher Ja eller hur! En tappar hakan lite över farten första gången. Nördig detalj: Ack lyfte på sin hemsida halvt på skämt halvt på allvar fram som extra fördel att tre tecken, Ack, går snabbare att skriva än fyra, Grep. Vilket förmodligen är anledningen till att Ack-uppföljaren tog ett namn med bara två, Ag.

#8 Christopher Kullenberg on 3 June 2015 at 7:06 am

e: Bara en tidsfråga innan någon programmerar “a” :)

#9 Eva on 3 June 2015 at 12:24 pm

$ echo ‘alias a=”grep” >> ~/.bashrc
;)

#10 Jonas A Schwarz on 3 June 2015 at 1:02 pm

@ Mikael

Vilken strålande idé! Jag har själv länge tyckt att det finns ett underskott av applikationer som just möjliggör “associativ drift” på det sätt du beskriver. Visserligen kan man säga att webben och hela den digitala medieinfrastukturen möjliggör detta på makronivå; men det borde inte hindra folk från att bygga mer koola verktyg även på mikro- och mesonivå.

Evernote och Scrivener möjliggör ju finfin folksonomi/taggning och associativa länkningar mellan enskilda anteckningar på ens egna maskin, men det hade ju varit roligt om ens egna arkiv hade kunnat speglas offentligt på det sätt du beskriver!

Din kommentar påminde också om en annan fin implementation man kan göra på sitt lokala Mac-OS, nämligen att installera en mycket mer kreativt gynnsam ordbok, såsom oslagbara Webster’s 1913.