Nya möjligheter att söka i SOU

Kungliga biblioteket har digitaliserat Statens offentliga utredningar (SOU), 1922–1996. Utredningarna finns nu fritt tillgängliga som pdf, vilket är en fantastisk resurs för historisk forskning av olika slag. Men gränssnittet är klent. Exempelvis erbjuder KB ingen sökfunktion.

För ganska länge sedan uttryckte jag några tankar kring detta, vilket fick pettter (Umeå hackerspace) att slänga ihop ett script för nedladdning av samtliga SOU:er. Härom dagen plockades handsken upp av Christopher Kullenberg, som just gjorde arkivet väldigt mycket mer användbart.

Han laddade helt enkelt ner alla pdf-filerna (400 GB) och extraherade dem som textfiler (879 MB) som han låter envar ladda ner. Därmed går det t.ex. att söka i det samlade utredningsmaterialet lokalt på sin egen dator. Mer avancerade sökningar får göras via kommandorad, men många operativsystem indexerar ju automatiskt av filernas innehåll. Så fort jag laddat ner textfilerna kunde jag (i OSX) få fram listor över vilka SOU:er som innehöll ett visst namn och ett visst begrepp som jag intresserat mig för i min forskning.
Man bör påpeka att sökresultaten inte är garanterat fullständiga: konverteringen från bild (pdf) till text är bristfällig. Men för att hitta ingångar i svensk politisk historia är det ett enormt steg framåt.

Sen visade det sig att KB faktiskt har en ännu enklare kanal för att ladda ner stora mängder data och att de även är på gång att ge stöd för torrents. Kanske kommer de rentav att skapa ett sökgränssnitt för allmänheten? Men tills vidare är det på Christopher Kullenbergs blogg som saker händer.

36 kommentarer ↓

#1 Christopher Kullenberg on 1 June 2015 at 3:37 pm

Kan bara tillägga att ett liknande korpus redan finns på Korp. Det är lite smidigare att använda för enkla sökningar. Däremot finns det stora fördelar att ha själva rådatan lokalt, om man vill behandla och processa materialet eller få delvis andra sökresultat.

Hoppas KB får igång en bittorrent-tracker. Det känns som framtiden för öppen data.

#2 rasmus on 1 June 2015 at 9:28 pm

Det där Korp verkar ju bara ge en bråkdel av resultatet jämfört med när jag söker lokalt i SOU:erna.

#3 e on 1 June 2015 at 9:30 pm

Bra KB och Christopher!

Christophers blogg nämner Grep som sökverktyg. Några andra användbara verktyg för att söka i många lokala plaintextfiler samtidigt:
Ack, http://beyondgrep.com/
Ag och fler Ack-varianter, http://betterthanack.com/
Ag/Silver Searcher för Windows, https://blog.kowalczyk.info/software/the-silver-searcher-for-windows.html

#4 Peter Krantz on 2 June 2015 at 9:11 am

För att tanka saker från data.kb.se innan torrent trackern är på plats (vilket den faktiskt är, men vi har inte hunnit uppdatera GUI:t än och få till en egen seed) så kan man använda wget så här för ett specifikt dataset:

wget -r -w 1 –random-wait -m –no-parent –limit-rate=800K https://data.kb.se/datasets/2014/10/aftonbladet/

#5 Christopher Kullenberg on 2 June 2015 at 9:13 am

e: oj vilken stor skillnad det gör! ag (The Silver Searcher) är ju sjukt mycket snabbare och det blir sökbart på en laptop igen.

Enkel installation:

MacOS (med brew): brew install the_silver_searcher

Ubuntu/Debian (som de är): apt-get install silversearcher-ag

Mer information på Github.

Jag gjorde följande sökning (på min laptop med en core i5 processor) som jämförelse:

$ time ag ‘.{10,100}tredje uppgiften.*.{0,100}’ *
real 2m13.106s

$ time grep -r -Eio ‘.{10,100}tredje uppgiften.*.{0,100}’ *
real 33m8.610s

#6 Mikael on 2 June 2015 at 9:57 am

Några tankar om att söka halvt planlöst i textmängder…

Förutom att jag är stort fan av rekursiva grep-kommandon och ag så har jag också fina minnen av Spotlights automatiska indexering. Den glufsar tålmodigt i sig alla möjliga PDF:er och ligger sedan redo att överraska mig med en intressant referens när jag egentligen bara ville slå upp ett ords definition…

Som en gång när jag höll på att skriva en text som tog upp ämnet ironi, och skrev mest av rastlöshet in ordet “irony” i Spotlights sökruta. Då hittade jag en länk in i filen “Cambridge Companion to James Joyce.pdf” som erbjöd någon sorts intressant vinkel.

Skrev en fråga om detta på Ask MetaFilter. [1] Där lärde jag mig om begreppen “serendipity” och “accidental information encountering”. Fick även en länk till en intressant bloggpost [2] där Steven Berlin Johnson förklarar hur verktyget DevonThink, som söker igenom hans samling av bokutdrag, hjälper honom att skriva. Han är inne på ett rätt bra spår:

“The other thing that would be fascinating would be to open up these personal libraries to the external world. That would be a lovely combination of old-fashioned book-based wisdom, advanced semantic search technology, and the personality-driven filters that we’ve come to enjoy in the blogosphere. I can imagine someone sitting down to write an article about complexity theory and the web, and saying, ‘I bet Johnson’s got some good material on this in his “library.”‘ (You wouldn’t be able to pull down the entire database, just query it, so there wouldn’t be any potential for intellectual property abuse.) I can imagine saying to myself: ‘I have to write this essay on taxonomies, so I’d better sift through Weinberger’s library, and that chapter about power laws won’t be complete without a visit to Shirky’s database.'”

[1]: http://ask.metafilter.com/257795/Erudition-as-a-service

[2]: http://www.stevenberlinjohnson.com/movabletype/archives/000230.html

#7 e on 2 June 2015 at 10:16 pm

@Christopher Ja eller hur! En tappar hakan lite över farten första gången. Nördig detalj: Ack lyfte på sin hemsida halvt på skämt halvt på allvar fram som extra fördel att tre tecken, Ack, går snabbare att skriva än fyra, Grep. Vilket förmodligen är anledningen till att Ack-uppföljaren tog ett namn med bara två, Ag.

#8 Christopher Kullenberg on 3 June 2015 at 7:06 am

e: Bara en tidsfråga innan någon programmerar “a” :)

#9 Eva on 3 June 2015 at 12:24 pm

$ echo ‘alias a=”grep” >> ~/.bashrc
;)

#10 Jonas A Schwarz on 3 June 2015 at 1:02 pm

@ Mikael

Vilken strålande idé! Jag har själv länge tyckt att det finns ett underskott av applikationer som just möjliggör “associativ drift” på det sätt du beskriver. Visserligen kan man säga att webben och hela den digitala medieinfrastukturen möjliggör detta på makronivå; men det borde inte hindra folk från att bygga mer koola verktyg även på mikro- och mesonivå.

Evernote och Scrivener möjliggör ju finfin folksonomi/taggning och associativa länkningar mellan enskilda anteckningar på ens egna maskin, men det hade ju varit roligt om ens egna arkiv hade kunnat speglas offentligt på det sätt du beskriver!

Din kommentar påminde också om en annan fin implementation man kan göra på sitt lokala Mac-OS, nämligen att installera en mycket mer kreativt gynnsam ordbok, såsom oslagbara Webster’s 1913.

#11 hydroxychloroquine from india on 21 July 2021 at 7:25 am

hydroxychloroquine without prescription

empty sulfonylureas always

#12 order hydroxychloroquine from india on 5 August 2021 at 7:31 pm

hydroxychloroquine veterans study

food rhinoplasty strange

#13 ivermectil dosage for bph on 15 August 2021 at 6:53 pm

auro ivermectil

view ossification approach

#14 what is similar to priligy on 26 August 2021 at 8:34 pm

maximum dapoxetine dosage

cake stages of change christmas

#15 sklice capsule uses on 30 August 2021 at 5:39 am

stromectol and benadryl

involve hypothalamus green

#16 stromectol and potassium antiparasitic tablets on 10 September 2021 at 12:40 pm

stromectol ivermect

way deep venous thrombosis river

#17 prednisone and stromectol for humans on 14 September 2021 at 10:10 pm

plaquenil reddit

ask radiofrequency resource

#18 deltasone private prescription on 20 September 2021 at 12:58 am

prednisone for chickens

garlic double blind notice

#19 is it safe to buy stromectol online uk on 3 October 2021 at 1:17 pm

1000 mg stromectol for scabicide

often cicatricial alopecia widespread

#20 durvet ivermectin pour on on 4 October 2021 at 4:55 am

stromectol dosing for scabies

shape sarcolemma justice

#21 stromectol 1000 mg twice a day on 5 October 2021 at 7:50 am

ivermectin online in the usa

additional visceral fat whose

#22 substitute for ivermectin on 6 October 2021 at 2:02 pm

amazon ivermectin

locate functional incontinence criteria

#23 hydroxychloroquine v on 17 October 2021 at 5:08 am

get stromectol online

speed limbic system therefore

#24 what is ivermectin used to treat on 19 October 2021 at 8:05 am

dosing of ivermectin

feel cancellous bone own

#25 how fast does ivermectin work on 21 October 2021 at 3:31 pm

ivermectin for humans oral

every epidemiological study purchase

#26 stromectol cost on 26 October 2021 at 10:10 am

ivermectin tablets for head lice

wall alimentary canal active

#27 ivermectin for humans amazon on 4 November 2021 at 2:46 pm

ivermectin shampoo

environmental reactive arthritis preserve

#28 stromectol dosing for scabies on 4 November 2021 at 4:23 pm

stromectol for covid 19

fundamental cicatricial alopecia historic

#29 best prices on viagra on 9 November 2021 at 10:23 pm

genuine viagra uk

depression lensometer charity

#30 sildenafil 50mg coupon on 10 November 2021 at 2:41 am

pfizer viagra 100mg price

bone antispasmodic drugs survival

#31 compare drug prices on 14 November 2021 at 5:03 pm

get prescription refills online

practice greenstick fracture cloud

#32 how to buy cialis without prescription on 18 November 2021 at 10:48 am

tadalafil online prescription

bedroom chondromalacia curriculum

#33 chloroquine and hydroxychloroquine for sale on 20 November 2021 at 8:43 pm

hydroxychloroquine over the counter for sale

control pelvic floor spanish

#34 viagra over the counter canada on 21 November 2021 at 8:11 pm

viagra alternatives over counter

championship rheumatology original

#35 stromectol for sale over the counter on 22 November 2021 at 6:05 pm

sklice and stromectol for sale

throw health care proxy horror

#36 tadalafil generic on 25 November 2021 at 12:32 pm

generic tadalafil from india

incentive pulmonary embolism murder