Att rangordna böcker efter “relevans”

Malte Persson meddelade just en lustig upptäckt. Om man söker i Stockholms bibliotekskatalog utan att fylla i sökrutan får man en lista på alla böcker i beståndet, sorterad efter “relevans”.

Mest “relevant” är tidskriften “Allt om mat”. Sedan följer en blandning av deckare, barnböcker, Augustvinnare och Strindberg.
Även flera barnböcker om mat ligger högt. Mat är förstås ofta rätt relevant.
Allra MINST “relevanta” i hela Stockholms bibliotekskatalog är tyvärr Salingers “Franny och Zoey” och Cordelia Edvardsson.
Ser även att “Anne Franks dagbok” hamnar på en föga hedrande 738823:e plats i listan över bibliotekets mest “relevanta” böcker.

Noterar även att man kan göra samma sak i Libris (åtminstone nästan, genom att söka på alla böcker med svenska som språk). Sorteringen av “relevans” framstår där enbart som mystisk.

Sveriges genom tiderna relevantaste bok utgavs av Jämtlands läns landsting år 2005. Dess titel är Alla ryggpatienter som remitteras till länssjukvård behöver inte träffa ortoped. Minst relevant är noter till finska sånger.

Ett rimligt krav att ställa på offentliga bibliotek är faktiskt att dessa algoritmer ska vara öppen källkod. Då öppnas möjligheten till en fruktbar diskussion om vad som ska prioriteras i skattefinansierade sökmotorer.

Ge gärna fler tips på liknande nollsökningar som blottlägger algoritmisk “relevans”, både på bibliotek och i kommersiella nättjänster!

15 kommentarer ↓

#1 David on 9 December 2012 at 4:19 pm

De flesta fritextsöksystem defaultar till att lista poster enligt någon form av internt id (t.ex. maskindid:t i det underliggande sökindexet) när de ombeds att lista det fullständiga innehållet. Utan ett sökord kan det inte kalkylera “relevans” på något meningsfullt sätt.

Samma sak i LIBRIS skulle jag tro (misstänker att deras sök är baserat på Lucene eller Solr sökservern). När du anger lista alla poster där det enskilt indexerade och strukturerade fältet språk=svenska listas de helt enkelt efter ett internt id i sökindexet.

Så det är mer ett interaktionsdesignsproblem/misstag än ett relevansalgoritmsproblem.

För transparensens skull:
Söktjänsten jag själv arbetar med använder algoritmen BM25f, http://en.wikipedia.org/wiki/Okapi_BM25 för att kalkylera relevans.

#2 avadeaux on 9 December 2012 at 4:28 pm

Relevansen beräknas ju i förhållande till vad man sökt. Om man inte fyller i sökrutan ordnas alltså resultaten efter relevans i förhållande till “ingenting”, vilket man minst lika gärna kunde tolka som inte relevant alls.

#3 Caspian Rehbinder on 9 December 2012 at 5:28 pm

Stockholms Universitet har en väldigt rimlig topplista vid en tom sökning sorterat på relevans. De översta (minst) 40 resultaten är artikeldatabaser, bibliotek, och så vidare. På plats 44 kommer Encyclopædia Britannica, och på plats 47 börjar ämnesspecifika handböcker dyka upp.

Allra minst relevanta är tydligen Adam Oehlenschlägers samlade dikter och prosa, band 5 på danska, följt av Dictionary of Water and Waste Management och en avhandling om teknik, organisation och produktivitet inom svensk banksektor 1975–2003.

http://sub.su.se/sok.aspx

#4 Linus Walleij on 9 December 2012 at 6:52 pm

Väldigt sorgligt med Franny och Zooey. Jag har den här i bokhyllan, det är en mycket bra bok.

#5 Gunnar on 9 December 2012 at 9:00 pm

“Alla ryggpatienter…” låter som den pjäs Peter Weiss aldrig fick skrivet. Han var ju väldigt relevant, annars.

#6 Det kan bli lite lustigt när begrepp används slentrianmässigt – eller har Stockholms… | +Bolstad on 9 December 2012 at 9:05 pm

[...] http://copyriot.se/2012/12/09/att-rangordna-bocker-efter-relevans/ [...]

#7 JVVF on 10 December 2012 at 1:58 pm

Att använda en global “relevans”-lista oberoende av söktermer är en av de saker som gjorde Google så överlägsen alla andra sökmotorer när den lanserades.

För Google bestäms denna “relevans” av Page-rankningen (döpt efter Google-grundaren Larry Page) som ordnar alla sidor på nätet efter deras allmänna relevans. Uträkningen av Page-rankningen hos Google baseras på länkar mellan sidor, men det har hävdats att det går utmärkt att räkna ut Page-rank för t.ex. vetenskapliga artiklar baserat på citat. Kanske finns det någon sorts “röstningssystem” mellan böcker på ett bibliotek man kan använda?

#8 avadeaux on 10 December 2012 at 10:17 pm

JVVF: Intressant tolkningsmöjlighet! Men för att kunna ranka som Google måste man ju ha någon sorts referenser mellan verken, och det är svårt vad det skulle vara för böcker generellt. Hade man något liknande IMDb, som berättade hur böcker refererar till varandra, så vore det förstås lätt att göra, på samma sätt som man kan räkna ut vilka som är filmhistoriens viktigaste verk (enligt den information folk har orkat ange på IMDb). För vetenskapliga arbeten vore det också lätt att ranka med hjälp av referenslistor.

#9 Erik on 10 December 2012 at 10:45 pm

Vilken skrift som är minst relevant på Chalmers kan man tyvärr inte se då det verkar som att man inte kan gå längre än till sidan 50. Men den femte mest relevanta skriften någonsin är i alla fall tidningsartikeln “Princess burns feet on Caribbean holiday”, från 1999.

http://chalmers.summon.serialssolutions.com/sv-SE/search?s.q=

#10 Lars Aronsson on 11 December 2012 at 12:32 am

I tidernas begynnelse fungerade nog Googles Page rank så som den beskrivs i tidiga vetenskapliga uppsatser. Med tiden måste deras algoritmer och bedömningar ha omvärderats baserat på folks verkliga sökmönster. I början var det en ansträngning att söka av hela webben och samla in alla webbsidorna. Idag är det mycket mer trafik på användarsidan (sökningar) än på robotsidan, så det finns mer statistikunderlag i användarnas sökmönster än i webbsidornas länkmönster.

#11 JVVF on 11 December 2012 at 8:25 am

Tack för det intressanta fim-exemplet avadeaux.

Lars: min association till Google byggde i första hand på att man använder något sådant som en “global relevans”, en rankning oavsett vilken sökterm man använder. Detta är ju inte den intuitivt uppenbara vägen att göra sökning. Att relevansen beror på vad man söker efter är nog för de allra flesta det naturliga. Bara för att Google idag anpassar rankningen efter den som söker så har man nog inte gått ifrån den ursprungliga idén som PageRank utgör.

#12 Rolf Johansson on 21 December 2012 at 3:56 pm

Varför i hela friden skulle man göra en tom sökning och ens förvänta sig att resultatet blir något användbart? Systemen är ju inte gjorda för det. Hur hanterade man det här “problemet” förr i tiden? Gick man fram till bibliotekarien i disken och frågade: “Hej. Jag vill att du berättar för mig vilken som är den mest relevanta boken på hyllorna här. Och vilken som är den minst relevanta.”? Jag har arbetat med relevansrankning i bibliotekssystem i många år och aldrig ens stött på den här frågan.

#13 rasmus on 21 December 2012 at 4:10 pm

Rolf Johansson: Vad fint att du demonstrerar din egen avsaknad av humor samt ointresse för den lilla men seriösa påpekandet som faktiskt gjordes, gällande transparens och öppen källkod.

#14 Rolf Johansson on 2 January 2013 at 9:40 am

Ja, humor är ganska svårt och ganska subjektivt. Oftast läser jag Rocky för att få ett gott skratt, inte blogginlägg om relevansrankning. Men lycka till med transparensen. Många bibliotek köper tjänster och system som inte är Open Source och då är det företagen som bestämmer. Du kanske mer är ute efter ett krav på att offentlig förvaltning enbart ska arbeta med Open Source?

#15 COPYRIOT | Relevanshelvetet on 26 January 2014 at 11:26 am

[…] Att rangordna böcker efter “relevans” […]

Kommentera