- Copyriot - https://copyriot.se -

Att rangordna böcker efter “relevans”

Malte Persson meddelade just en lustig upptäckt. Om man söker i Stockholms bibliotekskatalog utan att fylla i sökrutan får man en lista på alla böcker i beståndet, sorterad efter “relevans”.

Mest “relevant” är tidskriften “Allt om mat”. Sedan följer en blandning av deckare, barnböcker, Augustvinnare och Strindberg.
Även flera barnböcker om mat ligger högt. Mat är förstås ofta rätt relevant.
Allra MINST “relevanta” i hela Stockholms bibliotekskatalog är tyvärr Salingers “Franny och Zoey” och Cordelia Edvardsson.
Ser även att “Anne Franks dagbok” hamnar på en föga hedrande 738823:e plats i listan över bibliotekets mest “relevanta” böcker.

Noterar även att man kan göra samma sak i Libris (åtminstone nästan, genom att söka på alla böcker med svenska som språk). Sorteringen av “relevans” framstår där enbart som mystisk.

Sveriges genom tiderna relevantaste bok utgavs av Jämtlands läns landsting år 2005. Dess titel är Alla ryggpatienter som remitteras till länssjukvård behöver inte träffa ortoped. Minst relevant är noter till finska sånger.

Ett rimligt krav att ställa på offentliga bibliotek är faktiskt att dessa algoritmer ska vara öppen källkod. Då öppnas möjligheten till en fruktbar diskussion om vad som ska prioriteras i skattefinansierade sökmotorer.

Ge gärna fler tips på liknande nollsökningar som blottlägger algoritmisk “relevans”, både på bibliotek och i kommersiella nättjänster!

15 Comments (Open | Close)

15 Comments To "Att rangordna böcker efter “relevans”"

#1 Comment By David On December 9, 2012 @ 4:19 pm

De flesta fritextsöksystem defaultar till att lista poster enligt någon form av internt id (t.ex. maskindid:t i det underliggande sökindexet) när de ombeds att lista det fullständiga innehållet. Utan ett sökord kan det inte kalkylera “relevans” på något meningsfullt sätt.

Samma sak i LIBRIS skulle jag tro (misstänker att deras sök är baserat på Lucene eller Solr sökservern). När du anger lista alla poster där det enskilt indexerade och strukturerade fältet språk=svenska listas de helt enkelt efter ett internt id i sökindexet.

Så det är mer ett interaktionsdesignsproblem/misstag än ett relevansalgoritmsproblem.

För transparensens skull:
Söktjänsten jag själv arbetar med använder algoritmen BM25f, [1] för att kalkylera relevans.

#2 Comment By avadeaux On December 9, 2012 @ 4:28 pm

Relevansen beräknas ju i förhållande till vad man sökt. Om man inte fyller i sökrutan ordnas alltså resultaten efter relevans i förhållande till “ingenting”, vilket man minst lika gärna kunde tolka som inte relevant alls.

#3 Comment By Caspian Rehbinder On December 9, 2012 @ 5:28 pm

Stockholms Universitet har en väldigt rimlig topplista vid en tom sökning sorterat på relevans. De översta (minst) 40 resultaten är artikeldatabaser, bibliotek, och så vidare. På plats 44 kommer Encyclopædia Britannica, och på plats 47 börjar ämnesspecifika handböcker dyka upp.

Allra minst relevanta är tydligen Adam Oehlenschlägers samlade dikter och prosa, band 5 på danska, följt av Dictionary of Water and Waste Management och en avhandling om teknik, organisation och produktivitet inom svensk banksektor 1975–2003.

[2]

#4 Comment By Linus Walleij On December 9, 2012 @ 6:52 pm

Väldigt sorgligt med Franny och Zooey. Jag har den här i bokhyllan, det är en mycket bra bok.

#5 Comment By Gunnar On December 9, 2012 @ 9:00 pm

“Alla ryggpatienter…” låter som den pjäs Peter Weiss aldrig fick skrivet. Han var ju väldigt relevant, annars.

#6 Pingback By Det kan bli lite lustigt när begrepp används slentrianmässigt – eller har Stockholms… | +Bolstad On December 9, 2012 @ 9:05 pm

[…] [3] […]

#7 Comment By JVVF On December 10, 2012 @ 1:58 pm

Att använda en global “relevans”-lista oberoende av söktermer är en av de saker som gjorde Google så överlägsen alla andra sökmotorer när den lanserades.

För Google bestäms denna “relevans” av Page-rankningen (döpt efter Google-grundaren Larry Page) som ordnar alla sidor på nätet efter deras allmänna relevans. Uträkningen av Page-rankningen hos Google baseras på länkar mellan sidor, men det har hävdats att det går utmärkt att räkna ut Page-rank för t.ex. vetenskapliga artiklar baserat på citat. Kanske finns det någon sorts “röstningssystem” mellan böcker på ett bibliotek man kan använda?

#8 Comment By avadeaux On December 10, 2012 @ 10:17 pm

JVVF: Intressant tolkningsmöjlighet! Men för att kunna ranka som Google måste man ju ha någon sorts referenser mellan verken, och det är svårt vad det skulle vara för böcker generellt. Hade man något liknande IMDb, som berättade hur böcker refererar till varandra, så vore det förstås lätt att göra, på samma sätt som man kan räkna ut [4] (enligt den information folk har orkat ange på IMDb). För vetenskapliga arbeten vore det också lätt att ranka med hjälp av referenslistor.

#9 Comment By Erik On December 10, 2012 @ 10:45 pm

Vilken skrift som är minst relevant på Chalmers kan man tyvärr inte se då det verkar som att man inte kan gå längre än till sidan 50. Men den femte mest relevanta skriften någonsin är i alla fall tidningsartikeln “Princess burns feet on Caribbean holiday”, från 1999.

[5]

#10 Comment By Lars Aronsson On December 11, 2012 @ 12:32 am

I tidernas begynnelse fungerade nog Googles Page rank så som den beskrivs i tidiga vetenskapliga uppsatser. Med tiden måste deras algoritmer och bedömningar ha omvärderats baserat på folks verkliga sökmönster. I början var det en ansträngning att söka av hela webben och samla in alla webbsidorna. Idag är det mycket mer trafik på användarsidan (sökningar) än på robotsidan, så det finns mer statistikunderlag i användarnas sökmönster än i webbsidornas länkmönster.

#11 Comment By JVVF On December 11, 2012 @ 8:25 am

Tack för det intressanta fim-exemplet avadeaux.

Lars: min association till Google byggde i första hand på att man använder något sådant som en “global relevans”, en rankning oavsett vilken sökterm man använder. Detta är ju inte den intuitivt uppenbara vägen att göra sökning. Att relevansen beror på vad man söker efter är nog för de allra flesta det naturliga. Bara för att Google idag anpassar rankningen efter den som söker så har man nog inte gått ifrån den ursprungliga idén som PageRank utgör.

#12 Comment By Rolf Johansson On December 21, 2012 @ 3:56 pm

Varför i hela friden skulle man göra en tom sökning och ens förvänta sig att resultatet blir något användbart? Systemen är ju inte gjorda för det. Hur hanterade man det här “problemet” förr i tiden? Gick man fram till bibliotekarien i disken och frågade: “Hej. Jag vill att du berättar för mig vilken som är den mest relevanta boken på hyllorna här. Och vilken som är den minst relevanta.”? Jag har arbetat med relevansrankning i bibliotekssystem i många år och aldrig ens stött på den här frågan.

#13 Comment By rasmus On December 21, 2012 @ 4:10 pm

Rolf Johansson: Vad fint att du demonstrerar din egen avsaknad av humor samt ointresse för den lilla men seriösa påpekandet som faktiskt gjordes, gällande transparens och öppen källkod.

#14 Comment By Rolf Johansson On January 2, 2013 @ 9:40 am

Ja, humor är ganska svårt och ganska subjektivt. Oftast läser jag Rocky för att få ett gott skratt, inte blogginlägg om relevansrankning. Men lycka till med transparensen. Många bibliotek köper tjänster och system som inte är Open Source och då är det företagen som bestämmer. Du kanske mer är ute efter ett krav på att offentlig förvaltning enbart ska arbeta med Open Source?

#15 Pingback By COPYRIOT | Relevanshelvetet On January 26, 2014 @ 11:26 am

[…] Att rangordna böcker efter “relevans” […]