En inbjudan till att hacka bokmarknaden

Fortsätter att fundera på detta med de robotgenererade böckerna som fyller nätbokhandlarnas träfflistor med hundratals titlar. Böcker som knappast kan kallas för “utgivna”, åtminstone inte förrän någon köper dem – utan att inse att det rör sig om taskigt hopbundna utskrifter från Wikipedia.

Nyligen jämförde jag hur olika nätbokhandlar presenterar de Wikipedia-utskrifter som VDM Verlag saluför under föregivning att de författats av “Lambert M Surhone, Mariam T Tennoe, Susan F Henssonow”. (Uppenbarligen har någon insett att en mellaninitial i namnet stärker intrycket av att det rör sig om en redig forskare.) Jag noterade att Bokus och Amazon trots allt visar produktbeskrivningar som inleds med orden “High Quality Content by WIKIPEDIA”. Adlibris, däremot, ger ingen produktbeskrivning alls, vilket kan ses som aningen vilseledande mot de kunder som tror sig ha hittat en bok skriven av tre författare.
Adlibris replikerade: “Vi jobbar på att tydliggöra det för våra kunder.” Men frågan är om någon av nätbokhandlarna har tänkt tillräckligt på hur de ska möta det här fenomenet, som bara kan förväntas växa i omfattning. Visst är det lätt att förespråka öppenhet och visst är det bra att även Adlibris i princip släpper fram alla förlag som helst sälja sina böcker, även om de systematiskt premierar sina egna ägare (Bonniers) vad gäller försäljningsvillkor och marknadsföring.
Någonstans måste det finnas en övre gräns för hur många miljoner titlar av dessa slag som halvskumma förlag kan pressa in i katalogerna. Till slut kommer sökresultaten på Adlibris, Bokus och Amazon att påminna om sökresultaten på ett mindre nogräknat torrentindex. Mängden spam kommer att få bokkunderna att söka sig bort, till konkurrenter eller metasökmotorer som filtrerar hårdare. Risken är bara att en del böcker från små, seriösa förlag också försvinner, som barnen med barnvattnet.

Ännu har ingen (såvitt jag vet) börjat producera robotböcker på svenska. Men jag tänker mig att det bara är en tidsfråga innan någon skrupelfri person startar ett “förlag” och lanserar hundratusentals böcker. Här finns pengar att hämta, kanske inte jättestora pengar, men relativt lätta och lagliga. Särskilt för den som vet att läsa av topplistorna på vad som redan säljer i Sverige och få ut böcker med titlar som utformats för att dyka upp i samma listor över sökresultat. Böcker om kungens sexliv, Stieg Larsson, bantning… helt bestående av artiklar från Wikipedia, sammanställda av en robot.
Ett enda lagligt hinder kan skymtas: lagen om pliktexemplar. Enligt den måste en skrift på svenska, avsedd för spridning i Sverige, skickas in för arkivering. Detta gäller även print-on-demand. Om upplagan är under 30 exemplar räcker det med två pliktexemplar, men om den sålda upplagan ligger på ett (1) betyder detta att priset tredubblas för kunden. Detta kan betyda att robotböckerna trots allt inte kommer att invadera Sverige, eller så sker det ändå fast i regi av förlag registrerade i utlandet vars ägare är svåra att spåra.

Jag tänker ändå att det vore intressant att hinna före. Att genomföra ett experiment i mindre skala och utan vinstintresse, mest för att väcka debatt om bokmediets och bokmarknadens framtid. Inte för att jävlas, utan för att dra lärdomar som kan komma alla till del. Kort sagt: ett hack.

För detta hack krävs i grunden två saker: programmering och administration.

Programmeringen går ut på att koda en “robot” som kan autogenerera ett stort antal “böcker” för print-on-demand. En bok torde i sammanhanget kunna definieras som två saker: en pdf-fil plus en katalogpost. Viktigast är katalogposten, särskilt bokens titel. Det vore dock skojigt om programmet även kan skapa någorlunda snygga omslag i thumbnail-storlek, baserat på bilder som är fria att använda.
Bokens innehåll är mindre viktigt eftersom köparen får se det först efter köp. Det kan vara vilka Wikipedia-artiklar som helst, men det är viktigt att källa anges så att inte den upphovsrättsliga licensen bryts. Till experimentets natur hör också att det “mänskliga” inslaget i processen bör minimeras. På sin höjd ska man behöva skriva in två-tre nyckelord, sedan sköter roboten resten.
Om någon är nyfiken på att leka med detta är det bara att anmäla sig i kommentarsfältet eller kontakta mig på IRC.

Administrationen kanske inte låter så glamourös, men kommer att leda till nya insikter om bokmarknaden. Följande deluppgifter kan jag komma på direkt:
1) Etablera kontakt med någon som kan leverera print-on-demand. Eftersom vi inte vill locka kunder behöver det inte vara billigt, men det bör gå fort.
2) Etablera kontakt med Adlibris och/eller Bokus. Undersök villkoren för att sälja print-on-demand genom dem. Inte heller här spelar det någon roll om de vill göra hutlösa pålägg på priset. Vad som räknas är att få en kanal in i deras katalog.
3) Etablera kontakt med Kungliga Biblioteket angående pliktexemplar.
4) Registrera ett förlag som juridisk person, eftersom det antagligen är nödvändigt för att kunna bedriva affärer med Bokus/Adlibris. Bör göras på enklast möjliga sätt, kanske ideell förening. Det bör vara tydligt att experimentet inte bedrivs i vinstsyfte.

Jag kan själv tänka mig att dra i en del av administrationen, men skulle behöva någon till medhjälpare. Gärna folk som är slipade på näthandel eller har erfarenhet inom förlagsbranschen. Kanske kan detta experiment rentav bilda utgångspunkt för ett examensarbete eller en studentuppsats inom t.ex. företagsekonomi eller förlagsvetenskap?
Även de som inte har ork att delta aktivt i projektet får hemskt gärna dela med sig av sina kunskaper om hur detta kan genomföras eller inte. Nätbokhandlarna ger tyvärr ingen öppen information om vad som gäller för förlag som vill sälja böcker genom dem, men jag vet att flera som läser Copyriot även driver små bokförlag.

Vad tror ni – är detta hack genomförbart? Det räcker egentligen med att saluföra en enda skruttig robotbok, som kan få kosta tusen kronor. Om vi väl kommer över den tröskeln kan vi skåda ut över vilka eventuella hinder som finns för att spamma sönder Sveriges nätbokhandlar. Därefter kan vi avsluta experimentet och generöst dela med oss av alla slutsatser och all programkod.

33 kommentarer ↓

#1 Morgan on 26 January 2011 at 3:51 pm

Tryck dina egna blogginlägg som en bok, “Rasmus Fleischer – en naken berättelse” :)

#2 Malte on 26 January 2011 at 4:00 pm

Intressant inbjudning Rasmus! Jag kan inte vara till hjälp med juridik eller administration men bistår gärna med grafisk design-arbete. T.ex. några omslag till specialla satsningar i kataloget för att maximera marknadsföringen (från seriösa torra typografiska akademiska böcker till splash o färgrika kiosk-bestsellers). Fast, om någon kan komma på en idé att automatisera/robotisera den grafiska delen eller kanske hela marknadsföringsdelen, vore det ju ännu roligare. Ett kompromis är kanske att ha som dogme att automatisera så många saker i InDesign som möjligt, göra schabloner osv.

#3 rasmus on 26 January 2011 at 4:01 pm

Äh, det går mot min värdering av bokmediet att trycka bloggtext i bokform. Jag är överlag lite skeptisk till att låta mig utges i print-on-demand. Robotar, däremot, är en annan grej!

#4 Johan Ronström on 26 January 2011 at 4:29 pm

Men att skörda wikipedia-artiklar är ju trivialt, så innehållet blir nog inget problem. Och titlar borde man kunna generera genom att slumpa ihop ord från typ top 20 googleresultat.

Låter som ett projekt för sparvnästet! Jag är på!

#5 Anders on 26 January 2011 at 4:42 pm

Kopplingen till pliktlagen gör detta intressant av två skäl, dels för att det vore intressant att se hur KB kommer agera om någon börjar spamma dem med pliktexemplar (beror nog i och för sig på hur bra “böckerna” säljer), dels pga frågan om hur detta förhåller sig till en kommande lag om e-plikt (även om dessa “böcker” inte är elektroniskt publicerade).

Jag har mycket svårt att se att KB kommer höra av sig till sparvnästets hokuspokusförlag för att begära in pliktexemplaren, och kanske är det för dyrt att trycka två extraexemplar och skicka in dem själv? Jag tror inte heller att KB skulle prioritera katalogisering av dessa böcker. Men det skulle bli en intressant diskussion av det. Om ingen diskussion uppstod skulle även detta vara intressant att notera.

#6 Anders on 26 January 2011 at 4:51 pm

Förresten, det rimliga sättet att kontakta KB är nog att be om en egen serie ISBN-nummer. http://kb.se/isbn/ Jag tror KB tar tillfället i akt att informera om pliktlagen. Att börja med att fråga om pliktleverans är, misstänker jag, sällsynt hos folk som vill ge ut böcker.

#7 D on 26 January 2011 at 5:47 pm

Osäker på om den lilla blinkande texten längst ner räcker för att upphovsrätten ska ges upp, men i så fall borde man kunna ge ut Copyriot eller valfri annan blog med samma policy.

Det vill säga, Books LLC eller valfri annan utgivare har mycket mer intressant material (för att inte säga mer sammanhängande) att fylla nätaffärerna med. “Historikern Rasmus Fleichers, känd från tv/radio/DN/SvD, samlade betraktelser i bokform” låter bättre än “High quality content from Wikipedia”, och allt som krävs är en spindel som borde ta c:a 5 minuter att programmera med kaffepaus.

#8 Victor A on 26 January 2011 at 7:20 pm

@D: Men skulle inte poängen med ett robotförlag lite gå förlorad om en människa lägger tid på att välja ut texter/skribenter? Då har man plötsligt en människoredaktör och ligger avsevärt närmare ett vanligt människoförlags verksamhet.

Jag bidrar gärna till ett sånt här projekt, även om jag både har ont om tid och är en fullkomlig nybörjare i förlagsbranschen.

Den bästa idén här kanske ändå var att någon prövar dessa gränser inom ramen för ett examensarbete eller dylikt på någon (förläggar-)utbildning. Kan inte tänka mig ett bättre sätt att utforska bokmarknadens terränger.

Det första jag undrar över är möjligheten att registrera titlar direkt hos t.ex. Adlibris och Bokus, utan att det går genom något distributionssystem som Bokrondellen eller Förlagssystem. Det kostar nämligen några hundralappar att registrera varje titel i deras databaser, vilket försvårar den här formen av spammande.

#9 D on 26 January 2011 at 8:24 pm

Tja, göra ett urval av texter behöver man ju inte göra, allt som krävs är en nedslagspunkt för roboten, och det är minimalt arbete att peka ut, men det ligger något i att det ändå är mer mänsklig aktivitet än Wikipedia-böckerna. Dock vet jag inte hur dessa “väljer” sina ämnen, hela Wikipedia har de ju inte publicerat. Det är möjligt att de bara kravlar igenom Wikipedias “Category”-sidor och letar efter något med en tillräckligt stor mängd artiklar.

Något liknande borde dock gå att göra i bloglistningar av olika slag

#10 Viktor on 26 January 2011 at 9:05 pm

För framsidor borde väl t.ex. Python Imaging Libray och lite kod som skördar abstrakta CC-bilder, slänger på titel, författare och kanske lite färgplattor räcka. Indesign känns overkill eftersom det kräver dyr programvara hos den som skall köra roboten. Trevligt program, men här räcker Python eller vad den som har tid att programmera råkar kunna. FOSS är dock bra eftersom instegskostnaden för att driva förlag då blir liten.

Är det någon som funderat på om vi kunde robotgenerera böcker som folk faktiskt köper och läser med glädje? Bloggspåret känns ganska rätt där. En robotgenererad bok om t.ex. FRA-debatten med alla viktiga blogginlägg och någon söags abstraktion av relationerna och tidslinjerna skulle t.ex. inte behöva vara ett felköp.

#11 Erik Josefsson on 26 January 2011 at 9:06 pm

Alltså, det här är ju inte helt obesläktat med min lilla offentliga upphandling hos HAX: http://henrikalexandersson.blogspot.com/2011/01/offentlig-upphandling.html

Här kan man trycka:

http://completelynovel.com
http://createspace.com
http://lulu.com
http://fastpencil.com
http://wordclay.com
http://blurb.com

Här finns “förlag”

http://xinxii.com
http://webook.com
http://scribd.com
http://smashwords.com

Måste vara jobbigt att vara i bokbranschen…

#12 mikael on 26 January 2011 at 10:08 pm

Ni vet förmodligen att Wikipedia har en egen smidig funktion för att generera fullfjädrade PDF-böcker av en uppsättning artiklar. Som uppsättning kan man välja en kategori. Här är t.ex. resultatet av att klicka in kategorin “Ufology”: http://en.wikipedia.org/wiki/User:Mikael_Brockman/Books/Ufology

#13 tiq on 27 January 2011 at 3:43 am

kom för att posta ungefär samma sak som mikael.

wikipedias bokfunktion är ju kanske tillräcklig?
bygger på pythonverktyget mwlib – http://code.pediapress.com/wiki/wiki
eller så scriptar man firefox att ladda hem böckerna direkt från wikipedia.

Det finns visst 97000 böcker att göra! (om vi tar svenska och kategorisidor, ingen aning om det stämmer)

http://www.google.com/search?q=site%3Ahttp%3A%2F%2Fsv.wikipedia.org%2Fwiki%2FKategori

#14 rasmus on 27 January 2011 at 9:19 am

mikael, tiq: Kände inte till den funktionen. Stort tack för tipset, det är nog användbart i sammanhanget. Dock inte “tillräckligt”, eftersom “bok” ju ovan definierades som pdf plus katalogpost där det senare är den viktigaste komponenten om man ska ta sig in i nätbokhandlarnas sökresultat.

#15 Viktualiebrodern on 27 January 2011 at 11:51 am

Du kan prova att ladda ner hela patentdokument i hela patentklasser, och sedan ge ut en bok med titeln på klassen.

Till exempel klassen A61F5/00R. Innehåller 37 dokument som kan laddas ner som pdf från Espacenet. Länk ovan.

Titel på boken: Anti-Rape Devices…

Tror den skulle sälja faktiskt :-)

#16 rasmus on 27 January 2011 at 11:52 am

Viktualiebrodern: Strålande idé!

#17 Viktualiebrodern on 27 January 2011 at 11:55 am

Äh, prova länken ovan och skriv in A61F5/00R i rutan där det står “European Classification (ECLA)

#18 tiq on 27 January 2011 at 1:13 pm

Jo, katalogposten är ju viktig.
tror att man måste välja en av två vägar, antingen lägga in ganska mycket kreativitet för att skapa en robot som själv genererar både bok och metadata, utifrån ett frö som man på något sätt samlat in. Eller så kan man lägga ner minimalt med manuellt arbete och kreativitet för att skapa boken/posten.

Det vackra vore ju att bygga boten som både väljer artiklar och skapar metadata/katalogpost med titel och “baksidestext” – antar sån behövs. Men det känns som det är svårt att få till algoritmer som gör det automatiskt och fortfarande användbart.

Vid visst manuellt arbete slipper man böcker som uppenbart är spam, (Kategori:Användare e-o) och kan skapa ett förlag som kanske inte ger ut kvalitetslitteratur men iallafall något som någon tror den skulle vilja läsa. Jag testade att göra en bok på kategorin ovanför den senaste svenska wikipediasidan jag var på, det tog två minuter med en arbetsinsats om tjugo sekunder att klura ut en titel och resten klickande som kan automatiseras. Resultatet blev en inte helt oäven pdf om det franska köket. Lägg till några sekunder så kan man välja ut en CC-bild som gör sig någorlunda som omslag. Men det är ju inte en robot som gör det…

Antar katalogposten måste innehålla “enkel” metadata som isbn, förlag och annat som kan automatiseras, samt titel och sammanfattning som kan bli svårare utan manuellt bearbetande.

Men, vad är syftet med detta? Att fylla boklådornas databaser med skräp för att tvinga dem att ta till åtgärder? Att tvinga dem att laga systemet innan det gått sönder fullständigt. För det som kommer hända då är att alla egenförlag med vettiga böcker som ligger i den bortre delen av “svansen” blir utkastade med spammarna, och det är ju lite elakt. Ska man bidra till det spotifierandet? Eller är syftet att få bokhandlarna att kasta ut enbart spamförlagen? Så länge de genererar mer intäkter för såld spam än förlusten för uteblivna kunder kommer de vara kvar, sen kommer de stängas av. De spammare som ligger i framkant tekniskt kommer producera böcker som vid en snabb granskning ser mycket bättre ut än många av de utgivna på eget förlag.

Vad det gäller pliktexemplar så åligger det tryckeriet att skicka in dem, kostnaden brukar väl vara inbakad i startkostnaden.

Det måste väl till en funktion som kollar antalet sidor i boken och bestämmer ett pris utifrån det, så man inte säljer en bok med 1200 sidor för en hundring…

Att släppa verktyget fritt efter avslutat trollande känns inte helt ok. Det är att ge lite för mycket gratis till spammare som gör det för pengar och inte för lulz.

#19 Erik Josefsson on 27 January 2011 at 2:28 pm

Syftet nämndes: “Att fylla boklådornas databaser med skräp för att tvinga dem att ta till åtgärder?” och så patent, och så gränsdragningsproblematik (såklart, det är ju Copyriot’s grej).

I detta vill jag minnas att David Martin (M-CAM) sa att “det är lättare att förfalska ett patent än en produkt” (se thepatentbay.org) och påminna om Hartmuts förslag Make Polluters Pay: http://eupat.ffii.org/07/p2parl/exam/ .

//Erik

#20 rasmus on 27 January 2011 at 2:43 pm

Nja, syftet är väl inte “att fylla boklådornas databaser med skräp för att tvinga dem att ta till åtgärder”. Läs sista stycket i bloggposten. Där står att syftet snarare är att utforska möjligheterna att spamma sönder nätbokhandlarna. Inte att faktiskt göra det.
Hackeretiskt betraktat finns det en poäng i att genomföra detta med största öppenhet, i stället för att invänta att någon halvskum typ börjar pröva sina algoritmer. Om resultatet skulle bli en spotifiering av Adlibris och Bokus – ja, då kan vi desto tydligare se behovet av alternativ till dessa.

#21 Johan on 27 January 2011 at 5:04 pm

“Ännu har ingen (såvitt jag vet) börjat producera robotböcker på svenska. Men jag tänker mig att det bara är en tidsfråga innan någon skrupelfri person startar ett “förlag” och lanserar hundratusentals böcker.”

…fick mig osökt att tänka på:

http://copyriot.blogspot.com/2004/11/nicotext-plagierar-biktse.html

Nära, snart en hare?

#22 johan ronström on 27 January 2011 at 6:36 pm

Jag kan inte tänka mig att titlar och omslagsbilder skulle vara nåt problem, en standardlösning som “Sparvnästets lilla bok om X” där x är sökordet/sökorden/wikipediakategorin man lagt in räcker ju. Och en enda fri bild som man slumpar färgeffekter på och lägger på titeln. Tänk så många “riktiga” förlag som har såna bokserier!

Och en baksidestext kan man ju ta första stycket på första artikeln (eller kategorisidan) bara. Vi är ju inte ute efter kvalitet här!

#23 johan ronström on 27 January 2011 at 6:47 pm

juiced.files.wordpress.com/2008/11/popular-penguin-covers.jpg

Svårare än så behöver det inte vara :-)

#24 Viktor on 27 January 2011 at 8:17 pm

Jag kan se tjusningen utifrån ett debattperspektiv. Tekniskt ser vi ju redan att det inte är särskilt mycket till utmaning. Det är av intresse att definiera när en bok blir en bok.

Vad skall det vara för katalogpost? En äkta MARC-post eller kör nätbokhandlarna något eget XML-format, csv eller annat? Att generera metadata bör ju låta sig göras rätt enkelt. Svårast blir nog klassifikation om sådan önskas. Kan man få ut hyfsade ämnesord så kan man kanske ändå mappa lite på en höft mot SAB-systemet/Dewey(?).

#25 g on 28 January 2011 at 2:05 am

experimentet får mig att tänka på när skivbolagen försökte spamma sönder napster med fejkade mp3s

#26 COPYRIOT | Mauritius nya exportprodukt: ISBN-nummer on 28 January 2011 at 1:14 pm

[…] En inbjudan till att hacka bokmarknaden […]

#27 Anders on 29 January 2011 at 2:55 am

Nätbokhandlarna kommunicerar nog med ONIX-poster, http://www.editeur.org/11/Books/ Men jag vet inte hur de aggregeras in i boklådorna. Vore intressant att veta, dock.

Kanske en teknisk utmaning att automatgenerera klassifikationskod, men roligare att lämna det till Nationalbibliografin, efter att boken pliktlevererats.

Boken blir ju för övrigt ett intressant objekt i sig – nästan så att jag vill köpa den!

#28 Tove on 1 February 2011 at 2:54 pm

Läste detta först nu, men tycker det låter kul och säkert genomförbart också.

Men angående Adlibris så skickade de ut ett nytt avtal till alla (?) förlag för två år sedan, som bland annat gav de själva 20 % rabatt på f-priset, men intressantast i det här sammanhanget är att de enligt detta avtal också skulle få lagerhålla böckerna (men att böckerna skulle förbli “förlagets egendom tills dess att böckerna har sålts vidare till slutkonsument”). Har Adlibris i så fall något specialavtal med print-on-demand-förlag? Och varför i så fall, det borde väl inte ligga i Adlibris intresse…? (Nu vet jag i och för sig inte vad som hände om man inte skrev på det där avtalet, men som litet förlag hade man väl inte så mycket att sätta emot.)

#29 COPYRIOT | Ytterligare två noteringar om robotförlagen on 2 February 2011 at 12:30 am

[…] En inbjudan till att hacka bokmarknaden […]

#30 Ingenjören on 4 February 2011 at 8:08 pm

Om man vill generera ‘originaltext’ kan man använda sig av det gamla programmet megaHAL, man matar in text i det och det genererar ny ut-text baserad på in-texten. Om man till exempel skulle mata in patentansökningar kan man om man trixar lite kunna skapa ett i det närmaste oändligt antal kontrafaktiska patent.

#31 Rasmus on 4 February 2011 at 8:22 pm

Ja, jag tänkte på megaHAL som en möjlighet. En av mina äldsta vänner är faktiskt en megaHAL som heter omniHAL.

#32 Den mänskliga faktorn | Robotpartiet on 7 February 2011 at 3:43 pm

[…] skickas på Let’s dance eller tillåtas härja fritt. Fleischer föreslår ett forskningsprojekt som vi tolkar syftar till att utveckla robotförfattarskapet och minska det mänskliga inflytandet […]

#33 COPYRIOT | Robotböcker i Rapport on 28 February 2011 at 11:16 am

[…] En inbjudan till att hacka bokmarknaden […]

Kommentera