Enklaste sättet att digitalisera böcker

Hur tror ni att Google scannar in alla miljontals böcker? Knappast på flatbädd. Enligt uppgift används kameror för att fotografera av ett uppslag i taget med 3–4 sekunders mellanrum, vilket är ungefär den tid det tar att bläddra manuellt. Att sidorna välver sig lite korrigeras sedan genom en patenterad teknik.
Utan tvivel har Google ögonen på den långt mer avancerade metod som utvecklas av japanska forskare. Där behövs inga mänskliga händer. En robot bläddrar genom hundratals uppslag per minut medan en ultrasnabb kamera plåtar bilder som visserligen är gravt förvrängda men som i de flesta fall kan korrigeras av mjukvara.

Ingen av dessa teknologier är inom räckhåll för oss dödliga. Men kolla in www.diybookscanner.org! Där presenteras några sätt att bygga sin egen utrustning för att digitalisera böcker lika snabbt som Google.
Knepet är att använda vanliga digitalkameror för att fotografera boken där den ligger uppslagen i 90 graders vinkel i ett hemmabyggt ställ, vars delar enligt entusiasterna enkelt kan hittas i en container, bortsett från lampan. Fri mjukvara rätar sedan ut vinklingen.

Instruktionerna finns som sagt på www.diybookscanner.org som även länkar till andra artiklar.

Amerikanerna betonar gärna att det är lagligt att scanna böcker för privat bruk. Så inte i Sverige, där lagen om upphovsrätt skärptes år 2005. Förbudet mot att kopiera “hela böcker” gäller rimligtvis inte bara för kopieringsmaskiner (papper till papper) utan också för skrivare (fil till papper) samt för skannrar och kameror (papper till fil). Vad nu ett sådant förbud spelar för praktisk roll.

Att bygga en bokskanner verkar inte alls särskilt särskilt svårt. Har någon som läser detta kanske redan gjort det? Känns som ett perfekt projekt för ens lokala hackspace.

22 kommentarer ↓

#1 Rev. Smith on 22 February 2011 at 1:28 am

Lite OT, men passar ändå lite in i ämnet.

Konceptet troll är handlar, som vi alla vet, om att spamma ned t.ex. en diskussion med ovidkommande material. Vi ser det dagligen på bloggar där ämnet dras från huvudämnet. På wikipedia ser vi hur de skriver sönder eller på annat sätt spammar ned artiklar. IAF tidigare spammades fildelningssiter med material med felaktigt innehåll… vilket borde kunna ses som arbete från IFP… Troll.
Det är då långsökt att kalla dessa böcker för trollböcker? Trollboksgenren :)

Och i sådant fall finns det annat som skulle kunna kallas för troll-_lägg in valfritt ord_ … trollmusik? Trollkonst?

#2 Erik Johansson on 22 February 2011 at 1:43 am

Det svåraste problemet är att platta till bilderna när man tagit dom, eftersom jag inte gör det är det omöjligt för mig att OCR:a eller läsa på läsplattor. Jag skannar själv i ca 300 sidor på 6-10 minuter, 10 minuter utan den själv byggda scanner, 6 minuter med ett stativ för kameran och en hållare för boken.

Min dröm är en skanningsdag där man åker till en bibbla och skannar in ett par hundra böcker tillsammans, på flera maskiner.

#3 Horace Rumpole on 22 February 2011 at 3:28 am

“Ingen av dessa teknologier är inom räckhåll för oss dödliga”

Jein … inte behöver jag digitalisera tusentals böcker men det e möjligt för mig att göra det om jag vill, det tar bara massa tid.

Det som e grejen med cybergrejer e precis att det INTE finns nåt stort tekniskt avstand mellan ‘oss dödliga’ och ‘dem’ (stater eller stora företag). Jämfor detta med till ex våld, där har ‘dem’ kärnvapen och ‘vi’ (några få) hagelgär…

#4 Horace Rumpole on 22 February 2011 at 3:39 am

‘hagelgär’?
hagelgevär…

#5 Viktualiebrodern on 22 February 2011 at 11:38 am

I barnboken “Rut och Randi”, som handlar om två tvillingflickor med ADHD uppfinner deras pappa en robot som vänder blad i en bok, men först när läsaren förstått innehållet. Den alltför snabba Rut måste vänta, och den alltför långsamma Randi måste skynda på.

Kan ingen göra en sån uppfinning i verkligheten? :-)

#6 ANNM on 22 February 2011 at 11:48 am

Undrar hur den fungerar på pocketböcker. Man borde rimligtvis behöva någon slags mekanik för att hålla sidorna utspända.

#7 Thomas E on 22 February 2011 at 12:13 pm

Herr Millet http://www.tubebooks.org/ har digitaliserat en massa intressanta teknikböcker från den gamla goda tiden. Hans teknik är att helt enkelt skära loss bindningen och köra sidorna genom en scanner. Så länge man inte arbetar med medeltida handskrifter verkar det vara ett rationellt sätt att digitalisera böcker.

#8 rasmus on 22 February 2011 at 12:22 pm

Jag inser att det finns många bibliosadister och biblionihilister som tycker det är fräckt att skära upp ryggarna på böcker. Mot detta villa jag visserligen inte resa några sentimentala invändningar, men jag ber att få påminna om att många av de böcker som vi vill scanna kommer att vara lånade från bibliotek. Då är det lite dumt att gå loss med kniven.

#9 Erik Johansson on 22 February 2011 at 12:46 pm

@ANNM: fungerar på de flesta pocketböcker, men om den är för hårt bunden eller om texten är för nära mitten så är det svårt/omöjligt att få en bild med all text..

#10 Johan on 22 February 2011 at 12:52 pm

I Japan tycks privat bokskanning ha blivit en hel industri (en nyhet sedvanligt förpackat som textreklam för den läsplatta pressen hoppas ska kunna rädda dess gutenbergska affärsmodell):
http://www.bloomberg.com/news/2011-02-03/ipad-makes-space-in-japan-s-tiny-homes-by-removing-bookshelves.html

#11 Viktualiebroder on 22 February 2011 at 12:54 pm

Många gamla luntor på Riksarkivet är inbundna så att hela ord försvinner.

I princip får man välja mellan att förstöra en kanske 200 år gammal rygg, eller gissa sig till vad som står i slutet på varje rad.

#12 Rasmus on 22 February 2011 at 1:04 pm

Erik Johansson: Vill du berätta lite mer om vad för slags utrustning du har satt samman?

#13 Björn on 22 February 2011 at 1:17 pm

Jag har byggt den allra allra enklaste varianten där man bara skär sönder en wellpapplåda på diagonalen för att få en “vagga” där man lägger boken

http://www.instructables.com/id/Bargain-Price-Book-Scanner-From-A-Cardboard-Box/

Sedan fotograferar man alla udda sidor (med systemkamera på stativ) för att sedan vända den och ta alla jämna. En glasskiva används för att hålla sidorna platta. På detta sätt har jag kopierat 3 kursböcker hittills. Det som tar tid är korrigerandet av sidorna. En tumregel med hembyggd bokscanning är att ju mer tid du lägger ner på att bygga en scanner där kameran alltid befinner sig på optimalt avstånd och vinkel i förhållande till boksidan, desto mindre tid behöver du framför datorn. När jag får tid ska jag bygga nåt mer permanent.

#14 Lars Aronsson on 22 February 2011 at 2:29 pm

Den japanska snabb-bläddrande automaten är en “flygande bil”, en vision om att år 2525 ska man kunna scanna böcker jättesnabbt. Google Books är i motsats till detta ett här-och-nu projekt med beprövad teknik, som redan har scannat miljontals böcker sedan 2004. Bläddrande bokscanners finns, bland annat hos Stockholms universitetsbibliotek. Gör ett studiebesök där. På DIY-skalan är Book Liberator mer intressant, http://bkrpr.net/ och en liknande kommersiell produkt lanserades på CES-mässan för någon månad sedan, Ion Audio Book Saver, http://www.ionaudio.com/booksaver

#15 Cernael on 23 February 2011 at 3:14 am

Huvuddesignen från diybookscanner (den på bilden, titta och jämför) inbegriper en plexiglaskil som trycker ner/spänner ut sidorna, sen fotar kamerorna genom den. Handtaget på framsidan sitter fast i kilen, när man fotat lyfter man och bläddrar fram till nästa uppslag. Pocket borde inte vara något större problem.

#16 Fünf on 23 February 2011 at 11:42 am

En annan viktig del i digitaliseringsarbetet är att korrigera outputen från OCR-programmet. Om man tycker att det är en tradig process kan man alltid dela på bördan, t.ex. med detta web-baserade program: http://dproofreaders.sourceforge.net/. Används av Project Gutenberg.

Att korra någon sida per dag/vecka eller så är ju ingen match!

#17 stagg on 24 February 2011 at 12:54 am

Kanske är detta redan känt, men jag drar igenom min variant ändå. (Lämpligt för de som på ett eller annat sätt skaffat sig Adobe CS.)

Jag fotar oftast av hela uppslag. Stativet kommer från en gammal förstoringsapparat. En glassdörr från ett gammalt skåp slätar ut uppslagen (detta bryter dock ofta ryggen).

För att styra upp bilderna bygger jag en “action” i Photoshop som fixar kontrast, delar uppslaget till två sidor, rätar ut och ev. skärper bilden (oskarp mask eller dyl.). Alltså bara att vänta en stund medan datorn svettas. Sedan låter jag Bridge döpa om filerna så att de kommer i korrekt ordning och sammanfaller med sidnummer med “batch rename”. Acrobat får sedan lägga ihop dem till en pdf och köra en OCR.

Mitt problem ligger i att filerna blir aningen stora. Någon som vet hur man reducerar storlek? Bildformatet?

#18 Gabrielle B on 25 February 2011 at 12:23 am

Tala med honom som uppfann sedelräknaren. Det finns nog ett andligt släktskap där.

#19 H on 11 March 2011 at 11:28 pm

Stagg! Reducera med EasyThumnails!

#20 COPYRIOT | Bibliotekets dimensioner on 11 October 2011 at 9:27 pm

[…] Enklaste sättet att digitalisera böcker […]

#21 Oivvio Polite on 1 November 2011 at 10:35 am

Jag brukar skanna material från arkiv (mikrofilm, klipp och böcker) med digitalkamera. KBs mikrofilmsläsesal till exempel är ju så kall att man får bronkit. Då föredrar jag att gå dit och skanna och sedan läsa framför datorn.

Den här bloggposten pekar till några sådana skanningar: http://oivviosarkiv.polite.se/arkiv/nixons-lakejer/

#22 Oivvio Polite on 1 November 2011 at 10:39 am

Jag skannade också min fars totala litterära kvarlåtenskap innan den skickades till ett amerikanskt arkiv förra året, och förr eller senare tänker jag att jag skall tillgängliggöra den online.

http://doddcenter.wordpress.com/2011/02/18/papers-of-african-american-poet-allen-polite-now-available-for-research/

Kommentera