Problemet kvarstår: hur ska jag söka i RSS-flöden efter Google Reader?

Jag sörjer den stundande nedläggningen av Google Reader, fortfarande. Detta eftersom jag alltså vill använda en RSS-läsare för att arkivera ett stort antal RSS-flöden för att kunna söka i dem. Att lösa detta utan Google verkar lättare sagt än gjort.

Förra månaden postades ett antal idéer i kommentarsfältet. Ett given förslag var att installera Tiny Tiny RSS på egen server, även om det återstår att se hur väl sökfunktionen funkar genom tusentals flöden. En annan fiffig möjlighet vore att sätta upp något med rss2mail och låta alla flödena arkiveras i form av e-post, för att sedan använda sökfunktionen i en mailklient.
Emellertid har sådana lösningar en stor svaghet: arkivet byggs från noll. Sådant som postats på bloggar förra året blir inte sökbart, vilket det nu är för mig i Google Reader. Problemet handlar om att RSS-flöden inte brukar sträcka sig särskilt långt bakåt.
Två lösningar är tänkbara, även om ingen av dem funkar på samtliga bloggar och sajter. Antingen kodar någon ett script som med utgångspunkt i ett RSS-flöde gräver bakåt i arkivet, bortom det som ryms i detta flöde. Eller så förlitar man sig på någon form av “moln” som existerat i flera år, där flödets tidigare innehåll redan finns lagrat, tack vare andra molnanvändare.
Det senare knepet använder alltså Google Reader. När du prenumererar på ett RSS-flöde där, kan du genast söka i sådant som funnits i flödet flera år bakåt i tiden. Även om sajten läggs ned, förblir flödet sökbart!

Ett par av alternativen till Google Reader kan väl i princip lösa detta. Men i praktiken är det värre. Jag har testat de två mest omtalade:
The Old Reader funkar mycket riktigt, i stora drag, som en klon av Google Reader. Några detaljer är bättre, några är sämre. Sökfunktionen är klart långsammare, men det går att stå ut med – jag kan rentav se en poäng i en avvänjning från ögonblicklighet i söksammanhang. The Old Reader hade dugit för mig, om det inte vore för en sak: endast olästa inlägg är sökbara! Så fort ett inlägg markerats som läst, är det inte längre sökbart. Såvitt jag kan se går detta inte att ändra. Går bort.

Feedly var helt okej, om än en aning tungrott till följd av en prioritering av bilder. Sökfunktionen var helt okej: lite svårtillgänglig och rätt långsam, men såvitt jag kunde se den lät mig söka igenom alla mina RSS-flöden långt bak i tiden. Tills sökfunktionen plötsligt togs bort, strax efter att nya användare strömmat till Feedly från Google Reader. Nu går det inte längre att söka på Feedly. Enligt uppgift ska funktionen återkomma i en betalversion. Men jag är skeptisk till att detta är framtiden.

Problemet kvarstår alltså. Utan möjlighet att söka igenom RSS-flöden någorlunda långt tillbaks i tiden känner jag mig näthandikappad. Olika förslag tas tacksamt emot.

23 kommentarer ↓

#1 Daniel | Δανιηλ on 28 April 2013 at 8:47 pm

Jag testade allt möjligt tills jag tog det enda rätta (slutgiltiga) beslutet för mig personligen (som jag förstås inte tycker andra skall prova).

När Google Reader dör av slutar jag använda rss. Jag vaskar hela min historik och hittar nya sätt att harva runt i gammalt internets. Jag tar det helt enkelt som en historisk punkt där man kör en rejäl utrensning av kultur (enligt gammal hederlig Europeisk tradition).

Fuck this, screw you guys… I am going home.

#2 Petter Ericson on 28 April 2013 at 9:11 pm

Det verkar som att exporten från Google Reader ska innehålla “Items with comments”, så att man Ska(tm) kunna få ut ett arkiv – som man alltså sedan skulle kunna knöla in i tt-rss. Jag har ju dock aldrig använt Google Reader från första början, så jag har ingen egentlig data att leka med.

Om någon känner sig bekväm med tanken på att dela med sig av sin google-xml-blobba så kan jag tänka mig att det finns folk (exvis undertecknad) som skulle kunna tänka sig att skriva nån import-funktion till tt-rss.

#3 Albert on 28 April 2013 at 9:20 pm

Går det att ändra the Old Reader så att man även kan söka i gamla inlägg? Vet inte om det är open source, men även om det inte skulle vara det går det ju att skicka en feature request till utvecklarna.

#4 Jonatan on 28 April 2013 at 9:36 pm

Du letar inte efter en RSS-läsare, du letar efter en sökmotor! Om du exporterar en lista över alla bloggar du följer så kanske det skulle gå att få vanliga google-sök att bara leta bland dessa, kanske m h a avancerad sök eller deras API. Det är säkert omständligt att få det att fungera tillfredsställande. Min poäng är att du borde leta efter en sökmotor eller ett arkiv som kan göra det du vill, snarare än efter en RSS-läsare.

#5 rasmus on 28 April 2013 at 10:11 pm

Jonatan: Det stämmer, jag letar efter en sökmotor (vilket implicerar ett arkiv). Som jag skrev tidigare: “jag använder Google Reader som en sökmotor”. Men jag har svårt att tro att Googles sök-API låter mig göra det jag vill. Det handlar alltså om i runda slängar tusen sajter.

#6 Henrik on 28 April 2013 at 11:18 pm

Ett stort problem är ju att greader har ett index med massor av inlägg som inte finns kvar på internets. En ny konkurrent skulle få svårt att matcha detta.

#7 måns on 28 April 2013 at 11:39 pm

Albert (och Rasmus) intressant tanke, man kunde kanske uppgradera t.ex Old Reader med lite subtil remixkod/ greasemonkey-rattande? /eller annat verktyg. Att skicka en feature request är i.o.f ingen dum ide heller.

#8 kim on 28 April 2013 at 11:45 pm

Kan rösta på att få detta genomfört här: http://theoldreader.uservoice.com/forums/187017-feature-requests/suggestions/3754254-allow-me-to-search-all-the-way-back-

Det känns dock tveksamt om The Old Reader har muskler nog att implementera den här sortens funktionalitet. Man får kanske hoppas på Digg istället.

#9 Erik on 29 April 2013 at 9:36 am

kolla lite på yacy sökmotor
den har egen crawler funtion samt att du kan lägga till och importera OAI-PMH/RSS data.

http://yacy.net/

#10 PN on 29 April 2013 at 9:30 pm

#2 Petter:
Tyvärr så ger inte Google Takeout-dumpen så mycket. Där finns JSON-dumpar med inlägg som delats/gillats/annoterats/stjärnats/etc. En hel del av det här var funktionalitet som bara fanns under en begränsad tid. Dessutom misstänker jag att de flesta inte använder sådana funktioner speciellt ofta. Med andra, bara en bråkdel, om ens några, av inläggen finns med i Taketout-dumpen.

För övrigt så börjar även jag sörja den stundande nedläggningen alltmer. Har inte hittat något vettigt alternativ alls egentligen. Jag skulle vilja ha en tämligen minimal RSS-läsare med följande egenskaper:

– molnfri
– filbaserat arkiv (till exempel SQLite) med sökfunktion (typ som Rasmus beskrivit)
– möjlighet att läsa nya inlägg som ett skrollbart tidsorterat flöde (som i Google Reader) utan att behöva klicka runt en massa
– villkorsstyrda filter (till exempel: prenumerera på alla inlägg från ett RSS-flöde som innehåller ett visst ord eller med en viss tagg)
– användargränssnitt med fokus på bra läsbarhet

Jag skulle kunna tänka mig att hjälpa till att skapa något sådant, det är inget enormt projekt om man utgår från till exempel Python + feedparser + Bootstrap. Problemet är att det alltid är mer jobb än man tror, särskilt när arbetslivet förstört ens drivkraft när det gäller fritidskodning…

Jag har sökt runt en del på GitHub och hittat Lesleys. Den är långt ifrån perfekt, men visar vad man kan göra med inte alltför mycket hackande.

#11 Erik Johansson on 30 April 2013 at 8:37 am

Som noteras så är det två problem:

1. Var hittar du alla bloginlägg så att sökmotorn inte behöver starta från noll

2. Hur söker man igenom detta.

Första problemet är det svåraste eftersom det antagligen inte finns nog med folk som är intresserade av att webscrape:a blogar för att återskapa RSS flöden från 2005 och framåt.

Andra problemet kanske är svårt eftersom det överlag är rätt dyrt att ha en sökmotor, speciellt om: för få vill använda den, och också om för många vill använda den. Fast bara intressant om man vill ha det som en webbsida för alla, med rss2mail så löser sig detta.

#12 PN on 30 April 2013 at 9:59 am

#11 Erik:
Utöver tekniska problem misstänker jag att det även finns vissa “etiska” problem med punkt 1, nämligen robots.txt.

Särskilt när det gäller mer kommersiella RSS-flöden är det nog ganska vanligt att arkivet är definierat som “disallow” i robots.txt. Det betyder att man undanber sig crawlers/scrapers/etc.

#13 m on 1 May 2013 at 4:45 pm

Ett solidariskt arkiveringstips, dagen till ära.

Man kan med python-skript exportera alla poster (items) i alla flöden man har i Google Reader (greader) till en .json-fil per flöde. Även om ens prenumeration på ett flöde är helt ny så kommer man åt samtliga items som Google lagrat – inte bara de som tillkommit sen man skapade prenumerationen och inte bara items du stjärnmarkerat/gillat/delat i greader. Jag lade som test till en ny prenumeration på Boing Boings flöde och sparade ner det. Json-filen är 167MB stor och innehåller alla poster från 2005 fram till nu.

Skriptet är
https://github.com/samastur/GReader-hoover
som även behöver
http://www.python.org/download/releases/2.7.4/
https://pypi.python.org/pypi/libgreader/0.7.0

Läs readme för GReader-hoover och redigera settings.py:
1. SAVE_FEEDS = True
2. lägg till namn och lösenord för ditt konto

Obs: Skriptet felade för mig när flödesnamn i greader innehöll icke-ascii-tecken. En klumpig lösning var att exportera flödeslistan ( greader > import/export > takeout > spara zip), öppna subscriptions.xml (from takeout-zipfilen) i textredigerare, sök/ersätt alla åäö osv till aoo osv, radera alla feeds i greader, importera uppdaterade subscription.xml till greader och hämta sen allt med GReader-hoover. Men det borde gå att lösa enklare med någon encoding-inställning i python.

Obs: Alla notes/stjärnor osv försvinner om du raderar+importerar. Skapa ett helt nytt greaderkonto och impera feeds dit och testkör skripten så riskerar du inte att sabba saker i din ordinarie greader.

De sparade json-filerna är ett arkiv. Nästa fråga är hur det ska sökas. Jag passar den bollen till de som kan tt-rss och liknande program. Skriv mer om hur ni använder det! Vad är mest lättskötta sättet att sätta upp och uppdatera det för oss som inte är så hemma på sånt? Jag läste att det finns stöd för tt-rss på openshift https://www.openshift.com/quickstarts/tiny-tiny-rss
Använder någon det? Eller kör tt-rss via någon annan PaaS? Vilka för-/nackdelar finns med olika lösningar?

#14 m on 1 May 2013 at 4:55 pm

Tillägg: icke-ascii var lite fel uttryckt. Jag behövde söka och ersätta följande:
åäö:|»ü

Kanske behöver fler tecken ersättas. Som sagt, det finns troligen någon smartare lösning på det problemet.

#15 Andreas on 1 May 2013 at 8:16 pm

Inspirerad av diskussionen här på Copyriot så har jag lagt upp fröet till en Google Reader-ersättare på Github. Det är en open source webbapp som byggs i Play2/Java och jag tänker mig att den kan deployas på Heroku. Kolla gärna in Github-sidan: http://chatzopoulos.github.io/Mimavox

(Obs: Den är absolut inte i något användbart skick ännu, men feedback på själva idén är välkommen.)

Jag frilansar som webbutvecklare, och hade kunnat tänka mig att ägna mig åt detta projekt på heltid då jag inte har något annat just nu. Det är ju bara det där lilla med finansiering :) Tänker mig att man kanske kunde crowdfunda det hela. Vad tror ni?

#16 Jonathan on 3 May 2013 at 11:19 am

http://www.google.com/cse borde klara av det du är ute efter. Du kan där skapa din egna sökmotor utifrån de sajter du endast vill söka.

#17 m on 8 May 2013 at 4:20 pm

Jonathan: en möjlig fördel med en lösning som söker i en backup på flöden från reader är att vissa flöden kan ha tagits bort och därför inte syns i CSE

Andreas: Jag lutar åt att använda tt-rss som verkar ha de funktioner jag vill ha. Men bra initiativ – kanske hakar några andra på.

#18 max on 16 May 2013 at 10:27 am

http://www.commafeed.com/
https://github.com/Athou/commafeed
ser ut att kunna vara något, även om reddit verkar ha överbelastat den för tillfället. men det är ett system som du kan köra såväl på egen server som bara ta del av likt reader.

#19 Jakob on 6 June 2013 at 1:07 pm

Verkar ganska bra:
http://yoleoreader.com/
Importerar tyvärr bara de “gamla” posterna som är stjärnade.

#20 monki on 11 June 2013 at 8:13 am

RSSowl kan importera senaste 1000 items för varje feed när den syncas med google reader. Finns för linux, mac, windows utan kostnad. En klen tröst ivf.

#21 m on 2 July 2013 at 6:09 pm

om någon snubblar in här före 15:e juli och vill spara ner precis all data – all text, alla taggar, alla likes, o.s.v. – från sitt (döende) konto på google reader så är nu det enklaste sättet verktygen här: http://readerisdead.com/

#22 COPYRIOT | Nu gäller Inoreader och Pinboard on 5 July 2013 at 8:52 am

[…] Kanske liknande Problemet kvarstår: hur ska jag söka i RSS-flöden efter Google Reader? […]

#23 M on 10 July 2013 at 11:39 am

Kom att tänka på det här inlägget när jag såg detta http://blog.persistent.info/2013/07/using-google-readers-reanimated-corpse.html .