BlogBabel Home Page Discussioni Libri Video Classifiche
21.03.08
ludo
16

BlogBabel Dance

Vi eravate rilassati in questo ultimo periodo, eh? Per non farvi impigrire troppo, visto anche l'avvicinarsi dei banchetti festivi, abbiamo organizzatoun nuovo episodio della BlogBabel Dance. Non vi sveliamo gli ingredienti segreti, o almeno non ancora, vi diciamo però che domattina se tutto va bene la classifica sarà un pochino più equilibrata, e terrà conto di alcune osservazioni fatte ultimamente in pubblico, e in privato tra di noi. Il primo che capisce cosa è successo guadagna 100 posizioni (scherzo).

Il balletto di domani è il segnale che siamo usciti dal letargo invernale, e la primavera sta portando alcune delle novità su cui abbiamo rimuginato in questi mesi. La prima, piccola ma significativa, è online da qualche giorno e i più svegli se ne saranno probabilmente già accorti: abbiamo riscritto l'algoritmo che individua le discussioni, introducendo un sistema di pesi e riuscendo finalmente a tenere traccia delle discussioni correlate, e a presentarle in modo corretto. Le altre novità arriveranno nelle prossime settimane. Stay tuned.

Piccolo aggiornamento: la migliore analisi della situazione-Tumblr che è in gran fermento dopo qualche tempo di discussioni, è in un commento di Roberto Felder al post di Boh. 

26.08.06
ludo

Dati freschi

In questi ultimi giorni ho cambiato il modo in cui vengono recuperati e aggiornati i dati per la classifica: invece di recuperare tutti i giorni i dati per i primi 120 blog, e per i 120 blog con aggiornamento più vecchio, ora tutti i blog in classifica vengono aggiornati ogni mattina.

L'unica eccezione è rappresentata daTechnorati e Alexa, che impongono limiti sull'utilizzo giornaliero delle API e per cui l'aggiornamento funziona così: vengono recuperati i dati dei nuovi blog (quelli senza dati né ranking); poi vengono aggiornati i primi 120 blogdella classifica generale; a seguire vengono aggiornati tutti i blog in ordine di ultimo aggiornamento (prima quelli con dati più vecchi) fino al 94% del limite della API (per Technorati 423, per Alexa un po' meno); con il 5% di utilizzo restante per l'API controllo i blog che non hanno un dato (ad esempio chi non ha mai avuto un link in Technorati).

Dati più freschi, che purtroppo allungano il tempo di aggiornamento da 10-15 minuti a più di un'ora. Il prossimo lavoro sarà di utilizzare i thread, in modo da parallelizzare le richieste alle API e accelerare un po' i tempi, dato che fra non molto inizieremo a recuperare anche tutti i contenuti dai feed (già recuperiamo la data di ultimo aggiornamento una volta al giorno). Dimenticavo, oggi per la prima volta abbiamo superato i 100 blog nellla classifica di FeedBurner.