BlogBabel Home Page Discussioni Libri Video Classifiche
26.08.06
ludo

Dati freschi

In questi ultimi giorni ho cambiato il modo in cui vengono recuperati e aggiornati i dati per la classifica: invece di recuperare tutti i giorni i dati per i primi 120 blog, e per i 120 blog con aggiornamento più vecchio, ora tutti i blog in classifica vengono aggiornati ogni mattina.

L'unica eccezione è rappresentata daTechnorati e Alexa, che impongono limiti sull'utilizzo giornaliero delle API e per cui l'aggiornamento funziona così: vengono recuperati i dati dei nuovi blog (quelli senza dati né ranking); poi vengono aggiornati i primi 120 blogdella classifica generale; a seguire vengono aggiornati tutti i blog in ordine di ultimo aggiornamento (prima quelli con dati più vecchi) fino al 94% del limite della API (per Technorati 423, per Alexa un po' meno); con il 5% di utilizzo restante per l'API controllo i blog che non hanno un dato (ad esempio chi non ha mai avuto un link in Technorati).

Dati più freschi, che purtroppo allungano il tempo di aggiornamento da 10-15 minuti a più di un'ora. Il prossimo lavoro sarà di utilizzare i thread, in modo da parallelizzare le richieste alle API e accelerare un po' i tempi, dato che fra non molto inizieremo a recuperare anche tutti i contenuti dai feed (già recuperiamo la data di ultimo aggiornamento una volta al giorno). Dimenticavo, oggi per la prima volta abbiamo superato i 100 blog nellla classifica di FeedBurner.