Memorie di un infobroker


Negli anni '80 periodicamente qualche rivista trendy stilava un elenco delle professioni del futuro (vizio duro a morire). Invariabilmente nella lista figurava l'information broker (IP, "information professional" nella versione politically correct), la professione di un futuro che non si è mai tradotto in presente.

L'IP era sostanzialmente un ricercatore su commessa (interna all'azienda o esterna) di info elettronica stivata in banche dati (bd) create da editori tradizionali o specializzati e distribuite da servizi, denominati host computers, sparsi per il mondo. I produttori ci mettevano i contenuti, gli host la strumentazione, il software, il linguaggio di interrogazione e servizi vari.

Molte bd erano del tipo "reference", cioé contenevano solo sintesi e riferimenti bibliografici ai documenti originali, che andavano ordinati a fornitori specializzati (ad es. il servizio di document delivery della British Library). In compenso nelle migliori bd ogni record era arricchito con parole chiave, classificato in base a sistemi proprietari o pubblici (ad es. la codifica US SIC delle attività economiche) e a thesauri.

Le ricerche potevano focalizzarsi su singoli campi (ad es. il titolo, l'autore, la data, le parole chiave) o su gruppi di campi (es. "pezzi scritti da Dust sul BDS nel nov.2003"). Formalizzazioni ad hoc erano state create ad es. per rappresentare formule chimiche (v. Chemical Abstracts) o per classificare gli elementi presenti in un marchio figurativo (la grafica era ancora un sogno).
Funzioni speciali consentivano di effettuare ricerche perticolarmente adeguate a determinati contesti (ad es. per individuare tutti i marchi registrati contenenti una permutazione di un certo insieme di lettere, o che terminano con una certa stringa).

L'IP allignava in rare società specializzate, nelle grandi aziende chimico-farmaceutiche, nelle biblioteche + sveglie e in alcuni enti pubblici e faceva una vita d'inferno: la stessa bd poteva essere distribuita, in forme e con caratteristiche di aggiornamento diverse, da vari host, ognuno dei quali dotato di un proprio linguaggio di interrogazione, a volte proprietario (v. Dialog, il gigante del settore), a volte sviluppato da terzi e magari malignamente personalizzato.
Un servizio di brokeraggio di livello base doveva abbonarsi minimo a 4-5 host (i.e. centinaia di bd), ognuno dei quali inviava ponderose guide al linguaggio e fogli descrittivi delle singole bd, con aggiornamenti continui.

La ricerca standard richiedeva varie conversazioni con il committente, che di solito esordiva con "Non credo esista in giro niente sull'argomento X, così mi rivolgo a voi". Sviscerato il problema, lo si traduceva in strategia di ricerca, si sceglievano le bd + promettenti, si eseguivano varie sessioni di ricerca (questa sequenza poteva essere reiterata per fertilizzare la ricerca con il feedback del committente), poi si passava a editing-commento dei risultati e magari si ordinavano alcuni originali.

Una ricerca di complessità anche solo media coinvolgeva bd eterogenee, era splittata su vari host, poteva impantanarsi in banali problemi di sinonimia o stiticheggiare distillando solo infimi abstracts di oscure riviste neozelandesi. Richiedeva di volta in volta l'impiego di svariati sistemi di classificazione e thesauri, la conoscenza delle peculiarità del sistema brevettuale giapponese, del registro imprese britannico e comunque, sempre, della struttura delle bd utilizzate, dei comandi e delle special features dei diversi linguaggi.

Il sistema di tariffazione (in valuta, quindi esposto a rischi di cambio) rendeva il tutto + spicy, il costo di una sessione essendo funzione di tempo globale di collegamento, tempo speso in ogni bd consultata (ciascuna a prezzi diversi), formato delle informazioni estratte (ad es.: solo titolo=x, tutto il doc=10x).

Oltre alle competenze specifiche (da aggiornare costantemente) su bd, host e linguaggi, erano quindi necessari una certa velocità di esecuzione, colpo d'occhio per identificare al volo gli items giusti ed una dose nostradamica di capacità previsiva per stimare il probabile costo della ricerca. Un comando sbagliato poteva addebitarti istantaneamente centinaia di dollari e costringerti a spiegare balbettando in un inglese stentato ad una superiore entità californiana che non avevi voluto DAVVERO ordinare 100 brevetti giapponesi via fax.

A volte i danni li provocava un semplice disturbo di linea, scramblando le righe di un bilancio in una bestemmia da fumetto elettronica - e provocando un corrispondente flusso di bestemmie vocali, queste in chiaro.
Ah, stiamo parlando di velocità nominali - nei primi tempi - di 300bps (oggi come minimo lavorate a circa 56400bps): le parole e le linee si formavano lentamente sul monitor in b/n e lentamente scrollavano.

Un mondo di testi strutturati e lineari (niente "iper" di sorta), in cui l'autorevolezza della fonte era definita "a priori" (Chemical Abstracts:alta, Piccolo Chimico:bassa) e in parte orientava la strategia di ricerca. In via teorica la competenza dell'IP era trasversale, non legata al contesto, e quella specifica ce la metteva il committente: ho cercato nuove applicazioni dell'atmosfera modificata, produttori di traversine ferroviarie in Francia, bilanci di aziende belghe, articoli di quotidiani giapponesi su database Nikkei (menu come piatti di vermicelli), tabelle sull'import-export argentino, novità brevettuali e di mercato nel settore delle verdure surgelate e anche negozi di costumi teatrali a New York.
Il settore aveva una sua vivace evoluzione di mercato e subiva quella tecnologica (v. la distribuzione di bd su cdrom), ma insomma senza eccessivi scossoni per l'utente finale.

Poi è arrivata Internet, è esploso il Web e questo piccolo mondo è diventato di colpo preistoria. Molti produttori di bd hanno deciso di pubblicarle in proprio su Web spiazzando gli host.Una gran quantità di info, ad es. di fonte pubblica, è diventata gratuita. Vari host sono saltati o si sono ridimensionati e hanno dovuto in ogni caso riformulare modello di business (bizantini sistemi di tariffazione inclusi), linguaggi di interrogazione e interfacce.
Per vari motivi la storia di questo mondo si è separata dalla mia. Mi accorgo di parlare al passato per un puro fatto biografico, ma molte caratteristiche strutturali delle bd online sono ovviamente rimaste immutate.

Il Web: un enorme ammasso di contenuti ipermediali in gran parte non strutturati, prodotti e aggiornati in maniera anarchica da fonti di cui spesso non è facile stabilire la qualità, utilizzati da persone normalmente non skillate per quanto riguarda la ricerca di info. Strumenti e tecniche di ricerca si sono di conseguenza modificati radicalmente: l'interfaccia tipica è la maschera di ricerca, che in molti casi si riduce ad un'unica casella da riempire con qualche insieme di parole.

Confesso che i vecchi sistemi di interrogazione mi mancano assai. Ci potevi costruire una ricerca del tipo: trovami gli articoli del 1975 del giornale X che contengono nel titolo o nel leading paragraph due parole inizianti una per la stringa A e l'altra per la stringa B, ma non + distanti tra loro di 5 parole. 10 articoli ? Bene, elencami le aziende citate. Ah, eccone una interessante. Stampo l'articolo e cerco tutte le info sull'azienda contenute nelle bd economico-finanziarie di questo host. Tutto ciò - per vari motivi - il motore di ricerca non può offrirlo. Esistono d'altra parte interfacce eccellenti a bd, che combinano elevate capacità di ricerca e ipermedialità (un buon esempio è l'US Patent Office, che permette di scaricare testi completi e disegni di brevetti US), ma in generale le bd sono oggi largamente invisibili all'utente medio dei motori di ricerca (sono finite nel c.d. "deep web" o "invisible web").

Nel mondo delle bd l'ottimizzazione delle due misure di qualità di una ricerca - recall=% di documenti reperiti sul totale dei teoricamente rilevanti, e precision=% di documenti rilevanti sul totale di quelli reperiti, due misure strutturalmente in irritante relazione inversa - veniva ricercata specificando accuratamente la strategia, selezionando le fonti più promettenti e autorevoli e utilizzando al meglio le caratteristiche del linguaggio di interrogazione.
Un buon motore di ricerca è forte in termini di recall, ma spesso ci seppellisce di documenti inutili (bassa precision), introducendo nei risultati molto "rumore" causato da ricerca rozza + impossibilità di specificare parametri critici (ad es. tipo di fonte o aggiornamento del materiale reperito).

Per questo motivo - l'ho tirata in lungo ma veniamo al Google Bombing - vari motori hanno introdotto nei loro algoritmi di ricerca una qualche capacità di ordinamento dei risultati (ranking): nei primi hits devono comparire i documenti più rilevanti. Nel caso di Google il page ranking è (anche) funzione della quantità di citazioni che una pagina riceve da altre pagine rilevanti individuate dal motore - criterio imparentato con l'impact factor che si usa nella valutazione delle pubblicazioni scientifiche.

"Miserabile fallimento" evidenza una pagina che - ovviamente - non contiene affatto quelle parole: a mandarla in testa alla classifica sono le altre pagine, quelle che la linkano "sotto" al testo "miserabile fallimento", create da una grande quantità di bloggers (quasi 700, ha calcolato qualcuno) che si sono accordati a questo scopo.
[ Suicida la contromossa del cav.: ha inserito nella pagina un metatag che impedisce a Google di indicizzarla.
Paradossalmente la pagina non è più rintracciabile tramite Google ]

L'autorevolezza ("locale" alla singola ricerca) emerge quindi come prodotto collettivo della rete, come misura della "forza" dei links. Il concetto viene declinato diversamente, ad es., dal neonato Eurekster, in cui il ranking si modifica nel tempo in funzione delle preferenze di una comunità di utenti che condividono un qualche interesse e fanno progressivamente "emergere" i siti più interessanti per loro stessi e per la comunità di appartenenza scegliendoli esplicitamente dalla lista proposta dal motore.


SPIEGAZIONE AGGIUNTIVA


Provo a spiegarmi (gli addetti ai lavori non rabbrividiscano) con un modellino di mondo in cui esistono:
- un archivio bibliografico a schede ordinnato per autore e uno per titolo
- lo stesso catalogo archiviato in un dataabase (o banca dati, bd) online accessibile alla vecchia maniera su un host chiamato Dialog. La bd è come un foglio di Excel: ogni riga (record) contiene l'equivalente informativo di una scheda, ogni colonna (campo) contiene un tipo diverso di informazione significativa: titolo, autore, editore, anno di pubblicazione, codice di classificazione per soggetto. Quindi ogni documento (la scheda) è suddiviso in campi: stiamo parlando di "informazione strutturata".
- il web e Google: gli stessi libri sono eelencati sul web nei siti dei rispettivi editori, commentati e citati in centinaia di pagine da critici, commentatori, estimatori, citazionisti, semplici plagiari e cazzeggiatori.

Col primo archivio a schede trovo facilmente le opere di Dante. Dovrò cambiare archivio se ricordo solo un titolo ma non l'autore. Sarò in serie difficoltà se devo calcolare il numero di libri usciti tra 1990 e 2000.
Con la bd potrò fare ricerche su ciascuno dei campi elencati sopra o anche mescolare criteri relativi a vari campi. Per "spiegare" all'host che cosa cerco uso un "linguaggio di interrogazione", cioé un insieme di comandi, che hanno sintassi anche piuttosto complesse. Niente mouse, niente finestre: la situazione è quella che vi si presenta cliccando su "Prompt dei comandi" dal menu di Windows.
La ricerca consiste in un dialogo lungo a piacere con l'host, in cui lui si ricorda quello che gli chiedo.
Mi collego alla bd e chiedo: "Trovami le edizioni di opere di Dante presenti in catalogo". Nel linguaggio di Dialog:
SELECT AU=Alighieri, Dante [ = trova tutti i record in cui il campo AU, cioé autore, contiene ecc.. ]
Batto "invio" e l'host mi risponde con un'altra linea:
S1 50 AU=Alighieri, Dante
che significa: l'insieme dei records individuati in base a questo criterio di ricerca è denominato S1 e ne contiene 50
Posso chiedere di visualizare uno o + titoli (e li pago $x ciascuno), 1 o + records bibliografici completi ($5x ciascuno).
Continuo cercando tutti i libri pubblicati tra 1990 e 2000
S PY=1990:2000 (dove S sta per SELECT, PY=campo Publication Year e 1990:2000=intervallo temporale)
risposta: S2 50000 PY=1990:2000 [ volendo c'è un comando che lista il numero di documenti per ogni anno di pubblicazione, creando un nuovo insieme per ogni anno ]
Quante opere di Dante sono state pubblicate in quel periodo ? E' l'insieme intersezione tra S1 e S2 e scriverò
S S1 AND S2 [ OR, AND, NOT sono detti "operatori booleani". Li potete usare ad es. nella ricerca avanzata di Altavista ]
risposta: S3 15 S1 AND S2 [ = ci sono 15 records relativi ad opere di Dante pubblicate tra 1990 e 2000 ]
Anche in una bd così banale posso effettuare ricerche di una certa complessità, del tipo: dammi la distribuzione temporale (i.e. numero in ogni anno) delle opere edite da Mondadori e classificate come "Letteratura italiana", e così via..
L'host si ricorda: gli insiemi che creo sono sempre a mia disposizione. Dopo un'ora di ricerche posso averne creati 100 e continuare a combinarli fra loro come voglio per migliorare i risultati.
Se passo a una bd che contiene bilanci riclassificati il numero di campi cresce esponenzialmente (uno per ogni voce e uno per ogni indicatore) e così il numero di "formati" di output (=insieme di campi disposti in un certo ordine): posso scegliere, usando una particolare sintassi del comando DISPLAY, di vedere ad esempio solo il conto economico o solo gli indicatori di redditività di un'azienda.
Poiché in molte bd è presente il campo CO (company) che contiene il nome delle aziende citate in un certo record (sia esso un articolo, un bilancio, un brevetto) posso fare una ricerca simultanea su tutte queste bd, stampare tutti i risultati e poi crearmi un dossier su questa azienda completo di bilancio, brevetti e articoli. Creare un "clipping service" elettronico in questo modo è molto semplice. La completezza del servizio dipende naturalmente dalla completezza delle singole basi dati: quella degli articoli, ad esempio, raggrupperà magari articoli di tutti i quotidiani US ma pochissimi italiani e solo di livello nazionale.
Solo testo, remember? se voglio vedere la foto presente in un articolo dovrò ordinare l'originale alla British Library: posso farlo senza interrompere la ricerca e mi arriverà ad es. via fax, con diritti di copyright pagati.
Costo (oltre a quello relativo agli items mostrati): ci ho messo 10 minuti ? pago $y per minuto di collegamento al carrier e $z/min. all'host per quella specifica bd. Usando una bd brevettuale di quelle toste spendevo che so, $20z/min.

Mi sposto su Google e provo "Dante Alighieri" (in gergo: ricerca "quick and dirty"). Esce l'iradiddio e non ho molti mezzi per restringere la ricerca ad es. a) alle sole informazioni riguardanti pubblicazioni di sue opere b) agli anni 1990-2000. Il concetto di "campo" semplicemente non esiste (si chiama "informazione non strutturata" [ per i tecnici: limitiamoci all'html ]). Però scopro un sito con il testo completo della Divina Commedia, commentato e iperlinkato, un blog di dantisti fanatici e anche una pagina con la ben nota parodia "Nel mezzo del cammin di nostra vita mi ritrovai nel culo una matita. Ohi che male ohi che dolor, era una Carioca a 12 color". Siccome il nostro ipotetico mondo è in realtà il paese dei balocchi, tutti gli studenti odiano Dante, ed essendo i più ganzi nell'uso del web hanno messo in un sacco di siti e blog il link "Dante Alighieri" che punta esattamente a questa irriverente creazione di anonimo. Risultato: sarà il primo degli hits che Google mi presenta.

Insomma: un vero mutamento di paradigma. Sintetizzo alcuni dei cambiamenti + significativi che ho cercato di segnalare:
informazione strutturata, testuale, lineare -> non strutturata, multimediale, interconnessa (in sintesi:ipermediale)
bd + linguaggio di interrogazione -> pagine web + motore
linguaggio di interrogazione complesso, richiesta una competenza specifica -> casella di ricerca, maschera di interrogazione, competenza richiesta minima
ricerca come dialogo, memorizzazione dei risultati intermedi -> ricerca come sequenza di colpi isolati non correlati tra loro (al massimo posso "cercare dentro i risultati")
info prodotta da fonti note, a costi elevati, con tempi di aggiornamento dichiarati -> info prodotta da molte fonti sconosciute e di autorevolezza incerta, in maniera non controllata, a costi irrisori, con caratteristiche di elevata volatilità (i dead links) e spesso non databile
info molto costosa per l'utente -> info largamente disponibile gratuitamente
individuazione dei documenti + importanti basata sulla potenza del linguaggio di ricerca e strettamente dipendente dalla presenza dei termini di ricerca nel testo o nelle parole chiave -> affidata all'algoritmo di ranking del motore e influenzata da un consenso "sociale"
Aggiungete a tutto questo la crescita gigantesca dell'informazione (di vario tipo) ricercabile in una sola botta.

Le reti neurali introducono una dimensione di apprendimento legata al comportamento e alle caratteristiche individuali (o di un gruppo con competenze/interessi condivisi). Mi è capitato di lavorare su un sistema che consente
a) di ricercare "per concetti", quindi (almeno in teoria) di trovare documenti utili ma in cui i termini che uso nella ricerca non sono necessariamente presenti. C'è un articolo molto pertinente a quello che mi interessa ? Col cut 'n paste lo porto nella casella di interrogazione: sarà quello a fornire al sistema i concetti su cui basare la ricerca.
b) di "imparare": indicando al sistema quali sono i documenti che mi interessano tra quelli trovati e facendogli rieseguire la ricerca lo posso "addestrare" a rispondere in maniera sempre + precisa alla mia richiesta


Copyright Dust 2003 - 2004
Home 1