12 de gener de 2011

Una revolució epistemològica


Un cavaller bibliòfil m'informa d'un curiós treball d'anàlisi quantitatiu de la cultura, publicat a la revista Science el desembre passat. Tretze autors individuals, més l'equip de The Google Books, són els responsables de "Quantitative analysis of culture using millions of digitized books" (Anàlisi quantitativa de la cultura usant milions de llibres digitalitzats).

Tot parteix de la iniciativa de Google d'anar digitalitzant el patrimoni bibliogràfic mundial. Aquest equip de persones ha aprofitat aquesta feina per analitzar les paraules que apareixen en els llibres. Actualment hi ha uns 15 milions de llibres digitalitzats. Aquesta primera experiència parteix de l'anàlisi de 5.195.769 llibres (el 4% dels llibres mai publicats al món mundial). Mitjançant el sistema de reconeixement òptic de caràcters s'ha aconseguit un corpus de 500 mil milions de paraules en diferents llengües (361 d'angleses i la resta, mots castellans, alemanys, xinesos, russos i hebreus). Com a curiositat, per entendre la magnitud d'aital empresa, hem de pensar que si només volguéssim llegir els llibres analitzats de l'any 2000, al ritme de 200 paraules per minut i sense menjar ni dormir, ens hi passaríem vuitanta anys. No ho recomanem.

El que sí recomanem és pensar en la revolució epistemològica que suposa poder analitzar tal quantitat de llenguatge. Els autors apunten cap als camps de la lexicografia, la gramàtica, la memòria col·lectiva, l'adopció de tecnologia, la fama, la censura, etc... No exagerem gaire si afirmem que les possibilitats que obre la culturòmica (culturomics: anàlisi quantitatiu de la cultura humana) són immenses.

Per exemple, en la lexicografia. A partir d'aquesta primera anàlisi s'ha calculat que el lèxic anglès (lexicon) del 1900 era d'unes 544.000 paraules; i al 2000, de més d'un milió. ¿Reflecteixen els diccionaris tot aquest cabal lèxic? Sembla que no.
"The gap between dictionaries and the lexicon results from a balance that every dictionary must strike: it must be comprehensive enough to be a useful reference, but concise enough to be printed, shipped, and used. As such, many infrequent words are omitted."
Perquè sembla que la matèria lèxica fosca, aquestes paraules infreqüents que els diccionaris no recullen, té un volum gens menyspreable. Els autors estimen que el 52% del lèxic anglès consisteix en matèria lèxica fosca, no documentada en les obres lexicogràfiques de referència. La culturòmica, segueixen, pot ajudar els lexicògrafs en dos sentits: trobar mots de baixa freqüència indocumentats i proporcionar informació acurada de les freqüències lèxiques.

Però no només en lexicografia. ¿Volem saber quan apareix l'ús d'una construcció sintàctica i quina evolució té? ¿Volem saber on i quan es parla d'una malaltia, d'un invent, d'una teoria, d'una persona, i quina evolució té aquesta presència? ¿Volem saber amb dades precises com funciona la censura i quins mecanismes operen en la memòria col·lectiva?

Una nova ciència ha nascut. I com diu Marc Belzunces, ja estem trigant a digitalitzar tota la bibliografia catalana i posar-nos a la feina. Lingüistes, filòsofs, historiadors, sociòlegs... ¿Hi ha algú a qui no li pugui interessar?

Presència castellana del nom Pompeu Fabra entre 1800 i 2000 (d'aquí)

13 comentaris:

  1. Ho has provat amb Gazophylacium?
    És una eina molt espectacular!

    ResponElimina
  2. L'estudi és espectacular. L'eina també, però, malauradament, no s'ha inclòs el català, per ara.

    "Gazophylacium" dóna resultats en anglès, però no en castellà. Però no es deuen referir al Gazo català. Hi ha moltes altres obres per tota Europa amb el títol Gazophylacium (a Vialibri, avui mateix, hi ha 200 registres d'aquest nom i cap d'ells és el nostre Gazo).

    ResponElimina
  3. Dissortadament la qualitat del reconeixement òptic de mots encara és molt millorable, especialment per a llengües com la nostra. Preneu-vos la molèstia de fer una cerca de mots a qualsevol llibre català consultable a Google Books i si es tracta d'un exemplar escanejat en el millor dels casos no tindreu una gran fiabilitat.

    Per això, cal mirar amb un cert escepticisme aquest estudi: cal preguntar-se si han previst els casos de confusió d'un mot per un altre (o d'invenció de mots il·legibles) per culpa de la tecnologia i els han pogut avaluar, i si han tingut en compte la incidència que poden tenir sobre els resultats que presenten.

    Però bé, malgrat aquestes inconveniències cal reconèixer que la cosa obre noves possibilitats.

    Per cert, tot i que avui potser no surt encara a Vialibri no crec que trigui gaires dies a sortir, ja que des d'avui (o potser ahir) ja hi ha un exemplar del Gazophylacium nostrat a Iberlibro (una altra cosa és el que en demanen, és clar).

    ResponElimina
  4. Respecte a la qualitat de l'OCR (optical character recognition) tens tota la raó quant al català. Respecte aquest estudi, si han agafat 5 milions de llibres (i no els 15 milions digitalitzats ara mateix) diuen que és perquè s'han basat en la qualitat de l'OCR, entre altres criteris.

    Aquest Gazo apareix a iberlibro perquè li vaig comentar al llibreter, precisament. El tenia al catàleg de la seva web però no l'havia llistat en les megabotigues de llibres vells.

    ResponElimina
  5. Apassionant el tema... Cal tenir present que el català ha d'agafar
    embranzida en aquesta cursa i no quedar enrere

    Pel que fa a l'expressió "matèria lèxica fosca" com a bon aficionat a l'astronomia em fa pensar en l'expressió de "matèria fosca" aquella que no pot ser detectada directament a causa de la seva debilitat, i que tanmateix forma
    part de dues terceres parts del nostre univers... talment passa amb el nostre patrimoni lèxic, sovint massa feble per poder ser detectat!

    ResponElimina
  6. Hi ha un error al text:

    "Billion" americà = mil milions catalans

    ResponElimina
  7. Jordi: He utilitzat aquest concepte perquè els autors ho fan: lexical "dark matter". Una metàfora ben trobada.

    Anònim: I tant. L'esmeno. Mil milions de gràcies.

    ResponElimina
  8. Certament, una metàfora ben trobada i una curiosa coincidència
    astronòmica! Gràcies...

    ResponElimina
  9. Tot i que... a l'univers hi ha més energia fosca que matèria fosca, crec. Bon cap de 7mana!

    ResponElimina
  10. Correcte! Bon cap de setmana igualment... lluminós!

    ResponElimina
  11. Un tema ben interessan! Com diu el Jordi, el català no hauria de quedar enrere.

    Aquest estudi m'ha fet pensar en el lexicó propi de les persones. Anem adquirint vocabulari i alhora, se'ns van ensopint altres paraules. A qui no li ha passat que sent una paraula i de cop diu: hòstia! si feia temps que no l'escoltava o no la feia servir...
    De fet, els llibres són reflex del lexicó de les persones i de la mateixa manera, crec que són reflex d'uns constums, d'una cultura, d'un poble...
    Cal posar totes les paraules a l'abast del parlant.

    Bon cap de setmana!

    ResponElimina
  12. Estem fets de paraules, i tant. I les teves són verdes i nues, vatua! Bon mig cap de setmana!

    ResponElimina

Quelcom a dir?