Editorial
Benvolgut lector de l'edició digital de la revista Eivissa,
És un plaer fer-vos arribar el contingut íntegre de la nostra publicació, que ofereix treballs de qualitat sobre ciència i cultura referents a les Pitiüses.
Durant més de cinquanta anys, la revista Eivissa s'ha publicat semestralment en format paper i s'ha distribuït al domicili dels socis de l'Institut d'Estudis Eivissencs. Ara, amb el llançament de la versió web, volem millorar-ne l'accessibilitat i la visibilitat.
Fins ara, els articles estaven disponibles en format PDF en repositoris com raco.cat. Aquest format, però, està pensat per a la impremta i no ofereix una bona experiència de lectura en ordinadors, mòbils o llibres electrònics. La nova versió web permet accedir a tot el contingut de manera molt més còmoda i adaptada a aquests dispositius.
A més, el fet d'estar allotjada als servidors de l'IEE facilita que els cercadors indexin els articles cap a l'Institut, la qual cosa augmenta la localització i la difusió de les contribucions i dels seus autors. Un altre avantatge és la interoperabilitat: ara els articles es poden citar, enllaçar i compartir fàcilment en altres plataformes i sistemes. El contingut del lloc web és estàtic i servit directament pel servei S3 d'Amazon, la qual cosa garanteix la seva estabilitat i el manteniment a llarg termini dels enllaços que es puguin fer als articles.
Pot buscar-se per temàtica, ja que cada article està etiquetat amb tres temes als quals fa referència. També es pot buscar per autor i és senzill trobar tots els articles d'un autor en particular.
Finalment, publicar aquest corpus en línia, sota l'empara d'una entitat com l'Institut, permet enriquir l'entrenament de les intel·ligències artificials, posant al seu abast informació de la màxima qualitat que serveix de contrapunt necessari a altres continguts de la xarxa.
Criteris d'edició
Autors
L'índex d'autors està ordenat alfabèticament per les inicials dels cognoms i el nom. El literal del nom que es mostra a cada article és fidel a l'original. A l'índex d'autors, per millorar la claredat, s'ha eliminat la partícula "i" entre els cognoms. Les notes a peu de pàgina relacionades amb l'autoria s'han situat sota la capçalera de l'article corresponent. No s'ha inclòs la filiació institucional per mantenir la coherència; per a aquesta informació, podeu consultar la versió en PDF.
Imatges
Les imatges s'han obtingut dels escanejos realitzats per raco.cat (Revistes Catalanes amb Accés Obert). Un crawler programat per naltros va descarregar els fitxers en format PDF. Per la segmentació de les imatges dels PDFs més antics s'ha emprat una tècnica basada en la freqüència tot i que en molts casos s'ha hagut de fer manualment. Per als més moderns s'han pogut extreure les imatges directament dels PDF.
Les imatges no s'han tractat i en alguns casos hi ha presència clara d'artefactes provinents de les tecnologies d'escaneig i d'impressió de l'època.
Fins al número 74, hi ha 4544 imatges, moltes d'elles amb peu, és a dir, més o menys descrites.
Etiquetes classificadores
Vàrem intentar classificar els articles amb el sistema CDU (Classificació Decimal Universal), però el resultat no va ser satisfactori. Per aquest motiu, un sistema automàtic ha generat tres etiquetes lliures per a cada article.
Com a referència, el fulletó editat en ocasió del 50è aniversari de la revista, inclou la següent classificació del fons (fins al núm. 72):
| Etiqueta | Articles |
|---|---|
|
Creació literària Poesia, teatre, literatura, prosa... |
234 |
|
Aspectes històrics Arqueologia, història, biografia, memorialistica... |
220 |
| Assaig | 148 |
|
Editorials i informació IEE Manifest de la Nit de Sant Joan, editorials, actualitat... |
130 |
|
Lingüística Sociolingüística, toponimina, dialectologia... |
94 |
|
Art i temes culturals Ràdio, música, pintura, escultura... |
84 |
|
Ciències de la Terra Natura, medi ambient, fauna, flora, ecologia, cultiu... |
76 |
|
Etnologia i cultura popular Jocs, refranys, vestimenta, joies, arquitectura tradicional... |
34 |
|
Economia Turisme, construcció, balances fiscals... |
15 |
|
Temàtica religiosa Culte i oracions, vida religiosa, arquitectura religiosa... |
148 |
| TOTAL | 1048 |
Correcions
Les errades que hi pugui haver són atribuïbles únicament al responsable d'aquesta edició digital. Si en trobeu cap, podeu notificar-la escrivint un correu electrònic a pvilas [a] estudiseivissencs.cat (substituïu [a] per @). Qualsevol altre comentari també serà benvingut.
Conclusió
Per a mi, aquest projecte ha estat una experiència extraordinària. M'ha permès explorar nous camins en l'ús de la tecnologia per a la difusió del coneixement i és, alhora, una mostra de respecte cap als autors i col·laboradors que durant més de cinquanta anys han mantingut el seu compromís amb la ciència i la cultura pitiüsa.
També vull agrair al director de la revista Enric Ribes, al codirector Maurici Cuesta, al president de l'IEE Marià Mayans i a tot l'equip directiu el seu recolzament i la seva paciència.
Finalment, permeteu-me que us faci un consell: entrau de tant en tant a la revista, triau un número a l'atzar i llegiu-ne els articles. És un autèntic plaer.
Pere Vilás Marí.
Dissenyador, programador i curador de la
versió digital de la revista Eivissa. 8 d'agost de 2025.
Alguns aspectes tècnics
Aquest projecte va néixer a partir de l'interès de l'autor d'aquestes línies en les revistes científiques i, per tant, també en la revista Eivissa.
Comprendreu que processar gairebé 4.000 pàgines és una tasca complexa. Es va valorar la possibilitat de mobilitzar els recursos humans i tècnics necessaris, però la iniciativa no va prosperar per manca de temps. Calia una altra solució.
L'autor havia tengut contacte acadèmic en tecnologies de machine learning (l'aprenentatge automàtic és una branca de la intel·ligència artificial) el 2018 desenvolupant un classificador d'imatges amb xarxa neuronal. Més tard, vaig començar a interessar-me pels models de llenguatge a gran escala (LLM), especialment a partir de la seva maduració amb l'arquitectura transformer (GPT-3.5 va sortir el 30 de novembre de 2020). De fet, podem afirmar que la versió digital de la revista Eivissa és, en gran part, un projecte d'intel·ligència artificial.
Quan vàrem començar, de seguida ens vàrem adonar que el repte principal no era l'escaneig i el reconeixement òptic de caràcters (OCR), sinó la comprensió dels documents (Document Understanding). Aquesta tecnologia permet extreure elements estructurals com títols, paràgrafs o imatges, i d'altres més complexos com notes al peu, peus d'imatges, bibliografia o autors.
La primitiva IA ens va ajudar en aquells moments en tasques de programació mentre es buscava la manera més efectiva de fer la comprensió. Vàrem provar segmentadors basats en YOLO i optimitzats per a revistes científiques, però requerien molt de temps per a l'entrenament del model. Com a solucions pròpies, vàrem atacar el problema de l'estructura des de diferents angles com ara el mapatge dels elements a tipus de lletra o la divisió en blocs identificats amb referències externes (vegeu les imatges).
Encara que funcionals, varen resultar massa feinosos per als limitats recursos. Es tenien els fluxos de feina preparats per usar IA en la determinació de l'estructura per mor dels experiments realitzats, però la qualitat encara no era satisfactòria.
Però la tecnologia avança ràpidament i el març de 2025 sortiren nous models amb capacitats de procés documental excepcionals. Vàrem processar els 1.055 arxius PDF de la col·lecció completa de la revista (fins al número 74) via API i, en menys de quatre hores, vàrem aconseguir una comprensió estructural gairebé perfecta dels documents.
El format de sortida escollit va ser el Markdown, un llenguatge de marques llegible per humans i fàcilment convertible a altres formats com HTML, LaTeX o EPUB. Tot i que quedaven tasques addicionals (extreure imatges, generar miniatures, revisar textos, etc.), la major part del procés es va poder automatitzar.
Resulta paradoxal que un dels valors afegits més importants del projecte sigui, precisament, nodrir la intel·ligència artificial amb contingut de qualitat sobre les Pitiüses, tancant així un cicle de retroalimentació molt profitós.
Procés d'un número
El procés s'inicia amb l'obtenció de l'escanejat de la revista. Raco ja tenia l'escaneig de la revista amb una alta qualitat i el vàrem aprofitar. A més, es comptava amb una imatge de la portada, així que el primer pas va ser la programació d'un crawler, que és un programa que llegeix un lloc web i descarrega el contingut per a poder-lo processar posteriorment.
Amb aquest pas, no només teníem els originals en PDF sinó que vàrem inferir l'índex: un senzill fitxer csv amb els següents camps: (id, numero, any, raco_id, num_pagines, autor_id, autor, titol, num_imatges).
La nomenclatura per identificar els articles és la següent: EV{numero}{article_id}.md, essent tant {numero} com {article_id} una seqüència de tres dígits amb zeros a l'esquerra. Per exemple, el tercer article del número 71 de la revista té l'identificador EV071003.md. Dins de cada article, les imatges estan numerades igualment amb tres dígits amb zeros a l'esquerra començant la primera pel número 001. És a dir, la cinquena imatge de l'article anterior té l'identificador EV071003005.png.
Seguidament, s'extreuen les imatges de cada article amb un altre programa que analitza el contingut del PDF. Als primers números es va haver d'aplicar una altra tècnica, consistent en "esborronar" les pàgines (desenfocament gaussià) i intentar separar les imatges (segmentació) aprofitant que el text presenta una freqüència espacial més alta que les imatges.
Per a cada article, un programa agafa la primera imatge i n'extreu automàticament, de la part central, un quadrat de 100x100 píxels que serveix per il·lustrar l'article a l'índex del número.
Tant els PDF del número com les seves imatges es pugen al repositori estàtic que es troba allotjat a Amazon AWS.
A partir d'aquí comença la màgia. Utilitzant les eines d'IA de Google, via API, s'aconsegueix extreure el text dels PDF amb els seus elements estructurals: títols, subtítols, llistes, notes al peu, bibliografia, peus d'imatges, etc. Amb aquesta informació es compon un text en format Markdown, que és llegible per humans i que és fàcilment transformable a HTML, LaTeX, EPUB, etc.
En aquest punt, un altre programa fa la transformació a HTML i es comprova visualment qualsevol error que pugui haver-se produït. Amb el text corregit s'actualitza l'índex d'autors. També es demana a la IA que generi un total de tres etiquetes descriptives de la temàtica de l'article per a facilitar la cerca i la navegació.
Ja amb tot a punt, un programa fa la conversió de tot el número que inclou:
- Cada un dels articles
- L'índex del número (portada)
- Actualització de l'índex de la revista amb el nou número
- Actualització de l'índex d'autors
- Actualització de l'índex d'etiquetes
Amb tot revisat, es puja tant el nou contingut com els índexs actualitzats a S3.
El nou número ja està en línia!