Convegno: Il ruole del modello nella scienza e nel sapere

Lincei 27-28 ottobre 1998

Tito Orlandi

Linguistica, sistemi, modelli

Introduzione: occasione del saggio, risultati acquisiti in precedenza.

Il tema del presente contributo è il possibile ruolo del modello (cioè della costruzione di modelli) nella linguistica, ma con due restrizioni: della linguistica, prendo in considerazione soltanto quella parte che si riferisce ai testi diffusi tramite la scrittura; in secondo luogo, i problemi che affronterò in questa comunicazione nascono dalla ricerca di un metodo corretto per trasporre testi di carattere letterario dal supporto planare al supporto digitale,

Generalmente si parla di «supporto cartaceo» e di «supporto magnetico», ma occorre tener presente che vi sono altre possibili realizzazioni della scrittura, su papiro o tavolette o pietra, etc.; e che d'altra parte la qualità fisica del supporto magnetico potrà cambiare con il progresso tecnologico, ma non cambierà la caratteristica di essere digitale, sulla quale si fonda la possibilità di compiere operazioni automatiche sul testo.
e tale ricerca ha influenzato le soluzioni che ne propongo.

I problemi a cui mi riferisco giungono ad ogni modo a toccare questioni di carattere linguistico assai più generale e di notevole complessità, onde è opportuno procedere senza trascurare particolari importanti, che pure possono apparire banali. D'altra parte darò per acquisite alcune idee esposte in precedenti comunicazioni,

Oltre ai saggi citati più oltre, sul problema specifico della codifica di testi cf. Integrazione dei sistemi di lettura intelligente e banche dati nel progetto Medioevo-Europa, in: C. Leonardi, M. Morelli, F. Santi (ed.), Macchine per leggere, Spoleto, 1994, p. 41-52. Alla base dell'analisi dei testi: il problema della codifica, in: M. Ricciardi (ed.), Scrivere comunicare apprendere con le nuove tecnologie, Torino, 1995, p. 69-86. Teoria e prassi della codifica dei manoscritti, in: M. Picone & C. Cazalé Bérard, Gli Zibaldoni di Boccaccio. Memoria, scrittura, riscrittura, Firenze, 1998, p. 349-360.
in quanto costituiscono il presupposto del presente ragionamento. Le richiamerò comunque in maniera sintetica, rimandando alle relative pubblicazioni chi fosse interessato ad una esposizione più ampia e dettagliata. (a) Differenza fra supporto planare e supporto digitale:
Cf. il mio contributo: Ripartiamo dai diasistemi, in corso di stampa negli Atti del Convegno I nuovi orizzonti della filologia. Ecdotica, critica testuale, editoria scientifica e mezzi informatici elettronici (1998), presso l'Accademia dei Lincei.
La scrittura è immediatamente evidente ai sensi dell'individuo umano, in particolare alla vista, mentre i bit del supporto elettronico possono essere riconosciuti dall'individuo umano soltanto tramite appositi strumenti.

La scrittura, una volta fissata sulla apposita superficie, non cambia; i bit possono muoversi uno rispetto all'altro, e cambiare: o per meglio dire, subire cambiamenti senza intervento umano diretto ed immediato, e in modo molto diverso dagli eventuali cambiamenti fisici a cui col tempo soggiace la scrittura col suo supporto.

La scrittura si basa sulla determinazione convenzionale di un certo numero di segni, che può essere molto grande come nel caso della scrittura cinese, ma deve essere comunque finito. Il sistema dei bit può fare ricorso esclusivamente a due segni, che sono in un certo senso semplicemente uno la negazione dell'altro. Per ottenere risultati paragonabili a quelli della scrittura, occorre considerare come unità significative non i singoli bit, ma la sequenza di un certo numero di essi, per cui unendo il valore del singolo bit con un valore dato dalla sua posizione nella sequenza si possa ottenere un numero infinito (e dunque, se si vuole, anche finito) di combinazioni, ciascuna delle quali si può considerare un segno individuale diverso dagli altri.

Rimane il fatto che la sequenzialità costituisce una caratteristica essenziale del supporto magnetico, e questo forma una ulteriore differenza con la scrittura. Essa, utilizzando appieno le capacità del supporto «planare», cioè costituito da una superficie, insieme con la diretta percezione di esso da parte dell'individuo umano, sfrutta la bidimensionalità di tale supporto per diversificare il valore dei segni a seconda dello spazio occupato. La scrittura ha due dimensioni, il bit no.

Il concorrere di queste due caratteristiche: l'accesso diretto sensoriale, che consente di comprendere nella materialità del testo la connotazione insieme con la denotazione; e la bidimensionalità, che per mezzo della posizione, grandezza, etc. dei segni ha un immediato significato connotazionale, ha come immediata conseguenza che un certo tipo di competenza accompagna implicitamente l'uso del sistema della scrittura.

Invece quando si compiono operazioni automatiche utilizzando il sistema dei bit si deve formulare una tipo di codifica completamente esplicito rispetto al significato dei segni, cioè il testo digitale deve inglobare in sé la competenza del lettore, che nella trasmissione di informazione tramite la scrittura rimane implicita. Dunque per passare dal supporto planare a quello elettronico occorre tener conto non solo dei segni (grafici) ma anche della competenza che li accompagna nell'autore e nel lettore. (b) Il problema della perdita di informazione.

Cf. T. Orlandi, Presupposti metodologici dei reciproci contributi fra informatica e bibliologia, in E. Esposito (ed.), Bibliologia e informatica, Ravenna, Longo, 1994 p. 19-33.
Considerando, dal punto di vista informatico e semiotico, un testo come un mezzo per trasmettere informazione, si deve prendere atto che qualsiasi trasmissione d'informazione ne implica una perdita parziale (entropia dell'informazione). Questo accade dunque già prima del lavoro di codifica compiuto da chi inserisce testi in una memoria di tipo digitale; accade anche nella trasmissione manoscritta e a stampa. Non si allude qui all'eventuale accumularsi di errori, ma proprio all'impossibilità di conservare nella trasmissione testuale tutta l'informazione che un testo anche già scritto conteneva all'origine. Il lettore recupera quel tipo di informazione mediante una serie di operazioni mentali, cioè vari tipi di interpretazione, che si basano sulla sua competenza. Ne deriva che nella macchina occorre inserire non solo l'equivalente del testo come si presenta sul supporto planare, ma anche, per quanto è possibile, una certa competenza.

Un testo (in senso generale) è la codifica (sia pure imperfetta) di una informazione, mediante un linguaggio «naturale» (che a sua volta si può considerare come un codice imperfetto). L'autografo di quel testo è la sua codifica mediante un determinato tipo di scrittura e di impaginazione (anch'essa codice imperfetto). Il lettore ne ricava informazione in quanto interpreta il messaggio assumendolo nella sua coscienza, cercando di recuperare per quanto possibile la parte di informazione perduta con la codifica.

Quando il lettore si trasforma in copista, ricodifica l'autografo mediante uno stesso tipo o un altro di scrittura.

Cf. Giovanni Adamo, La codifica come rappresentazione. Trasmissione e trattamento dell'informazione nell'elaborazione automatica di dati in ambito umanistico, in: G. Gigliozzi (ed.), Studi di codifica e trattamento automatico di testi, Roma 1987, pp. 39-63.
Tuttavia il copista non codifica un testo considerando esclusivamente la sua manifestazione fisica, ma risale al messaggio ricevuto da quel testo, che fornisce informazione. Questo solo può essere il motivo per il quale il copista (e analogamente il tipografo) si sente autorizzato a cambiare alcuni elementi del testo scritto, mentre altri devono necessariamente restare invariati. Egli può cambiare entro certi limiti, p.es., la forma delle lettere e l'impaginazione, ma non la sequenza delle lettere o la posizione del titolo.

Si forma un continuo processo a spirale in cui l'informazione dà luogo a codifica, questa ad informazione, questa di nuovo a codifica etc. Scrive Segre: «La realizzazione del testo è in uno stato di continua potenzialità. Il testo resta materia scrittoria attraversata da righe di scrittura, inerti sinché non vengano lette. Il testo prende a significare, e a comunicare, solo per l'intervento del lettore».

Cesare Segre, Avviamento all'analisi del testo letterario, Torino, Einaudi, 1985, p. 365.
(c) La complessità, spesso elusa, del fenomeno «testo».
Cf. il mio contributo: Ripartiamo dai diasistemi, cit.
Della difficoltà di definire con sufficiente precisione e con sufficiente comprensività il concetto di testo sono consci tutti coloro che hanno affrontato questo tipo di problemi, in linguistica come in ecdotica. Ma quello che preme di chiarire è che il testo risulta di solito, in coloro che lo trattano, un fenomeno unitario con caratteristiche diverse, ciascuna delle quali viene di volta in volta presa in cosiderazione in relazione ai problemi che interessano, come se costituisse essa sola il testo tout court. Così accade che per testo si intenda via via il significato del testo, cioè il suo aspetto linguistico a prescindere dall'ortografia, oppure la sua formalizzazione ortografica, o fonetica, etc. etc. E tutto questo non è mai detto esplicitamente, ma è lasciato all'intuizione del lettore.

Questo non ostacola, in ambiente «umano», il corretto svolgimento delle conseguenti analisi, e la loro comprensione da parte dei fruitori; ma non è ammissibile quando si agisce in ambito informatico, perché in tale ambiente non si può, senza ulteriori accorgimenti, sottoporre a procedimenti automatici un testo che si supponga caricato della coscienza e della competenza di un individuo umano che lo prende in considerazione, e che sia capace di separare la forma dalla sostanza, la grafia dal significato, etc., mentre come abbiamo visto sopra il sostrato informatico non è direttamente attingibile e tanto meno gestibile dall'individuo umano.

Complessità del testo e analisi automatiche

Ripartiamo dunque dai problemi del testo per chiarirne meglio la complessità ed il rapporto con le procedure di analisi automatica. A noi pare che dopo la recente (ma per recente intendo gli ultimi trent'anni, che pure per alcuni sembrano essere passati invano) riflessione sul testo, anche non volendo accedere alle chiacchiere del decostruzionismo e del post-modernismo, si debba dare per acquisito che il testo non deve essere considerato un oggetto statico, ma dinamico, in quanto portatore di significati attuabili solo in presenza di un lettore, e dunque in un certo senso un oggetto vivente.

Accedo qui all'insegnamento della semiotica, per il quale un segno non è un segno di per se stesso, ma in quanto e mentre esercita la sua funzione segnica di essere al posto di qualcosaltro. E su un terreno analogo ci porta la riflessione sull'ecdotica, quando mostra come «il» testo viva in realtà ne«i» testi e la sua esistenza consista nella valutazione del rapporto fra questi ultimi.

Cf. Raul Mordenti, Informatica e filologia, in Calcolatori e Scienze umane, s.l., Etas, 1992, p. 249-252.

Un testo viene riportato su supporto digitale per uno o entrambi di due scopi, la cui radicale diversità sfugge purtroppo alla maggior parte degli utenti dei sistemi informatici. Uno di essi è la semplice trasmissione, per la quale basta ottenere una riproduzione analogicamente fedele del testo, come è sempre accaduto per i manoscritti e la stampa, considerando p.es. lo schermo alla stregua di un foglio di carta, ovvero utilizzando il testo digitale come un semplice input per una stampante che produca un testo tradizionale su supporto planare.

L'altro scopo della scelta di un supporto digitale è quello di effettuare analisi automatiche sul testo. Credo che alla luce del concetto di testo sopra accennato si comprenda quanto grandi problemi sorgano quando si voglia usare la macchina per compiere una serie di procedimenti che finora sono stati propri dell'intelligenza umana. Si noti che il problema dell'isomorfismo fra stampa convenzionale e stampa mediante computer si pone soltanto quando si vuole sottoporre il testo a procedimenti informatici che sostituiscano l'attività critica di un soggetto umano, sia pure solo in parte.

Detto altrimenti: fra stampa convenzionale e stampa informatizzata si pone di solito un isomorfismo che concerne esclusivamente l'aspetto fisico del risultato. Come esso sia stato ottenuto, cioè quali entità digitali siano state trasformate in oggetti visivi, non ha interesse. Ma quando il testo viene sottoposto a procedimenti logici, esso in realtà viene trasformato (in modo implicito, per lo meno) secondo parametri che riguardano aspetti del testo che non sono quelli fisici. Nei procedimenti da parte umana si prende in considerazione il significato del testo (vuoi il significato astratto di lettere e parole, vuoi il messaggio che è il contenuto del testo); nei procedimenti da parte della «macchina di Turing» si prendono in considerazione i puri simboli elettronici che (quasi per accidente!) possono produrre il testo nel suo aspetto fisico disponibile al ricercatore.

Si vuole appunto mettere in movimento il testo all'interno della macchina, p.es. cambiando la sequenza delle parole, riunendole secondo criteri diversi da quelli con cui sono state messe in sequenza dall'autore, etc. Ovvero si affida alla macchina il compito proprio di uno scriba o di un tipografo, di decidere entro quali limiti può essere mutato il carattere, il corpo tipografico, l'impaginazione, etc. O anche si affida alla macchina un'attività parzialmente critica, p.es. quella di individuare i rapporti fra soggetto e predicato, fra predicato e valenze, etc.

Il ricercatore si illude di sottoporre ad analisi il testo che vede (sullo schermo o su carta) mentre non può essere sicuro, se non ha vagliato tutti i problemi della modellizzazione, che il testo digitale corrisponda isomorficamente al testo scritto. Occorre inoltre che lo studioso disponga

Cf. Allen Renear, Refining Our Notion of What Text Really is: The Problem of Overlapping Hierarchies, in N. Ide & S. Hockey, Reasearch in Humanities Computing, Oxford, 1995.
nella macchina di un modello dinamico del testo, perché il testo stesso è un oggetto dinamico. Questo naturalmente è facile a dirsi, ma assai meno ad ottenersi operativamente. Intendiamo qui di seguito indicare almeno uno dei modi nei quali è possibile raggiungere tale scopo.

Necessità del modello e modo di costruirlo

Il risultato essenziale delle ricerche a cui ci siamo riferiti è questo: che non basta, in ambiente informatico, ricorrere ad una semplice codifica degli elementi superficiali di un testo scritto, e cioè la sequenza dei grafemi, ma è necessario ricorrere ad una procedura più complessa, più aderente al complicato oggetto «testo», che sia capace di produrre un modello. Da un punto di vista operativo, questo ha portato alla formulazione di un apposito linguaggio mediante il quale è possibile descrivere gli elementi che formano il testo: lo «Standardized General Markup Language» (sgml).

Martin Bryan, \fISGML. An Author's Guide to the Standard Generalized Markup Language,\fP Wokingham (UK), 1988, xvii-364 p.: Addison-Wesley. Peter M.W. Robinson, \fIThe Transcription of Primary Textual Sources using SGML,\fP (Office for Humanities Communication Publications), Oxford, 1993: Office for Humanities Communication. Charles F. Goldfarb - Yuri Rubinsky, \fIThe SGML Handbook,\fP Oxford, 1992 (ristampa), xxiv-663 p.: Clarendon Press. Eric van Herwijnen, \fIPractical SGML,\fP Dordrecht-Boston-London, 1990, xviii-307 p.: Kluwer Academic Publishers.
Lo sgml nasce come strumento di unificazione di istruzioni di impaginazione di un testo (dunque descrizione del testo da parte del suo autore, non di un suo lettore o interprete), che superasse l'inconveniente dell'esistenza di molti linguaggi \(Fodiretti\(Fc di impaginazione, ciascuno con una sua sintassi, direttamente legati ai differenti programmi di impaginazione automatica (le famiglie dei troff, TeX, etc.). Esso era rivolto soprattutto ad istituzioni di tipo pragmatico, non scientifico (enti, uffici, editori), e veniva incontro a due esigenze (oltre a quella sopra indicata): la conservazione di informazioni contenute non nel testo in s\('e, ma nella sua disposizione (p.es. il fatto che il nome che si trova in alto a destra di una lettera sia quello del destinatario, e in basso quello dello scrivente); e la trasmissione di documenti da un gruppo di persone ad un altro, con l'indicazione inequivoca di dove trovare all'interno del testo i diversi tipi di informazione eventualmente cercata.

L'applicazione di un tale linguaggio e del conseguente sistema di segni (tag) nel campo delle discipline linguistiche comporta un rovesciamento simmetrico del punto di vista del codificatore. Invece di essere il produttore del testo che, insieme col contenuto, indica esplicitamente la struttura, \(`e il lettore o fruitore del testo che ne deve compiere prima di tutto un'analisi, per ritrovare le unit\(`a strutturali che vengono quindi esplicitate, marcate, con le opportune segnalazioni. In particolare si deve tener presente che il lavoro di codifica, in questo caso, presenta insieme elementi di descrizione (della pagina etc.) e di interpretazione del testo, ambedue operazioni ora pi\('u ora meno soggettive, che occorre compiere con piena consapevolezza, dichiarando accuratamente ed esplicitamente il metodo e gli scopi per cui si \(`e operato.

Lo sgml offre anche un'altra caratteristica importante. Per mezzo degli opportuni segni (tag) inseriti nel testo, \(`e possibile delimitare sezioni di testo aventi particolari attributi, che per mezzo di un programma di analisi (parser) vengono poi riconosciute come elementi di informazione (record) di una banca dati diciamo cos\('i virtuale. La banca dati pu\(`o diventare reale quando lo stesso parser provveda ad estrarre i dati dall'archivio testuale per formare un archivio dati strutturato.

Una volta individuati i fenomeni che compongono la materialità del testo, è possibile dunque trovare i modi per esplicitarli in un linguaggio compatibile con i mezzi informatici, e cioè un linguaggio formale.

Lo sgml ha presto trovato ampio consenso nell'editoria elettronica, e la sua utilità è stata resa evidente da applicazioni ormai universali come lo HyperText Markup Language (html) ed altre. Ma si è anche presto aperta una discussione su alcune sue caratteristiche che lo rendono insoddisfacente sul piano teorico, secondo alcuni studiosi.

Cf. Manfred Thaller, \fIHistorical Information Science: Is There Such a Thing? New Comments on an Old Idea,\fP in: T. Orlandi (ed.), Discipline umanistiche e informatica, Roma 1993, pp. 52-53.

Dal nostro punto di vista, lo sgml è in realtà soddisfacente entro i suoi limiti, ma la sua utilizzazione non elimina il grave rischio di semplificare la realtà nei riguardi del testo, con la conseguenza di perdere troppe delle informazioni contenute in esso, come è successo per la codifica intesa in modo ingenuo.

Cf. più ampiamente sotto, sulla dinamicità del testo.

Non basta, a questo punto, la distinzione fra codifica «ingenua» della pura sequenza grafematica e codifica «strutturata» di tutte le componenti fisiche dell'esemplare. Occorre avere nella macchina non solo un modello statico del testo, ma le componenti del sistema che lo hanno reso quel testo, corrispondente all'idea testuale del produttore.

Si dovrà dunque compiere sul testo un'analisi che, con l'aiuto di tutte le possibili competenze, storiche, filologiche, e linguistiche, identifichi i vari (sotto)sistemi che lo compongono. Sulla base di tale analisi dovrebbe essere possibile costruire un modello che dia conto del maggior numero possibile di caratteristiche di quel testo.

Per ottenere questo, si deve formulare una teoria del modello del testo, e dunque rifarsi prima di tutto ad una teoria del modello, tout-court. Si prende allora atto che il termine «modello» non ha un significato univoco nei vari ambienti nei quali è usato. Dovremo anzi dichiarare che non ci nascondiamo l'incertezza che caratterizza il significato dei termini modello e (termine necessariamente correlato, come vedremo sotto) sistema; ma riteniamo che si debba comunque procedere in questa direzione proprio perché gli altri termini hanno ormai un significato preciso che non corrisponde alla realtà che i nuovi problemi posti dall'informatica stanno proponendo agli studiosi, a quelli almeno che se rendono conto.

Una guida in questo vero e proprio labirinto si trova fortunatamente in un prezioso libro di Rutherford Aris

Mathematical Modelling Techniques, New York, Dover, 1994(2); cf. il contributo di Cellucci in questo stesso volume.
che trattando dei modelli matematici cerca preliminarmente di chiarire il concetto generale di modello. Egli parte dalla definizione (che si può considerare relativamente acquisita) di modello matematico, come «un insieme completo e coerente di equazioni matematiche che si presume corrispondente a una qualche entità, detta prototipo del modello». Il prototipo può essere una entità fisica, biologica, sociale, psicologica, o concettuale.

D'altra parte Aris sottolinea che questa non è l'unica definizione, valida quale che sia l'ambito in cui si producono modelli; e riferisce come siano stati presi in considerazione, in campi differenti, differenti tipi di modello, p.es.: - rappresentazione con mutamento di scala, onde il nome di modello da modus nel senso di misura
- disegno, cioè rappresentazione su una superficie piana
- sostituzione di un dominio di fatti privo di teoria con un altro per il quale una teoria è conosciuta. P.es. network theory as a model for neurological phenomena
- intermediario fra teoria ed osservazione
- una realizzazione possibile, nella quale tutte le proposizioni valide in una teoria T sono soddisfatte, è il modello di T
- simulazione, cioè modello per un uso pratico
- quando le leggi di una teoria hanno la stessa forma delle leggi di un'altra teoria, una è il modello dell'altra.

Aris si sofferma su altri due punti importanti: l'interazione fra modello ed esperienza, in un modo che trova sorprendenti analogie con la teoria di Gardin del percorso a spirale fra oggetti e descrizione degli oggetti;

Jean-Claude Gardin, \fIArchaeological Constructs. An Aspect of Theoretical Archaeology\fP, Cambridge-Paris, Cambridge University Press-\('Editions de la Maison des Sciences de l'Homme, 1980.
e la possibilità di diversi tipi di modello, dipendenti dal linguaggio con cui il modello è costruito:
- modello verbale (in linguaggio naturale)
- modello finito (grafi, automi finiti: linguaggio formale)
- fuzzy subsets
- modello statistico (scatola nera)
- modello stocastico

A questo punto è agevole per Aris procedere verso la teoria del modello matematico di fenomeni fisici; a noi resta il compito arduo di scegliere una teoria del modello che possa essere utilizzata per affrontare i problemi della rappresentazione del testo in ambito digitale.

Teoria dei modelli e scienza dei sistemi

Proporremo dunque in via preliminare la seguente definizione: «Il modello è una entità, M, concreta od astratta, che abbia la proprietà di poter essere utilizzata per simulare e dunque, entro certi limiti, spiegare, comprendere, il comportamento di una entità, P, il prototipo, anch'essa concreta o astratta». Sottolineo due punti chiave: la possibile astrattezza di M e di P, e il fatto che si prenda in considerazione il comportamento di P, cioè la sua dinamicità; lasciando al seguito del ragionamento di chiarire i motivi di queste scelte.

Mi sembra di per sé evidente che, per costruire un modello adeguato, occorre avere non solo una conoscenza approfondita del prototipo, o almeno delle caratteristiche del prototipo che costituiscono il punto di partenza per una sua maggiore conoscenza che si intende acquisire per mezzo del modello; ma che tale conoscenza possa essere espressa in modo formalizzato.

Per la necessità e il ruolo della formalizzazione nell'informatica, cf. il mio saggio Informatica, formalizzazione, e discipline umanistiche, in Discipline umanistiche e informatica. Il problema della formalizzazione Roma, Accademia Nazionale dei Lincei, 1997.
Questo, per quanto possa vedere, si può ottenere soltanto facendo ricorso alla scienza dei sistemi.

Occorre dunque mostrare che cosa intendiamo per scienza dei sistemi, e come essa si inserisca nei problemi che qui affrontiamo. Accediamo completamente alla definizione che ne danno F. Heylighen, C. Joslyn, e V. Turchin per il Principia Cybernetica Project: «La teoria dei sistemi o scienza dei

Cf. il «sito web» http://pespmc1.vub.ac.be/, da cui sono tratte tutte le citazioni che seguono.
sistemi afferma che per quanto sia complesso o diversificato il mondo della nostra esperienza, potremo sempre trovare in esso vari tipi di organizzazione», che possono essere descritti per mezzo di principi comuni. «L'approccio sistemico si distingue dal più tradizionale approccio analitico, in quanto privilegia l'interazione e la connessione delle differenti componenti di un sistema. ― Molti dei concetti usati nella scienza dei sistemi vengono dal campo strettamente apparentato della cibernetica: informazione, controllo, feedback, comunicazione, etc. ... L'attenzione della cibernetica, nell'attuale formulazione di «cibernetica del secondo ordine», è rivolta al modo con cui gli osservatori costruiscono i modelli dei sistemi con i quali essi interagiscono. In realtà la cibernetica e la teoria dei sistemi studiano essenzialmente lo stesso problema, quella dell'organizzazione indipendentemente dal sostrato in cui essa è materializzata. ... Si può dire che mentre la teoria dei sistemi si è concentrata sulla struttura dei sistemi e dei loro modelli, la cibernetica si è concentrata sul funzionamento dei sistemi... Poiché la struttura e la funzione di un sistema non possono essere comprese separatmente una dall'altra, è evidente che la cibernetica e la teoria dei sistemi devono essere viste come due facce di uno stesso approccio.»

In un altro articolo, preparato per il Cambridge Dictionary of Philosophy, Heylighen e Joslyn chiariscono ulteriormente che «la teoria dei sistemi si incentra sulla organizzazione e sulle relazioni fra le parti che vengono da esse connesse in un tutto.»

Da questi principi deriva una teoria del modello, che riteniamo compatibile con la definizione proposta sopra, ma che la precisa proprio nel senso voluto da noi, cioè in relazione ad un oggetto così speciale come è un testo. Joslyn e Turchin includono il concetto di modello in quello più ampio di conoscenza, intesa appunto come la relazione omomorfica degli stati di due sistemi, il modello ed il prototipo (secondo la nostra terminologia, da Aris); e questo ci sembra già importante per i problemi che qui poniamo. Ma soprattutto essi pongono in relazione, da un lato, un prototipo costituito da un sistema reale (del mondo), e da azioni rappresentabili con leggi; dall'altro, un modello costituito da rappresentazioni (del sistema reale) e da regole (cioè rappresentazioni delle leggi).

Mi sembra chiaro che questa concezione del modello viene perfettamente incontro all'esigenza da noi posta di cogliere nel modello la dinamicità del testo. Utilizzare il termine modello al posto di rappresentazione dei dati o semplicemente di codifica ha il senso di sottolineare la complessità dell'oggetto da codificare o da rappresentare, e che le procedure con cui si attua il passaggio dal testo su supporto planare al testo digitale siano qualitativamente differenti (rispetto alla codifica «ingenua»). Nello stesso senso, il ricorso alla scienza dei sistemi è utile per ottenere un miglior paradigma del testo nella sua complessità, senza che questo cambi nella sostanza la visione tradizionale del testo.

Si ottiene un miglior paradigma in quanto le procedure della scienza dei sistemi consentono di scindere il testo in una serie di elementi che possono essere considerati, in un primo momento, indipendenti l'uno dall'altro, e in un secondo momento possono essere fatti interagire con procedure compatibili con le procedure mediante le quali le macchine informatiche trasformano i dati. In questo modo il testo perde la (falsa) staticità che assume quando se ne considera soltanto il suo aspetto di oggetto scritto su supporto planare, riacquistando (forse non del tutto, ma la perdita di informazione è inevitabile in ogni passaggio, e forse può essere recuperata con altri mezzi) la fluidità che ormai ogni critico avvertito gli riconosce.

D'altra parte sarà possibile procedere ad analisi automatiche, cioè sottratte al continuo controllo dell'intelligenza umana, senza che tali analisi prescindano da almeno alcune (ma io direi, dalla maggior parte) delle caratteristiche fondamentali che rendono il testo un oggetto fluido, o meglio un sistema dinamico.

Ancora, l'utilizzazione dei concetti della scienza dei sistemi permette di vedere l'interazione fra le diverse componenti del testo come un filtro (tipico procedimento informatico) per cui l'informazione estratta o rappresentata da una delle componenti (output) diventa l'input di una componente successiva. L'utilizzazione del concetto di feed-back permette di evitare che questo tipo di procedure presuppongano una successione fissa delle componenti: da ciascuna di esse si potrà ritornare, ove necessario, ad una componente già presa in considerazione.

Schema operativo: via in su e via in giù

Come ho avuto occasione di esporre più ampiamente altrove,

Cf. Ripartiamo dai diasistemi, cit., soprattutto per la rilevazione dei differenti piani del significato del testo: significato grafico, significato linguistico, significato semantico, etc.
il sistema testo si può considerare composto di una serie di sotto-sistemi (che chiamerò semplicemente sistemi). Essi sono stati da tempo enucleati come oggetto di varie discipline, ma sono rimasti in certo modo inerti, separati, e i loro rapporti reciproci non sono stati formalizzati in modo corretto, ma sono stati lasciati all'intuizione degli interessati. Intendo riferirmi (a mo' di esempio) al sistema grafico materiale, al sistema grafico mentale, al sistema fonico materiale, al sistema fonico mentale, al sistema testuale, al sistema messaggio.

Per creare dei modelli corretti, e dunque utili alla gestione del testo, occorre percorrere una «via in su» per riconoscere la struttura e le particolarità dei singoli (sotto-)sistemi nel concreto individuale sistema testo preso in considerazione. Successivamente si percorre la corrispondente «via in giù» per chiarire i rapporti funzionali fra i successivi sistemi e mettere a punto i corrispondenti modelli.

Tramite questo metodo, si ricrea in ambito digitale il fenomeno della lettura, con tutto ciò che esso comporta in termini di competenza, oltre che di documentazione; cercando così di raggiungere un sufficiente isomorfismo fra il testo su supporto planare e il testo digitale. Se il testo vive esclusivamente nella sua fruizione, cioè nella lettura, per effettuarne una analisi automatica occorre che si ricrei in ambiente digitale un processo dinamico che sia analogo a quello della lettura. Le proposte che seguono rispondono al fine di dare un primo esempio di come sia possibile ottenere un tale risultato.

Per quanto riguarda la prima parte della procedura, cioè la via in su, o analisi, che parte dal testo come si presenta materialmente (ciò che viene spesso chiamato «documento»), poiché il risultato, per essere utile in ambito informatico, deve essere formalizzabile, ci siamo posti il problema di trovare dei criteri espliciti per enucleare i (sotto)sistemi testuali in un documento. A noi sembra che quattro criteri possano essere indicati come essenziali:

1. criterio semiotico: riconoscimento della presenza di un messaggio, cioè dell'esistenza di segni. Un fenomeno diventa semioticamente significativo quando rappresenta un cambiamento nel vettore, rispetto ad uno stato precedente. L'individuazione dei fenomeni da registrare nel supporto digitale dipende (appunto come ogni processo semiotico-comunicativo) dal riconoscimento di un distacco da uno stato iniziale, neutro, del supporto, materiale o astratto che esso sia. Per es., data la superficie bianca della carta, un segno d'inchiostro indica l'esistenza di un messaggio; data una serie di caratteri in «tondo», l'apparire di caratteri in corsivo segnala un (nuovo tipo di) messaggio; e così per le maiuscole in contrasto con le minuscule, etc.

2. Una volta riconosciuta l'esistenza dei segni, essi vanno interpretati ad un primo livello, cioè ciascuno preso singolarmente, indipendentemente dalla struttura in cui sono ordinati. Questo riconoscimento implica una competenza, comune al produttore dei segni ed al lettore, che stabilisca la relazione fra il segno ed il suo referente. È chiaro che siamo qui al livello dei cosiddetti «glifi», onde il loro referente sarà la «lettera» oppure un «logogramma», indipendente dalla sua realizzazione fisica.

Cf. il mio contributo Testo, scrittura, e rivoluzione multimediale nel convegno Le comunità virtuali e i saperi umanistici, Milano IULM 26-28 novembre 1997, in corso di stampa.
La competenza riguarderà l'insieme dei possibili glifi, quello dei loro referenti, e la corrispondenza fra i due insiemi.

3. A questo punto si effettua il riconoscimento dei rapporti fra le unità semiotiche, cioè della struttura dei segni. Questo implica la competenza relativa alle regole che governano la sequenza delle unità semiotiche, cioè la formazione dei morfemi, delle parole, e delle frasi. Si effettua inoltre un passo avanti nel processo semiotico, in quanto le unità prese in esame non sono più i grafemi, i quali da referenti diventano segni, i cui referenti sono le lettere che costituiscono l'alfabeto della lingua del testo. Detto in modo banale, una parola viene identificata indipendentemente dall'ortografia con cui è scritta nei diversi testi, dunque come il referente comune a tutte le ortografie possibile, ma nello stesso tempo non come il suo significato.

4. Consapevolezza che l'oggetto (sistema) testo è il risultato di molteplici componenti che possono essere distinte, e formano una unità attraverso i loro rapporti. Questo è quanto si è detto sopra.

Sulla base di questi criteri è possibile effettuare una analisi che permetta di passare alla seconda fase, cioè la costruzione di un efficace modello informatico del testo. Esso consisterà prima di tutto nella dichiarazione dei (sotto-)sistemi presi in considerazione, e di come si presenta il loro stato «neutro», che pertanto viene assunto come inerte, non comunicativo. Il sistema comincia a funzionare quando vi sono variazioni rispetto a quello stato, e dunque tali variazioni saranno l'oggetto della codifica.

Occorre dunque dichiarare anche preliminarmente l'elenco delle variazioni possibili, e la loro rappresentazione mediante le sequenze di bit. Il modello viene costruito mediante un linguaggio, che può essere analogo a sgml, purché depurato da ogni regola che non sia puramente formale. Le regole sintattiche permettono di dichiarare le varie componenti delle strutture, ed il loro contenuto. Deve essere premessa una dichiarazione del significato dei tag usati. Daremo di questo un'idea concreta, mediante esempi che sono lungi dall'esaurire i passaggi di un lavoro reale.

Supporto: si descrive e dunque si presuppone prima di tutto il supporto nello stato neutro, cioè privo dei segni di comunicazione di cui (anche) si compone il testo. Poniamo che si tratti di un codice, di cui si rileva (e dunque si dichiara) la costruzione in modo che presenti una sequenza di superfici di una data dimensione atte a ricevere le tracce del calamo. Dalla considerazione generale di quanto si presenta ai nostri occhi, oltre che da quanto già conosciamo delle abitudini (competenze) degli scribi, deduciamo (e dunque dichiariamo) l'utilizzazione di parte di questa superficie per la scrittura del testo, mentre un'altra parte sarà riservata alla numerazione delle pagine, etc. Noteremo anche come lo specchio di scrittura venga diviso in sub-aree, che conterranno le linee del testo. All'interno di queste linee si individuano i singoli segni della scrittura, che formano l'oggetto di un'ulterire dichiarazione. Questa prima analisi permette di rilevare, e dichiarare come ulterirmente significativi, i segni che si trovano in posizione particolare o anomala: glosse, annotazioni, titoli, aggiunte in interlineo, decorazioni, etc.

Unità della scrittura (glifi). Esse vengono riconosciute (e dichiarate) come parti di un sistema, la cui efficacia è determinata dalla loro sequenza, dunque dalla posizione reciproca, da alcune caratteristiche fisiche, come la grandezza, il colore, etc., e dal contrasto fra sotto-sistemi glifici, cioè il diverso stile: corsivo vs. tondo, inclinato vs. diritto, onciale vs. corsivo, etc.

Alle unità glifiche corrispondono (come significato: cf. Segre cit. sopra) le unità grafematiche, che sono la «costante astratta» che si ricava dalle diverse manifestazioni concrete costituite dai glifi. A sua volta, si ricava da diverse unità grafematiche con un medesimo «significato» una ulteriore costante astratta, le unità alfabetiche, che si riconoscono dalla coincidenza di diverse grafie, come «ch» e «k», «x» e «sc(i)», «s» e «z», etc. Si deve peraltro tener presente che alcune unità grafematiche non hanno una corrispondenza nelle unità alfabetiche: esse sono i cosiddetti segni di punteggiatura, o segni diacritici, accenti, etc., il cui significato si aggiunge in modo diverso in casi diversi, non tanto a singole unità grafematiche, quanto a sequenze di unità grafematiche (p.es. l'accento in certi casi riguarda l'insieme della parola, e non la singola lettera).

Unità lessicali. La competenza linguistica permette di riconoscere, e dunque di dichiarare, all'interno di una sequenza di unità alfabetiche, unità di rango più alto, cioè le frasi e le parole. Esse saranno rappresentate nel modello informatico non più dalla rappresentazione della loro grafia, ma in riferimento ad un dizionario astratto, ma reale.

A questo punto, il modello può essere messo in azione mediante una serie di programmi appositi, i parser, costruiti sulla base della dichiarazione premessa al modello, ciascuno per una o più finalità diverse. Il modello del testo, insomma, viene costituito dall'insieme inscindibile di più livelli di codifica e dei parser. Di questi non è opportuno parlare in questa sede, ma contiamo di mostrarli in azione in un prossimo futuro sulla pagina web del progetto artem condotto presso il Centro Interdisciplinare B. Segre dell'Accademia dei Lincei.