Tito Orlandi (Univ. di Roma La Sapienza e Acc. dei Lincei).

Teoria e prassi della codifica dei manoscritti.

[To be published in the Acts of the International Seminar: Gli Zibaldoni di Boccaccio: Memoria, scrittura, riscrittura (Firenze 26-28 aprile 1996).] - Last revised: June 10, 1996.

Abstract: In Decembre 1995 Sperberg-McQueen, Lancashire, Durusau, Burnard, Müller, and DeRose discussed some important features of the problems concerning the encoding of texts and the use of SGML and TEI standards: interpretations necessary for each encoding; correct represenation of grapheme in electronic environment; relations between encoding and editorial practices; purposes of the author in graphically organizing the text; distinction of types of markup; materiality of the text and representation of connotations; allography and orthography. This contribution is an effort to trace a theoretical structure which may include all such problems and help to solve them. Such theoretical structure depends on clearing the semiotic passages through which a text (message) goes from the author to the (last) reader. To clarify such passages some concepts are taken into consideration: the competence of the author and of the encoder; the different levels of a text: physical, "virtual", ideal; meaning of features of the text outside the pure sequence of graphemes; specific features of the electronic representation of the text; representation vs. substitution. Encoding cannot be based on the physical appearence of the text, but on the "virtual" text in the mind of those who have written it, and should be able to represent each element in the text contributing to its meaning. The encoder should therefore propose a complete table of correspondences.

TEXT

Il taglio di questa relazione sarà prevalentemente teorico, e tuttavia nel redigerla ho sempre avuto presente l'esigenza pratica di fornire, per quanto mi è possibile, un contributo fattivo al problema della memorizzazione su supporto magnetico dei manoscritti del Boccaccio. E vorrei sottolineare a questo proposito che il passaggio al supporto magnetico non nasce da moda o capriccio, ma dalle interessanti possibilità di analisi del testo che tale passaggio consente, e anche - occorre dirlo - dal fatto che, potendosi prevedere che in un futuro non lontano i testi verranno preferibilmente fruiti da supporto magnetico, prima si comincia ad operare seriamente quel passaggio, e meglio sarà.

Per dare un'idea concreta dei problemi teorici sollevati dal passaggio su memoria magnetica di testi scritti, vale la pena di riassumere una discussione, a mio parere illuminante, condotta nel dicembre 1995 nell'ambito di un importante "bollettino elettronico" chiamato Humanist, coordinato da Willard McCarty dell'Università di Toronto. (1) L'occasione venne data da un'osservazione di Russon Wooldridge (un francesista di Toronto), che affermava di preferire la codifica senza segni diacritici (accenti etc.) del francese ad una codifica mediante simboli che potevano essere interpretati in maniera ambigua dai software correnti di analisi testuale (cosí academie piuttosto che acad\emie) (9.321.1).

L'osservazione suscitò il disappunto di C. M. Sperberg-McQueen, (germanista ora programmatore a tempo pieno presso l'Università di Illinois), che affermò al contrario:

Software developers need to be educated in some of the facts of textual life, including notably the fact that not all text is written in English (...) The notion that we should systematically misspell words in languages which use diacritics -- for the sake of current generations of ill-conceived and ill-implemented software! -- is repugnant, and I refuse to do it. (9.327.1)

McQueen è uno dei principali artefici della Text Encoding Initiative, che, come è noto, rappresenta il modello attualmente piú avanzato di uno standard di codifica per i testi, in particolare, per quanto qui interessa, di tipo letterario. Esso è una realizzazione del linguaggio SGML, uno standard ISO per la rappresentazione di testi. Si noti che McQueen non menzionava esplicitamente né TEI né SGML, ma nel successivo intervento Ian Lancashire, anglista di Toronto, allargava la discussione, sollevando i propri dubbi in proposito:

SGMLers remind me of missionaries passionately trying to convert heathens, in this case scholars whose editorial practices don't follow ISO standards. What those on a mission may forget is the specific purposes that these scholars have in mind in making the e-texts. (...) As someone who does not write or speak French, either privately or professionally, I am paying very close attention to guidelines that come from experts in French. SGML by its very nature imposes interpretations on texts. (9.332.1)

Sui due punti essenziali delle "editorial practices" e delle "interpretations on texts" intervenne Patrick Durusau, della Emory University di Atlanta:

Editorial practices are not dictated by any ISO standard in general or SGML in particular. SGML provides a mechanism for documenting both the editorial practices used and their application to particular texts. (...) I am not quite sure how anyone could reach the conclusion that SGML "imposes interpretations on texts." A particular encoding of a text could certainly inpose an interpretation, but that is the responsibility of the editor and not the method used for the encoding. (9.338.1)

Queste osservazioni suscitarono la risposta di Lancashire, il quale, dopo aver ribadito il proprio punto di vista, aggiunse non a caso un nuovo argomento:

Look at Charles Goldfarb's SGML Handbook (1990), pp. 7-8. It distinguishes generalized markup like SGML from procedural markup (...) What Goldfarb dismisses as procedural markup is often the *only* markup a scholarly editor can supply in good conscience because the editor does not know what the author's intentions were. Such things as "the skipping of vertical space, the setting of a tab stop, and the offset, or "hanging indent", style of formatting", etc. (p. 7) -- convert these elements if you will into the basic features of layout of early books -- are fundamental to many conservative scholarly editions. (9.343.1)

E concluse con un'osservazione piú ricca di conseguenze di quanto non sembri a prima vista:

In my opinion, SGML was designed for authors of texts, people with absolute authority over its interpretation. For that reason, SGML can certainly be used by presses to encode any work published with the help of the author of that work. (9.343.1)

A questo punto venne, ancora da Sperberg-McQueen, il contributo fondamentale, che chiariva, secondo me definitivamente, i termini della questione, anche dal punto di vista terminologico. Eccone i passi qualificanti:

Problema dell'interpretazione: It is certainly true that SGML markup reflects an interpretation of the text, or even (as Ian Lancashire said in an earlier posting), "SGML imposes an interpretation." But the restriction to SGML is puzzling and unwarranted. It's like saying "In Toronto, fire consumes oxygen and thus you can only light a match when there's sufficient oxygen around." This is true as far as it goes, but needlessly restrictive. It's not just in Toronto that fire consumes oxygen, and it's not just representation of text in SGML that reflects, or imposes, interpretation of the text. All electronic representation of text -- like all printed representation of text -- expresses an understanding, and therefore necessarily an interpretation of the text represented. (9.349.1)

Tipi di markup: Prof. Lancashire is here falling prey, I think, to a common confusion of two distinct sets of polar opposites -- a confusion encouraged by many careless writers on markup. He opposes procedural markup and descriptive markup, when it would be better (in my opinion) to distinguish first procedural from declarative markup, and separately to distinguish presentational from analytic markup. (...) Procedural markup can be interpreted only as instructions to a program or device of some kind to perform this or that action. Declarative markup can be interpreted, by contrast, not as instructions to do something, but simply as a claim that something or other is true of a particular passage or location in a text. (...) The distinction between presentational markup and what I call analytic markup is different. Presentational markup describes, or imposes, the typographic presentation of the text, while analytic markup identifies the features of the text which are signaled by the typographic conventions. Italics, says the University of Chicago Manual of Style, may be used to signal rhetorical emphasis, or the title of a book, or the mention (not the use) of a word, e.g. in a linguistic discussion. To identify italics as italics one may use presentational markup; to identify italics as signaling the title of a book, or the mention of a word, one may use analytic markup. (9.349.1)

Con questo erano stati posti sul tappeto tutti i problemi relativi alla codifica dei testi, e noi intendiamo riprenderli, sottolineando l'importanza di alcuni, e indicando il sostrato teorico sul quale fondare la loro soluzione. Ma non sarà inutile riportare alcune osservazioni su punti singoli, fatte nel corso della successiva discussione.

Lou Burnard (9.349.2): SGML encoding, whether of the TEI flavour or of any other, allows you to make explicit your inferences. It's in the nature of things that those inferences should cover a very wide range -- from "compositor intended to use an italic typeface" at the one extreme to "author was thinking of his mother at this point" at the other. For diplomatic editions, inferences at the former end of the scale are likely to be preferred to those at the other. That does not make them any the less interpretative. (And indeed, I have read persuasive studies in which interpretations at either end of this continuum cross- fertilize and reinforce each other)

Martin Müller (9.362.3): Some deep belief in 'transcription without loss' underlies SGML/TEI. Texts are, in Nelson Goodman's terms, infinitely "allographic." and Michael Sperberg McQueen is an "allographer," who would unflinchingly accept a spelling of his name as a string of entity references if it had to come to that. On the other hand when Ian Lancashire argues for the irreducible elements of presentation, I think he is at some level arguing for the "autographic" aspects of the typesetter's art. Alphabets and derived codes are allographs that never quite free themselves from an autographic lure. Whether SMGL/TEI should be blessed or cursed for resisting the temptations of autography is a matter that should perhaps be left to theologians.

Steve DeRose (9.365.1): [To read something,] we turn an abstract orthographic notion of 'letter' into the press of a key, then into a bunch of bits, then into sound waves to go through the phone line, then back to bits, then to pixels on a screen, then to photons that strike the retina, then to patterns of neural activity that the reader classifies as the letter again. There is a legitimate (essentially allographic) sense in which the information is "the same" throughout, and a legitimate sense in which it is not. As Pike has often said, no matter what level of analysis you start at, there are more etic and emic levels above and below it that you cannot simultaneously analyze. Nothing new here. Does any of us know what signal our keyboard literally sends when we type Michael's name? It *could* be sending that "string of entity references": &cap.m;&i;... and we'd never know it. If some change in technology made that the most efficient way for computer- makers to do it, would we care? Mailers don't display 'Michael' as 01001101 01101001 01100011 01101000 01100001 01100101 01101100 -- this is interpretive too: We have a social convention against expressing information in a way that would be lost by the transformations/ interpretations just described (sometimes the convention is troublesome, as for those needing non-Latin-based writing systems, or concrete poets). Similar but not identical conventions have always been with us, perhaps due to the nature of human cognitive and pattern-extraction capabilities.

Riassiumiamo ora, senza particolare ordine, i problemi emersi in questa discussione: ogni passaggio materiale del testo è interpretativo; rappresentazione corretta dei grafemi in ambiente elettronico; rapporto fra codifica e analisi editoriali; rapporto fra le intenzioni dell'autore e l'organizzazione grafica; distinzione di vari tipi di markup, cioè di codifica in senso lato; rapporto fra la materialità del testo e la rappresentazione di connotazioni (vs. denotazioni); allografia e ortografia (autografia): la nozione astratta di lettera e le sue materializzazioni.

Questo solo elenco sintetico mostra come ciascuno dei problemi, pur riferito ad una procedura unitaria, abbia implicazioni diversificate, e richiami ambiti teorici e relative discussioni che portano in molte diverse direzioni. Il mio tentativo vorrebbe essere quello di trovare una struttura teorica che possa coinvolgere tutti quei problemi singoli, dar conto della loro posizione reciproca, e aiutare a proporre soluzioni che mantengano una coerenza di base.

A tal fine penso che possano costituire un punto di partenza le osservazioni relative alla soggettività di ogni procedimento di codifica, che rimandano all'utilizzazione della competenza del lettore(-[ri-]codificatore) nel valutare il precedente stato di codifica, cosa che a sua volta rimanda ad un'osservazione di cui raramente si fa menzione, o tanto meno si tiene conto, a proposito di codifica elettronica di testi. Si tratta del fatto che l'azione della codifica elettronica viene ad inserirsi all'interno (e non dopo!) del processo semiotico di comunicazione fra autore e fruitore di un testo. Questo comporta che l'azione della codifica sia sottoposta a tutti i problemi (studiati soprattutto dalla semiotica, ma non solo...) relativi al processo sopra evocato, che, come oggi ognun sa, è assai complicato e richiama un gran numero di problemi.

Ma questo comporta anche (e soprattutto) che la codifica per supporto elettronico non è un procedimento che rimane parallelo ad una parte del processo semiotico di comunicazione, in modo da lasciare invariato nella sostanza tale processo. Al contrario, essa potrà lasciare invariato il risultato di tale processo (cioè l'esatta comprensione del contenuto del messaggio da parte del ricevente, che è quello che si vuole, o comunque che piú importa) soltanto se sarà perfettamente corretta proprio dal punto di vista del processo semiotico.

Procediamo con ordine, chiarendo preliminarmente (poi ci si tornerà) l'inserimento del concetto di competenza, e poi affrontando il processo semiotico di comunicazione testuale. Introduco il concetto di competenza nel procedimento di codifica sull'esempio della linguistica, ritenendo che vi sia un parallelismo (pur in alcune essenziali diversità) fra lingua e codice, in particolare codice per supporto elettronico. (2) Secondo le mie vedute, la competenza (per quanto attiene all'informatica, dunque in ambito formalizzato), è l'insieme di regole che hanno guidato un autore a produrre un determinato oggetto, nel senso di oggetto semiotico: p.es. un "testo". Sotto un altro aspetto, la competenza è la sintesi logica compiuta dell'autore sui singoli elementi di cui si compone un testo per determinarne certe relazioni per cui appunto i singoli elementi vengono a comporre quel testo, e non un altro. Per converso, la competenza di chi esamina un testo è ciò che permette di riconoscere la relazione fra gli elementi studiati, quando essi sono stati posti in determinate relazioni da una competenza "originaria". Tenendo presente che l'informatica deve formalizzare, cioè ridurre a simboli, la competenza rappresenta la padronanza teorica della struttura di un codice, vuoi in sá, vuoi nei rapporti fra codice e realtà che esso può essere chiamato a rappresentare.

Si può dire che la competenza dello studioso (del codificatore) deve essere una meta-struttura che consente di poter rappresentare con i simboli a disposizione le strutture che possono essere riconosciute negli oggetti che verranno rappresentati da questi simboli.

Come si vede, è essenziale per la codifica prendere in considerazione anche il concetto di testo. Ed in effetti uno dei principali motivi per cui, a differenza di quanto si crede normalmente, il problema della codifica è molto delicato consiste nel fatto che esso si innesta su quello della definizione di testo. Non mette nemmeno conto di ricordare quanti abbiano sottolineato l'ambiguità del concetto di testo; (3) quello che occorre fare in questa sede è individuare alcune caratteristiche del testo, che servono a chiarire i problemi della codifica.

Prima di tutto, il testo può essere considerato da due punti di vista molto differenti, quasi si potrebbe dire opposti. Il primo individua come testo la materialità di ciò che è scritto. Il testo "è" le pagine di un manoscritto o di un libro, o meglio ciò che vi risulta scritto. Il secondo individua come testo un contenuto ideale che fa da tramite fra l'autore e il "fruitore". (4) L'approccio piú comune alla codifica, sia esso cosciente o (come spesso accade) non cosciente, consiste nel prendere atto del testo (in senso materiale) come esso si presenta, in un manoscritto o in un libro, e inserire in memoria dei codici tali che, sottoposti ad un software scelto in precedenza, per lo piú un pacchetto di video-scrittura, riproducano al meglio sullo schermo e sulla stampante quel testo. Di là dalla considerazione tecnologica che il mondo dei software è molto mutevole, l'obiezione principale a questo modo di agire consiste nel fatto che esso perde di vista l'essenza del mezzo di comunicazione elettronico. Infatti in questo modo non si fa che riprodurre, sia pure in modo sofisticato, il consueto procedimento a stampa. Esso ha delle implicazioni che vengono generalmente sottaciute, e che invece farebbero emergere le caratteristiche vincenti dello strumento elettronico.

Quello che interessa, nel riprodurre il testo, non è in realtà il suo aspetto fisico (che assume il massimo rilievo coi sistemi convenzionali), ma è il suo significato. Per comprendere questo aspetto, basterà riflettere sui diversi elementi del testo materiale, e mettere in evidenza il fatto che alcuni di essi sono importanti, altri non lo sono, altri sono trattati in modo implicito. Ne indichiamo alcuni, a mo' di esempio:

Aspetti importanti (da riprodurre comunque): sequenza dei grafemi.
Aspetti non importanti (da non riprodurre come tali, possono venire rifatti): organizzazione puramente estetica della pagina. Divisione in linee, divisione delle parole negli a capo, grandezza del corpo di scrittura, tipo delle polizze organizzazione pratica: titoli correnti, numerazione delle pagine, frontespizio, indice.
Aspetti di significati impliciti: alternanza di maiuscole e minuscole, corsivi, evidenziazioni di vario genere, virgolette, trattini, varianti ortografiche, etc.

In realtà molti degli aspetti non ritenuti importanti fanno parte del significato del testo; ma soprattutto gli aspetti impliciti ci indicano che la pura sequenza dei grafemi non è il solo elemento testuale da cui si possa ricavare il significato del testo.

Ma v'è di piú. Gli aspetti non importanti ci dicono che ciò che vogliamo riprodurre, anche nel sistema convenzionale, non è la pura apparenza fisica del testo, ma qualcosa che va oltre essa, anche se non è ancora il significato del testo nel suo senso piú generale. Il fatto che i grafemi possano essere di varia forma e dimensione ci indica che non sono i grafemi in sá che noi consideriamo (i glifi), ma un'idea astratta di ciascun grafema, che sta alla base delle sue manifestazioni materiali. Quando un codificatore memorizza un simbolo di lettera "a" senza specificare tipo di polizza, grandezza (point size), etc., implicitamente identifica un elemento ideale "lettera a" indipendente da ogni resa materiale di tale elemento. (5) Noi dunque non riproduciamo qualcosa di materiale, ma pur sempre un atto di comprensione spirituale, per individuare il quale si ricorre alla competenza (cf. sopra).

Tornando all'organizzazione grafica della pagina, è evidente che una corretta riproduzione del testo comporta che non si perdano le intenzioni dell'autore che tramite essa modificava il significato della pura sequenza dei grafemi. Coi sistemi convenzionali ciò era ottenuto riproducendo fisicamente i fenomeni grafici ritenuti significativi. Ma il sistema elettronico deve essere usato anche (e forse soprattutto) per analisi testuali che non comportano la sua visualizzazione complessiva: si pensi alle concordanze etc. Dunque è importante che la codifica elettronica includa dei segnali, oltre a quelli relativi ai grafemi, che collochino i grafemi nel loro giusto contesto, cioè ne indichi il significato in quel particolare momento.

Questo è il vero significato, dal punto di vista informatico, dell'osservazione che ogni codifica comporta una interpretazione del testo. Occorre un'indagine preliminare che stabilisca le intenzioni dell'autore nell'utilizzare i mezzi tecnici, dalla grafia all'organizzazione della pagina, per esprimere il suo messaggio. E, all'altro capo del procedimento, occorre dichiarare esplicitamente e con grande precisione la corrispondenza di ciascun segno del codice utilizzato con i singoli significati espressivi degli elementi del messaggio. Quando diciamo "ciascun segno" non intendiamo qui singoli byte (caratteri elettronici) ma anche gruppi di byte (p.es. i segnali SGML <...>) che esprimono singoli fenomeni.

Passando ora ad un altro argomento correlato a quelli precedenti, e che in certo modo ne forma la base, e cioè la specificità del mezzo elettronico, occorre chiarire la funzione del simbolo nella computazione, per poter stabilire quali valori possono essere associati con quel simbolo.

Esporrò su questo punto, brevemente, il mio punto di vista, che è stato svolto ampiamente in altri contributi. (6) Per le sue particolari caratteristiche, lo strumento informatico può essere utilizzato come il puro simulatore di uno strumento non informatico (macchina da scrivere, macchina tipografica, calcolatore, macchina fotografica, televisione, etc.). È soltanto quando si usa lo strumento informatico in quanto tale, cioè in quanto motore di automazione in procedure che normalmente vengono definite "intelligenti", che interviene la necessità di rendersi ben conto di quale sia la sua natura, e quali i presupposti di una buona utilizzazione.

Quello che è nuovo nell'uso di strumenti informatici (e per questo appunto vengono chiamati informatici, per distinguerli da tutti gli altri strumenti, che vengono implicitamente compresi in una medesima categoria, diciamo, di "convenzionali" consiste nel fatto che i passaggi in cui si evita l'intervento umano non sono passaggi di carattere puramente pratico e insomma materiale, ma passaggi che si esplicavano finora per lo piú mediante operazioni mentali. Questo presuppone che si accetti che l'informatica stessa non sia semplicemente un insieme di tecnologie, ma piuttosto di metodologie, e dunque una disciplina con un proprio fondamento teorico, che deve in qualche modo interagire con le metodologie delle singole discipline umanistiche. L'uso corretto del computer come macchina che realizza procedimenti logici sui dati, e nello stesso tempo funge da mezzo di comunicazione non passivo fra gli studiosi, richiede la consapevolezza dell'aspetto teorico che sta alla base dei vari tipi di macchina fisica che lo studioso utilizza.

Il computer assume aspetti diversissimi e può essere costruito con materiali diversissimi. Ciò che sta alla base di questa diversità è un meccanismo intimo, che guida le procedure operative. Sarà dunque questo "meccanismo" che dovrà fornire la chiave per intendere correttamente i rapporti fra il computer e le discipline umanistiche alle quali viene applicato.

In realtà, come nota Bolter, (7) il computer, nemmeno quando le simula, è alcuna delle macchine cui accennavo sopra, ma è lo strumento che "governa" quelle macchine. Per questo motivo l'informatica correttamente intesa è la disciplina che studia i principi di funzionamento del computer, ovverossia il modello formale (se si vuole matematico, ma in senso logico) del funzionamento del computer (macchina di Turing, algoritmi); quindi come metodologia del trattamento dei dati sottoposti al computer. Esso è un modello che produce modelli, e qui si inserisce la funzione del simbolo, come elemento costitutivo di un modello.

Occorre ora introdurre un ulteriore argomento, che chiarisce altri aspetti della codifica: la distinzione fra rappresentazione e sostituzione.

La rappresentazione è il modello di una dato procedimento, nel quale le singole parti corrispondono a quelle che costituiscono il procedimento, cosí come i rapporti fra le singole parti. La sostituzione è volta invece ad ottenere lo stesso effetto di un dato procedimento, mediante elementi e rapporti che non corrispondono, in tutto o in parte, a quelli del procedimento. La scrittura rispetto alla voce è da considerare una sostituzione, non una rappresentazione; essa è invece una rappresentazione del testo virtuale (cf. sotto), ma come codifica essa è imperfetta, perchá obbedisce a piú scopi differenti, e non segue la regola della biunivocità.

Nella tradizione manoscritta, una copia è la sostituzione del suo modello, mentre è la rappresentazione del testo virtuale come concepito dallo scriba. Questo testo virtuale è la sintesi fra la manifestazione materiale del modello e la competenza dello scriba. Allo stesso modo, un testo elettronico è la sostituzione del corrispondente testo cartaceo, oltretutto con le sostanziali differenze che il supporto elettronico presenta rispetto al supporto cartaceo. Viceversa, il testo elettronico è la rappresentazione del testo virtuale, analogamente ad un manoscritto o ad un libro. L'essenziale differenza qui è che la rappresentazione elettronica in sá è invisibile, e viene resa visibile attraverso determinati programmi e macchine (schermo, stampante).

Dalle osservazioni esposte sopra, deriva che la codifica di un testo presuppone la consapevolezza dei diversi livelli che il testo stesso assume nel corso della sua trasmissione semiotica. Dobbiamo cioè distinguere:

(a) un "testo ideale", che consiste nella rappresentazione pre-linguistica della realtà oggetto del messaggio; dunque il significato del testo, o in parole povere l'idea pre-linguistica da cui l'autore trae il messaggio che vuole comunicare.

(b) Un "testo virtuale", che consiste nella rappresentazione linguistica del testo ideale, tuttavia non ancora materializzata in onde sonore o in una scrittura. Si tratta di una sequenza di lettere ideali, che formano le strutture sintattiche (morfemi, sintagmi, proposizioni, periodi), accompagnata dagli elementi connotativi che verranno espressi in modo piú o meno adeguato adattandosi al mezzo di comunicazione materiale scelto.

(c) Un "testo materiale", che consiste nella rappresentazione materiale del testo virtuale, nella fattispecie una scrittura. Essa è una sequenza di glifi, opportunamente scelti per rappresentare le lettere ideali, ed alcune connotazioni (maiuscole per riverenza, corsivi per enfatizzazione, etc.) ed opportunamente organizzati per rappresentare ulteriori connotazioni, ovvero semplicemente per gusto estetico di composizione, o esigenze pratiche.

Il testo materiale è una codifica, generalmente imperfetta, del testo virtuale, attuata mediante la competenza di chi lo produce, che può essere l'autore stesso, o uno scriba, o un tipografo. Rispettivamente, si risale, tramite il testo materiale, al testo virtuale che stava nella mente dell'autore, oppure dello scriba, oppure del tipografo. In questi ultimi due casi, se si vuole risalire al testo virtuale dell'autore, occorre mettere in atto tutte quelle metodologie che permettono di risalire dall'uno all'altro.

Tuttavia, quale che sia lo scopo che ci si propone, la codifica su supporto magnetico non è la codifica del testo materiale, ma quella del testo virtuale, che si ottiene esaminando il testo materiale alla luce della competenza di chi lo ha prodotto. Solo questo permetterà di identificare tutti gli elementi singoli, atomici, che formeranno l'oggetto della codifica, e di formulare una tabella convenzionale di corrispondenza fra i codici, cioè i simboli della codifica, e quegli elementi.

(1) Notizie complete su Humanist si trovano nella pagina web: http://www.princeton.edu/~mccarty/humanist/humanist.html

(2) J. Fodor, M. Garrett, Some Reflections on Competence and Performance, in: Psycholinguistc Papers (eds. J. Lyon, R. J. Wales), Edinburgh, 1966. R. Raggiunti, Presupposti filosofici della linguistica di Chomsky, Milano, 1983 (cf. cap. 4). T. Winograd, Language as a Cognitive Process. Vol. I: Syntax, Addison-Wesley, 1983, p. 149-153.

(3) Rimandiamo a Segre, L'analisi del testo letterario, in: Avviamento all'analisi del testo letterario, p. 5-10 e 28-55 e W. Nöth, Handbook of Semiotics, Indiana U.P., 1990, p. 331-333.

(4) Cf. Burnard 349.2, quando nota che la codifica bene eseguita "allows you to make explicit your inferences. It's in the nature of things that those inferences should cover a very wide range -- from "compositor intended to use an italic typeface" at the one extreme to "author was thinking of his mother at this point" at the other." Burnard mette qui in evidenza l'opposizione fra testo come apparenza materiale e come contenuto, significato, mentale.

(5) Rimane poi da vedere se l'elemento ideale "a" sia il medesimo in diverse lingue. Qui il problema si complica terribilmente.

(6) Informatica Umanistica

, (Studi Superiori NIS, 78), Roma, La Nuova Italia Scientifica, 1990; Alla base dell'analisi dei testi: il problema della codifica, in: M. Ricciardi (ed.), Scrivere comunicare apprendere con le nuove tecnologie, Torino, 1995, p. 69-86. Informatica umanistica: realizzazioni e prospettive, in: AA.VV., Calcolatori e Scienze Umane, Milano 1992, p. 1-22.

(7) Turing's Man, Chapel Hill, 1984. Tr. it. L'uomo di Turing, Parma, Pratiche, 1985, p. 15 e 47-52.