标记系统及学术文本处理的未来（一）

2016-11-10詹姆斯库姆斯艾兰瑞尼尔史蒂芬

出版科学 2016年5期

关键词：文献

詹姆斯?库姆斯++艾兰?瑞尼尔++史蒂芬?德罗斯

[摘要] 标记事务影响着学者们对思考与写作系统的采纳使用。程序性标记和表示性标记会阻碍这一进程的发展，描述性标记则通过简化机械性任务，让学者们将注意力集中于内容上的做法，以加快这一进程。

[关键词] 标记学术文本文献标准通用标记语言

[中图分类号] G231 [文献标识码] A [文章编号] 1009-5853 （2016） 05-0013-09

Markup Systems and the Future of Scholarly Text Processing

James H. Coombs， Allen H. Renear， Steven J. DeRose

Wang Xiaoguang Li Menglin Liu Jing

（School of Information Management， Wuhan University， Wuhan， 430072）

[Abstract] Markup practices can affect the move toward systems that support scholars in the process of thinking and writing. Whereas procedural and presentational markup systems retard that movement， descriptive markup systems accelerate the pace by simplifying mechanical tasks and allowing the authors to focus their attention on the content.

[Key words] Markup Scholarly text Document SGML

在过去几年里，学术文本处理已进入一个停滞阶段。以前，开发人员都致力于开发系统来支持学者做好研究者和作者两种角色。在布什（Bush）[9]的思想基础上，纳尔逊（Nelson）[l0，27，28]和范达姆（Van Dam）[10]等人设计了一些原型系统来模拟研究者的关联性思维过程。类似地，恩格尔巴特（Engelbart）[16-17]也想过利用概念操纵工具来增强人类智慧。里德（Reid）开发了Scribe软件，通过提供书目和引文集成管理工具[30]，将学者从一些格式化问题中解放出来。尽管了解这些想法的学者不多，但趋势是显而易见的，那就是开发一些新的研究和写作策略。

自从推出价格低廉、功能强大的个人电脑后，我们看到研究焦点从发展新策略转向如何让旧物件更快捷。这种转变一部分体现为模型的改变。以前，开发商将学者们看作研究者和写作者进而开发了一些模型。然而，最近的主导模型却是将作者看作打字员，甚至是排版人员1。如今的系统在模拟打字机，而不是让学者执行以往不太可能的任务。当然，这些电子打印机都内置有搜索和剪切粘贴功能，但是对于知识型用户来说，这样的系统只提供了很小的改进，与10年前或者15年前的系统相比并不强大多少。

解释这种趋势的原因有很多，最重要的大概是在商业和工业领域，集中式计算转变成了分布式计算，并成为最吸引开发人员的市场。传统意义上，在这样的领域，聘请秘书打印文件就已基本上满足需要。在这种环境中，必不可少的工具是打字机、剪刀和糨糊，现在则是他们的电子等价物。

在学术界，开发更加智能的系统的动力也在减少。高校有他们自己的业务和行政办公室，能充分利用一些商业系统。此外，学者们也喜欢此类系统而不是它们的替代品。那些能够接触到更强大系统的人也很少有足够的时间去充分利用这些系统，而且很多人发现这些系统使用过程复杂。这是可以理解的，因为大型机和小型机上的文本格式化程序都是基于某种模型开发的，这个模型并不适合将作者视为打字员。这些系统由程序员编写，并被程序员使用，所以通常需要高超的编程技能。大多数学者在体验了计算工作之后都乐意远离这些粗糙的和糟糕的系统，转而使用简单的、方便的小程序来帮助他们更快地敲打文字。由于对当前的重大进步缺乏认识，以及不了解研究和写作过程中的一些新策略，他们甚至对此幸灾乐祸，尽管这些发展是学术计算的重大进步。这样的反应甚至来自于经验丰富的学者，它给有经验的系统开发者和那些刚开始使用电脑的人带来了很多压力。越来越多的学者要求更加简单的计算设备来提高他们的打字能力，他们的施压导致行业发展偏离主线，其结果就是行业无法发展。学者们一直在维持他们已往的做法，也许仅仅是动作快了一点2。

这种主导模式的变化主要导致了三个问题：第一，计算机系统进行重大改进的动机正在消失，并且大部分资源已转移到优化提升一小部分文档开发流程上。由于缺乏时间进行其他学科领域的培训，很多学者虽然在文本处理上引领趋势，但是他们却不能理解或评价这种发展的潜力。此外，整个行业严重低估了开发复杂系统所需要的资源，而且人们已经不能容忍产品匮乏的现状。因此我们看到学者的注意力已经从信息的检索和组织、甚至拼写和语法的校验上转移了，现在更加注重键盘、打印机、字体、显示、图形、颜色及其他类似的特性3。于是行业不再开发具有新性能的工具，转而开发一些稳定的程序，以安全、显著地提高程序性能。第二，开发者和作者忽视了一个事实，那就是对文档进行电子开发会产生两种产品：打印输出文件和“源文件”。目前，一切都是为了生产打印输出文件；源文件只不过是一个副产品，浪费宝贵的磁盘空间，却只是用于多生产一份同一文档的打印输出。在与同事分享或者用智能系统处理时，文件的专有格式以及缺乏语义语用编码使这些文件变得毫无价值。第三，学者的时间和精力从研究和写作转移到了最终的格式化呈现上。例如，本篇文章的作者相当注意文章提交的质量，并且曾经为一些书籍排过版。但是当前的系统还是让作者时时刻刻都要关注文章的格式，而不仅仅是在文档准备提交时才这么做。

虽然无法简单地解决上述所有问题，但是每个问题的改善都可以通过向已经得以广泛使用的描述性标记转换来实现。描述性标记的价值尚未被认可，因为作者和理论家认为新型文档开发系统“超级打字机”并不需要任何标记。戈德法布（Goldfarb）是通用标记语言（GML）的主要开发者之一[18]，他明确表示，描述性标记比通常的程序性标记更具优势，但是因为还没有人能够完全理解标记系统，所以用户认为无标记比描述性标记更好。然而，随着标记系统逐渐成型，我们发现不存在所谓的“无标记”。所有的文章都涉及标记。“无标记”实际上由表示性标记和标点符号标记组成。此外，在相互竞争的标记类型中，描述性标记是最容易学习、最方便使用的标记，而且能很好地用于写作过程。最后，描述性标记对开发过程中的两种产物进行了信息编码：源文件和打印输出。因为源文件包含的是语义和语用编码，而不是格式化编码，所以能很容易地与同事分享，直接提交给出版商，并能被智能程序处理4。

本文第一部分对标记系统的理论进行了综述，明确了必要的概念，以正确评估各种备选方案；接着提出了描述性标记优于其他标记形式的主要论据。

1 标记理论

当一个作者写东西的时候，他或她会“做标记”5。例如，单词之间的空格表示单词边界，逗号表示短语边界，句号表示句子边界。这一情况被很多人忽视了，人们常认为电子文本处理系统并不需要标记，或者说，要避免使用标记。然而，详细的分析表明，作者手稿中经常使用两种类型的标记：标点符号型标记，如在句子末端放置句号；表示性标记，如给页面编页码，所以说标记是不可避免的，因为写作系统确实需要它们。

传统的、抄写类型的标记使得书面表达更加明晰。标记不是文本的一部分，也不是要表达的内容，而是告诉我们与文本相关的一些信息。当我们将写作内容转述成演讲（或者当我们大声朗读时），我们通常不会直接朗读标记；相反，我们通过使用各种语言之外的东西来传达必要的信息，阐释标记含义。举例来说，一个问号表达的信息和情感，可以通过提高声音或者眉毛来演绎和传达。

随着文本处理系统的出现，产生了新的标记类型和新的加工类型。当我们准备进行屏幕阅读或纸质阅读时，文档通过抄写进行标记。但是，当文档存储在电子文件中时，文档可能通过抄写被标记，或者用专业电子标记类型来进行标记，这些标记是为电脑应用程序处理而设计的。人们使用程序性标记来表示一个特定程序应该遵守的程序（例如：SK表示跳行），描述标记确定当前标记的实体类型（例如：

表示段落），引用标记引用文档外部的实体（例如：&mdash表示一个长破折号），元标记定义或者控制其他标记形式的处理（例如：< ！ ENTITY acm “Association for Computing Machinery”>表示定义引用标记 &acm；） 6。

2 标记类型

标点符号标记。标点符号标记由一组有限的标记构成，提供了与书面表达相关的句法信息。关于标点符号的研究已经延续了数百年，它们是写作系统的一部分。因为标点符号相对稳定，作者也普遍熟悉，且在文档中频繁出现，所以通常作家就像在打字一样给文档添加各种标点符号标记。

遗憾的是标点符号标记存在几个缺陷：标点符号系统相对复杂，而且受很多样式的变化限制。例如，本文作者认为不应该在句首状语短语的后面使用逗号；实际上，写作指导老师通常对这样的细节持不同意见。除了用法有差异之外，标点符号标记在外观上也有不同。例如，一些人坚持认为应该用空格将破折号与周围的字符分隔开来；而其他人则声称不应该有这些空格7。即使作者统一了标点符号的外观，在打印设备方面仍然存在不同。一些设备能够区分开引号和闭引号的标记，一些设备可以区分连字符、短破折号和长破折号。最后，标点符号标记系统模糊不清。例如，句号既可以用来表示缩写，也可以表示句子边界。这种模糊性会给文本格式化程序带来麻烦，程序常常会错误地将缩写看成句子边界，导致添加了多余的空格。创作辅助工具，如拼写和语法校正器，必须执行大量额外的加工来消除标点符号的歧义，而且必须要选择最可能的结果。

作者认识到标点符号标记存在的问题后，开始使用指示标记做代替。例如，本文的源文件包含 & mdash，而不是“---”或者“---”。作者可以专注于内容，将文体样式选择放到最后的编辑环节。同样地，用标记定义一个逻辑元件时，描述性标记通常被用来代替标点符号标记。例如，短引用不用标点符号标记定界，而是用和标记来定界。这使得文本格式化程序可根据显示器和打印设备能力不同，输出开放和封闭标记或者中立标记。此外，无论作者出于何种需要，应用程序都能迅速地对引号进行定位。

标点符号不仅仅是我们写作系统的一部分，也是一种文档标记类型，可能会发生变化，也可能被其他标记类型所替代。因为标点符号标记系统受制于样式的差异，取决于可用的打印设备，而且模糊性明显，所以我们希望看到越来越多的标点符号标记被指示标记和描述性标记取代。另一方面，我们并不是要完全取代标点符号标记。用指示标记来替代标准的标点符号，如逗号，并没有很大的用处。出版商，甚至是文本格式化程序，可以使用描述性标记来确定一个从句是否应该标记逗号或是分号，但是很少有作者在使用描述性标记来标记短语或从句的语法方面进行过深入的培训。因此，标点符号标记仍是合理的，没必要再探讨。

表示性标记。除了用标点符号标记低层元素之外，作者还会用各种不同的方式来标记较高层次的实体，让实体表现得更清楚。表示性标记包括水平和垂直间距、页码、分页符、列表和注释，以及大量特殊符号和设备。例如，作者通过段前的垂直距离或者水平距离来标记段落的开头。有时候，作者甚至会对段落进行编号。同样地，文章章节往往会以新的页面开始，也可能会以不同的样式呈现，甚至可能明确地标有“章”字样。

尽管作者早已在他们的手稿和打印稿中使用了表示性标记，但是现在大部分作者都倾向于使用文本格式化程序生成那些重复率高的、容易出错的标记。例如，在大部分打字机系统中，页码都是自动生成的。“Local”这个表示性标记，比如说行居中，作者仍在使用，通常是借助编辑命令实现的。在“WordStar”程序中，敲击一次Ctrl– OC可实现当前行居中。

程序性标记。在许多文本处理系统中，表示性标记被程序性标记所取代。程序性标记由指令组成，指示文本应该如何格式化。例如，人们会像表1中那样标记一个长引用。这个初始标记指示文本格式化程序工具执行大致以下几项步骤。（1）跳3行，相当于执行两次两倍行距。（2）左侧缩进10列，右侧缩进30列。（3）更改为单倍行距。（4）另起新页面，但是如果少于两行则保持在当前页面。

显然，这种标记是针对某个特定的文本格式化程序和样式表的，它与设备也相关。例如，对于一个高分辨率打印机，skip命令很可能转变为18点的值。程序性标记的突出特点是与批处理文本格式化程序相关联，比如文件誊清程序nroff/troff 和TEX排版系统。但是，类似WordStar的文字处理软件，用的是点命令（dot commands）来补充其表示性编辑命令。举例来说，文字处理软件使用编辑命令（Ctrl OC）来设置行居中，但是包括文件中用户指定的分页符标记（.Pa）。

描述性标记。在描述性标记系统中，作者要识别文本标记的元素类型。在表格1中标签表示下文文本是一个长引用，而标签表示这个引用的结束。

习惯于使用程序性标记的作者常常会考虑使用描述性标记，就好像描述性标记就是程序性标记，甚至会使用一些程序上的标签。二者的主要区别在于：程序性标记表明一个特定文本格式化程序应该做什么；而描述性标记指明一个文本元素是什么，也就是表明一个文本流隶属于某一特定类别。当一个文本格式化程序生产一个描述性标记文件的表示性复本时，它首先读取一组被写入程序性标记系统的规则，明确它在每个元素类型出现时应该做什么。然后通过调整这一组规则，作者或系统支持人员创建了一个可以自动、持续执行的表示性标记设计。此外，只有当这组规则需要重新编辑时才能够调整这个设计，所以文档文件能够保持完整。作者能够从痛苦的单调的机械编辑中解放出来，文本也不会出现错误。

大多数软件系统都会提供用户用于描述性标记的宏工具，如Troff软件的-ms 工具，甚至此类系统的有些原始语言也可能是描述性的，如在滑铁卢脚本（Waterloo SCRIPT）中用.pp“控制字”来描述段落。地理标记语言（Geography Markup Language，GML）[18] 语言为系统使用描述性标记提供了很好的关于基础概念的表述。不像特定的宏套件，地理标记语言是一种描述性语言，通常是在区别明显的、用户可访问的程序语言的基础上执行。除此之外，地理标记语言还在描述性语言中引入了“属性”的概念，为一些基本功能如交叉引用提供了标记支持（这是由程序自动解决的）。另一个有影响力的系统Scribe，通过从作者对系统的日常访问中清除程序性标记，促进用户对描述性标记的使用。作者可以为各类文档选择“文件格式定义”，而不是将程序性标记调整为控制描述性标记。

Scribe系统的做法最近被广泛效仿，但是充其量只是取得了一定的成功。例如，LATEX软件向提供低级别排版控制的TEX提供了高级别的接口。可是即使在最开始，LATEX用户也必须考虑低级别标记。举例来说，相邻的指示标记必须被“/”分隔，这是一个“促使TEX插入少量空格的排版命令”[21，pp.13-14]。类似地，许多文字处理软件（Microsoft Word， XyWrite， Nota Bene）也开始采用Scribe的文档格式定义。例如，Nota Bene包含了一些编辑命令，如使用样式块来定义长引用，并且能够在样式表发生改变时将所有块重新格式化。可是，样式表引导作者关注文档的呈现，而不是定位文档中的实体角色。因此，块样式看上去可能适用于任何一种实体类型。样式表常常也是可选的，而非标准接口。

引用标记。引用标记指引的实体位于文档外部，且在程序处理过程中，引用标记会被这些实体所代替。我们已经注意到与设备相关的标点符号会用到引用标记（例如：&mdash表示一个破折号）。引用标记的另一个特点是用于缩写，例如&acm；表示“Association for Computing Machinery”。引用标记可能会指向被存储在独立文件，甚至不同计算机系统中的实体。

大多数支持程序性标记的文本格式化程序都能通过自定义变量和文件嵌入或包含命令来提供引用功能。然而大多数情况下，引用标记与描述性标记系统相关联，在标准通用标记语言（SGML）中表现尤为明显[2]。

元标记。最后，元标记为作者和系统支持人员提供了设备来控制标记的解释说明，以及扩展描述性标记语言的词汇库。程序和描述性系统提供了定义标记定界符的方法。此外，程序系统还包括像定义宏这样的指令，其通常被用来创建可以表示一系列处理指令的描述性标记。比如，表1中的程序性标记通常被包含在名为quo和quoend的宏中。处理GML的应用程序，如Waterloo SCRIPT，也提供了标记来定义标签，从而指定有效、默认的属性，并指出当一个标签出现时应该执行哪些指令。最后，在标准通用标记语言中，元标记以“标记声明”的形式出现，包含13种形式。

所有重要的系统都支持元标记，但是大部分都没有为非程序员提供适当的接口。例外的是，Xerox Bravo和Star中的菜单导向群组。例如，InterLeaf允许作者简单地在对话框中输入尚且未知的标识符来创建新标签。其他系统则试图通过提供完整的引用和描述性词汇表来消除元标记这种需求，但是这种做法不符合人类的创新精神。

3 标记处理

简单来说，我们对标记进行选择、执行、存储和处理。精通特定的系统通常会使区分不同标记类型的任务变得复杂。作者使用不同的方式执行标记，他们可以键入标记，好像这些标记本身就是文本。他们也可以从菜单中选择功能键或者选择按钮。实际上，标记执行的方法仅仅会被程序开发者在使用输入、显示设备时的独创性所限制。尽管现在的趋势是将特定类型的执行方法和特定类型的标记关联起来，但是这种关联仅仅是历史性的，并没有为表征或评估标记类型提供任何基础依据。

标记必须被存储在某处，但是其存储方式则无相关限制。另外，没有什么能够阻止一个系统导出一种类型的标记，而存储另一种类型的标记。例如，XyWrite导出表示性标记，但是存储程序性标记。当一个可以执行编辑器命令，但不可编辑标记语言的作者认为文本应该居中时，XyWrite会在文件文本中记录相应的程序性标记，并在编辑显示器中将文本居中。类似地，WordStar只是简单地将文本居中：不管是在屏幕上还是文件中，周围的空白和文本都没有区分开来。因此，在评估这些标记系统时，作者必须仔细查看存储的内容以及显示的内容。

目前标记处理有三种主要类型：（1）阅读（被人读）；（2）格式化；（3）开放（包含格式化）。表示性标记专为阅读设计。程序性标记专为格式化设计，但是通常只能被单一程序使用。描述性标记比较适合阅读，但主要用于支持开放类程序（例如：信息检索）。

4 公开，掩饰，隐藏和显示

在“传统”文字处理系统中，作者输入电子标记，然后文档由不同的应用程序格式化。最近，格式化程序已经集成了编辑器功能，为了能够在编辑界面充分体现标记特征，我们需要一些其他的差别形式。

当出现在源文件中的标记同样出现在系统中时，标记是公开的，也就是说，标记不会执行任何特定的格式化过程。公开的标记通常存在于由不同编辑程序和格式化程序组成的系统中。许多所谓的所见即所得的程序（what you see is what you get，WYSIWYG），并不会为文本编辑做很多的格式化工作，而是直接显示它们导出或存储的标记。这类系统通常也会公开他们导出的所有电子标记。WordStar，作为这类系统中一个复杂的例子，公开了“new page”命令.pa，同时也会显示一行连字符来表现分页符。

更加复杂的系统通常会处理电子标记，然后将标记掩饰到特定字符后面。例如，XyWrite和Nota Bene显示一个“delta”，以便作者能够定位并且编辑标记。这样的系统通常也能很好地公开标记。其他系统（Xerox Bravo 和Star， MacWrite）则将电子标记完全地隐藏起来。还有系统（Janus[11]）在一台显示器上公开显示描述性标记，在其他显示器上则隐藏描述性标记。

最后，各类系统近期都已经开始显示电子标记；也就是说，源文件中的格式化标记将和文本一起显示。例如，执行Etude和Interleaf命令，对文本进行格式化编辑，与此同时在编辑窗口左侧的一个页面空白区会显示描述性标记。

因为标记不能很好地与文本进行区分，所以目前的系统还只是简单地呈现它。事实上，也没有其他方法可以行得通。使用四种模式中的任何一种来查看电子标记都是可行的。Datalogics 的 WriterStation支持所有四种模式，并且允许作者控制显示标记的格式化。

总而言之，目前共有六种文档标记类型，但是只有三种类型在竞争：表示性标记、程序性标记和描述性标记。表示性标记阐明了一个文档的表现形式，使其适合阅读。程序性标记指导文本格式化程序去“执行X”，如为了创造表示性标记而跳三行。最后，描述性标记告诉文本格式化程序“这是一个X”，如这是一个长引用。通常来说，文本格式化工具会将源文件中的表示性标记看作是文本，也就是说不进行特殊的处理，但是程序性标记需要根据系统文档中指定的规则进行处理；而描述性标记通常映射在程序性标记上。此外，描述性标记非常适合开放的应用程序处理。

开发系统应该提供最大的灵活性，并支持查看标记的所有模式。将作者看成打字员的系统近来开始倾向于导出表示性标记，存储表示性标记和程序性标记；因此，他们将文档与特定的设备和应用程序绑定。但是，一些集成的编辑器/格式化程序支持描述性标记，而这正如我们将要讨论的，在文档开发和出版流程上支持的最好。

5 可维护性

正如我们在前面的描述中所指出的，描述性标记消除了标记维护方面的担忧。一篇学术文章的发表可能需要几个月时间；一本书可能需要几年时间。在这种情况下，一个不使用描述性标记的作者可能会因为以下原因而去修改文档文件的标记：（1）作者学习了新的技术或者发现目前的技术造成一些问题；（2）计算环境发生了变化；（3）样式规则发生了改变。

比如在《前拉斐尔画派友谊》这本书的出版过程中，编辑一开始是使用反斜线<＼>来表示强调。但是，他们的文本编辑器有丢掉反斜线的坏习惯，而且他们早期打印输出文件的强调具有随意性问题。他们通过使用下划线符号（_）表示强调，来避免强调随意性的问题，但是必须重新编辑所有已经输入的文本。在对这本书进行排版时，他们发现下划线在他们的系统中也被用作短破折号（但是仅限于排版时）。结果，在下划线指令的范围内，短破折号被看作下划线；例如文本格式化程序生成198286，而不是1982—1986。因此，编者不得不再一次编辑他们的所有文件，并将下划线改成井字符号（#），而且希望不要再出现更多的矛盾，希望他们在修改过程中不会再引入错误。但是如果他们使用描述性标记来强调短语，这些维护问题都不会出现。

每当作者或者安装环境变化时，类似的问题还是会出现。当文件检索和编辑系统（FRESS）的用户在布朗大学了解到FRESS将不再被支持时，作者或花费几个小时将文件转换到新格式（Waterloo SCRIPT），不然就要接受“丢失”文件数据的可能8。即使是文本格式化程序的更新通常也需要在文件中做相应修改。更换新的打印机也可能需要修改。实际上，如果文件里包含程序性标记或者表示性标记，那么几乎所有计算环境中的变化都会对这份文件造成威胁。

最后，文档开发的过程中格式化规范很可能会发生变化。例如，现代语言协会（MLA）最近公布了新的样式表。为了理解这种结果，我们只需要考虑一个变化。先前MLA手册[24，p.23] 指定区块引用是“从上文文本开始，跳三行打字，左侧缩进十个空格，并用双倍行距（论文是单倍行距）打字，不加引号”。于是，许多手稿包含表1所呈现的程序性标记。新版本的MLA手册[25，p.49] 指定区块引用是“从上文文本开始，新起一行，左侧缩进十个空格，并用双倍行距打字，不加引号”。这个修正很快就导致大量标记的过时，现在作者必须定位所有的长引用，并删除 .sk 3 a ，但是，因为这个标记是对格式化程序进行编码的，而不是元素类型，所以 .sk 3 a的出现不能被看作是一个明确的指令来表明一个元素确实是一个长引用。因此，作者不能利用全局替换工具，而是必须检查每一个出现的 .sk 3 a标记，并且判断当前元素是否是一个长引用。这个转换过程是冗长乏味的，并且存在破坏文本的风险。而且，谁也不能保证MLA不会再次改变它的样式表，这会需要更多的标记维护。

使用表示性标记并不会减少类似的标记维护问题。实际上，更新标记甚至会更加困难。程序性标记有特定的字符串，如 .sk 3 a，这些字符串可能位于一般的编辑设备中。然而，表示性标记可能无法直接定位。比如一些编辑器要求一系列相对高级的命令或者使用规范的语法表达来定位空行。此外，简单的编辑设备不能区分如连续5个空格（对于段落缩进）和连续10个空白中包含的连续5个空格（对于引用的每一行）。因此，准确定位表示性标记通常需要强大的宏语言服务，以及编程能力。

通过使用描述性标记正确标记了的源文件便不再需要修改，也不需要进行标记维护。例如，一个长引用始终是一个长引用，不管表示样式发生改变还是处理系统发生改变。为了修改文本格式化程序对长引用的处理方式，人们只需要编辑程序的“规则”库。这种标记维护的定位能节约大量编辑时间，保护文件、防止其被破坏，并且这让一个当地专家对规则库的共享副本进行必要升级变得切实可行9。

6 文档可移植性

“移植”或者发送文档给其他学者和出版商的能力一直是学者们关注的主要问题。当打字机还是行业主流时，我们以打印稿和影印本的形式来传输文档。由于当时没有其他的替代方法，人们普遍对这个过程感到满意。

但是近五年来，越来越多的作者已经闲置了打字机，转向了电子文档开发。现在，我们可以从家里发送文档，跨越大洲，通向世界各地，并且通常在几个小时内就可以确认接收。我们的同事，在他们的机器上借助我们的源文件，可以使用程序搜索关键字，可以将我们的文稿融入协作文档，无需再进行重新输入、剪切和粘贴。此外，出版商可以使用我们的文件作为排版源，省去了重新输入文档的需要；一旦重新输入的过程被省去，那么文本被破坏的风险以及校对的需求也将降低10。

然而，目前的文本标记实践使得这样的文档交换很少见。虽然我们拥有电子传送的技术，但是我们缺乏保证每一个接收者能够处理任何作者的文档所必需的标记标准。事实上，兼容性问题十分严峻，以至于出版商往往会选择重新输入文档，尽管这些文档已经是以电子形式提交的；而且有时候，出版商并不会通知作者，使这些作者对于他们的文本的完整性会保持一种错误的安全感。正如一些出版商所指出的，输入文档是一项简单的、易于理解的任务，只需要一批支付最低工资的工人提供服务。然而，文件处理需要具备编程技能的人员提供服务，并要向他们提供合理的报酬，而且文件处理提供的收益并不一定会大于转换到新的处理过程的风险。

描述性标记为文档不兼容提供了一个即时的解决方案。任何一个具备准确和严谨的描述性标记的文档都可以从一个系统移植到另一个系统。这是因为描述性标记保证了逻辑元件和标记之间的一对一映射。因此，元素标识符可以通过在编辑器中执行全局替换而简单地得到改变。例如，人们可能将一个散文引用的标记从.quo转换成<1q>，从. Quoend转变成。在最坏的情况下，语法差异也可能被简单的程序解决。

认识到这一点后，出版商代表和有巨额出版费用的组织代表已经开始努力建立一个基于描述性标记的行业标准。美国出版协会（AAP）在其电子手稿项目[4，p.7]中发现，描述性标记“是为改进出版流程而设计电子手稿的所有方法中最有效的一个”。美国出版协会已经批准了ANSI-IS0通用标记语言，并开发了基于ANSI-IS0 通用标记语言的第一个应用。标准通用标记语言，实际上是用于生成描述性标记语言的元语言，有着相当大的灵活性和可定制性。已经使用描述性标记的作者能够将他们的文档经过少量的修改或者根本无需修改就转换成标准通用标记语言文档。但是，使用表示性标记或者程序性标记的文档则需要大量的编辑来与新标准接轨。

7 优点

由于人们通常不愿意放弃所学的技术，所以我们需要知道向描述性标记、并最终向标准通用标记语言的转换能为行业带来什么，这一点很重要。下面罗列部分优点。

（1）作者共享文件和与同事合作时，将不用忧虑当前文本格式化程序和印刷设备之间的不兼容问题。

（2）出版商不再需要更新文档密钥，从而减少一项成本高且易出错的任务。

（3）在很多情况下，打样过程可能会从生产周期中淘汰，这可以为出版商节约许多管理费用，以及减少文档打印出来的时间。此外，当作者想在排版毛条确定后再做改变时，出版商将无须再和作者进行协商。于他们而言，作者将减轻负担，无需校对那些自提交始就是正确的文档。

（4）后续的版本、修订，或是汇编，都可能产生于同一文档的源文件；密钥更新将不再必要。

（5）文献目录信息或许能从源文件中直接产生。这将有效减少错误，以及使引用对联机书目数据库的用户几乎立即可用。文本从提交到进入文学领域的时间将会大大缩短。

（6）文档可能直接包括在用于电子出版和全文检索的联机数据库里，这是另一种将文档快速引入文学领域的方式。

出版商和作者已经开始要求出版过程能在这些方面有所改进和提高。随着学术出版费用的持续上涨，成本控制将会变得越来越重要。同时，作者会发现进行了适当标记的电子原稿比其他电子原稿和打印文件更有市场价值。

参考文献

[1]Alexander. G.B. Computer aids for authors and editors： A natural extension of word processing and typesetting？ Seybold Rep. Publ. Syst. 13， 10 （Feb. 13. 1984）， 3-21

[2]American National Standards Institute. Information Processing-Text and Office Systems-Standard Generalized Markup Language （SGML）. IS0 8879-1986 （E）， ANSI， New York. 1986. （First edition： Oct. 15.1986）

[3]Association for Computing Machinery. Proceedings of thy ACM SIGPLAN-SIGOA Symposium on Text Manipulation. ACM. New York， 1981

[4] Association of American Publishers. Electronic Manuscript Project： Task 1 Report. Aspen Systems， Rockville. Md.， 1984

[5]Association of American Publishers. Standard for Electronic Manuscript Preparation and Markup. Electronic Manuscript Series. Association of American Publishers. Washington， D.C.， Feb. 1986

[6]Association of American Publishers. Authors Guide to Electronic Manuscript Preparation and Markup. Electronic Manuscript Series. Association of American Publishers. Washington. D.C.， May 1986

[7]BDS. The SGML Newsletter. BDS. Sterling， Va

[8]Beach， R.， and Stone. M. Graphical style-Towards high quality illustrations. In SIGGRAPH 83 Conference Proceedings. ACM， New York. 1983， pp. 127-135

[9]Bush. V. As we may think. Atl. Mon. 176. 1 （July 1945）. 101-108

[10]Carmody， S.， Cross. W.， Nelson， T.H.， Rice， D.， and van Dam， A. A hypertext editing system for the /360. In Pertinent Concepts in Computer Graphics. M. Faiman and J. Nievergelt. Eds. University of Illinois Press， Urbana. Ill.， 1969， pp. 291-330

[11]Chamberlin. D.D.， et al. JANUS： An interactive system for document composition. In Proceedings of the ACM SIGPLAN-SIGOA Symposium on Text Manipulation （Portland， Oreg.， June 9-10）. ACM. New York. 1981， pp. 82-91

[12]Coombs. J.H. Information management system for scholars. Tech. Memo. TM 69-2， Computer Center. Brown Univ.， Providence. R.I.， Dec. 1986

[13]Coombs， J.H.， Scott， A.M.， Landow， G.P.， and Sanders， A.A.， Eds. A Pre-Raphaelite Friendship： The Correspondence of William Holman Hunt and John Lucas Tupper. UMI Research Press， Ann Arbor， Mich.， 1986

[14]Corda， U.， and Facchetti， G. Concept browser： A system for interactive creation of dynamic documentation. In Text Processing and Document Manipulation， J.C. van Vliet， Ed. Cambridge University Press. Cambridge. Mass.， 1986， pp. 233-245

[15]Drucker. P.F. Management： Tasks， Responsibilities， Practices. Harper and Row. New York. 1973

[16]Engelbart， D.C.， and English， W.K. A research center for augmenting human intellect. In Proceedings of the AFIPS Fall Joint Computer Conference （San Francisco， Calif.， Dec. 9-11）. AFIPS Press， Reston. Va.， 1968. pp. 395-410

[17]Engelbart. D.C.， Watson， R.W.， and Norton， J.C. The augmented knowledge workship. In Proceedings of the National Computer Conference （New York， June 4-8）. AFIPS Press， Reston， Va.， 1973，pp. 9-21

[18]Goldfarb. C.F. A generalized approach to document markup. In Proceedings of the ACM SIGPLAN-SIGOA Symposium on Text Manipulation （Portland. Oreg.， June 9-10）. ACM， New York. 1981， pp. 68-73. （Adapted as “Annex A. Introduction to generalized markup” in [2]）

[19]Integration and pagination： Long documents， proposals， books. Seybold Rep. Publ. Syst. 16. 16 （Apr. 27， 1987）， 21-27

[20]Interfaces， media converters and OCR devices. Seybold Rep. Publ. Syst. 15. 18 （June 2， 1986），34-39

[21]Lamport， L. LATEX Users Guide and Reference Manual. Addison-Wesley. Reading， Mass.， 1986

[22]Mamrak， S.A.， Kaelbling. M.I.， Nicholas， C.K.， and Share， M. A software architecture for supporting the exchange of electronic manuscripts. Commun. ACM 30， 5 （May 1987）， 408-414

[23]Meyrowitz， N.， and van Dam， A. Interactive editing systems： Parts I and II. ACM Comput. Surv. 14. 3 （Sept. 1982）， 321-415

[24]Modern Language Association. MLA Handbook. MLA， New York. 1977

[25]Modern Language Association. MLA Handbook. MLA， New York. 1984

[26]Nelson. T.H. Getting it out of our system. In Information Retrieval： A Critical Review. G. Schecter， Ed. Thompson， Washington， D.C.， 1967.pp. 191-210

[27]Nelson. T.H. Comput. Libr. （1974）

[28]Nelson. T.H. Literary Machines， Nelson. Nashville. Term.， 1981

[29]Nievergelt. J.， Coray. G.， Nicoud. J.D.， and Shaw. A.C.， Eds. Document Preparation Systems. North-Holland. Amsterdam. 1982

[30]Reid， B.K. A high-level approach to computer document formatting. In Proceedings of the 7th Annual ACM Symposium on Programming Languages （Las Vegas. Nev.， June）. ACM， New York. 1980 pp. 24-30

[31]Trigg. R.H.， and Weiser. M. TEXTNET： A network-based approach to text handling. ACM Trans. Off. Inf. Syst. 4. 1 （Jan. 1986）. l-23

[32]Van Dam， A.， and Rice. D.E. On-line text editing： A survey. ACM Comput. Surv. 3. 3 （Sept. 1971），93-114

[33]Yankelovich. N.， Meyrowitz. N.， and van Dam. A. Reading and writing the electronic book. Computer 18， 10 （Oct. 1985）， 15-30

——本文注释及参考文献标注顺序遵英文原文，未作改动。