文本文档是什么文本到底是什么？

编辑：

发布时间: 2020-12-16 12:53:12

分享:

[摘　要]　文本在计算机上的表示方式影响着文本创作者与其他用户使用文本的方式。现有的电子文档模型还有很多不足和局限。笔者认为文本最好的表示模型是有序的分层内容对象模型，这种模型揭示了文本到底是什么这一根本问题。OHCO模型符合SGML等新兴标准，且有利于作者、出版商、研究者等不同用户。本文介绍了该层次模型以及未来如何将文档作为一种数据库、超文本、网络来加以利用和重用。尽管计算机领域早就有人预言过无障碍信息获取与交互的近乎魔术般的未来，经过多年的发展，阿兰·凯所谓的“驾驶喷气飞机在信息空间穿梭”的愿景仍未能实现。但是我们坚信计算机在服务普罗大众，特别是学术活动上有着巨大的潜力，其服务涉及研究、思考、写作以及记录和组织信息等多个领域。然而，当前的软件技术还做不到这一点。在本文中，我们将研究计算机文本模型如何约束研究人员的文本处理能力。我们认为借助一些更复杂的模型，研究者可以得到一些梦寐以求的结果。长期以来，当人们面对电脑或电子终端时，最大的感受就是打字输入越来越快、越来越方便，但大部分行为和操作与过去的碳带打印相差无几。这一情况说明，计算机的强大功效尚未被充分开发利用。比缺乏实质性改进更糟糕的是，有些传统机械的优点也被弄丢了，看看下面这些笔墨时代从未出现过的问题：·因为使用了不同的文字处理程序，导致我们无法与同事共享文档；·出版商因无法使用磁盘上的文件直接排版，而重新录入所有内容，结果出现新的错误；·即使是校园挨得很近的不同打印机也会打印出不同的结果；·多年在线工作积累的大量文本不能有效地查找：可能我们知道某个参考文献在磁盘上的某个地方，但就是找不到它。我们认为大部分蹩脚的文本处理程序，以及印刷、可移植性还有信息检索方面的问题都有一个共同的源头。它既不是计算能力、内存或像素方面的欠缺，也不是程序设计不够巧妙或用户友好性不足。这是一个根本性问题，与计算机文本的表示方式有关。硬件与编程技巧的改进并不能从根本上克服文本表示上的缺陷。在各种信息交流形式中，组织结构清晰的文本历史最为悠久，也是诸多学者关注的焦点，所以我们选择文本作为本文的研究对象。我们认为文本的组织规则在应用于新旧不同的媒介时，必须进行更改。 1　OHCO：文本究竟是什么? 文档在计算机上的表现形式应当能反映文档的本质。所以第一个问题就是“什么是文档”？解决该问题的方法是首先要考虑要素的问题：改变文档的什么东西会让文档发生根本性变化，什么东西改变了还是原来那个文档？毋庸置疑，上面两个文档片段是“相同的”。对于一般性目的来说——有意义的内容单元——上面的文字是一样的。但是，如果我们对版式进行深度的而非浅显的调整，二者就会不同。差别主要来自于形式，而非内容。我们把文本的本质部分称之为“内容对象”，它的类型很多样，例如段落、引用语、着重语和观点等。在打印和显示文档时，每种类型的内容对象都有自己的表现样式，但它们是表面的和短暂性的，而非本质性的——内容元素及其内容本身才是文档的根本。当给这些对象指定了特定的助记名称后，就可以说文档含有“描述性标记”。大多数内容对象都包含在更大的内容对象之中，像小节、节和章的关系。在上面的例子中，段落包含了两段引用语，第二段引文中含有一个着重元素。一般来说，较小的内容对象不能跨越较大的内容对象的边界；因此一个段落不会在一章开始而到下一章才结束。有鉴于此，文档可以说是分层的，像一棵树或分类法。较小的内容对象存在于较大的内容对象中，比如一章中含有多个节，一节又含有多个段落、引用块和其他对象，这些对象按照一定顺序排列。这个顺序很关键，在任何文本结构模型中都必须存在。结合这些基本要素，我们可以将文本描述为一个“内容对象的有序层次结构”。这是本文以下章节讨论的文本的基本模型。在解释完为何其他简单模型不合适之后，我们将具体说明文本作者和研究者从OHCO模型和软件系统的组合中可得到的好处。文档的内容对象有序层次结构表示是功能最强的描述性标记形式。该模型有如下特征：·该模型反映了语言学上的篇章结构；文本是语言对象，所以这个框架是合理的；·许多已出版的文本暗含该结构——例如目录形式表现出来的结构；·版式手册也依据内容对象描述排版规则——例如期刊可能会对如何格式化“引文块”进行详细说明，这意味着该类型的单元对作者和编辑来说，都是有意义的；·可以通过指定图书的部分或查询元素的名称，直接从OHCO模型中抽出很多相关的元素；·如图1展示的，使用该模型帮助儿童理解和创建文档是自然而然的。关于OHCO有效性的一个观点是该模型不仅适应排版和印刷技术的变化，也适应于翻译活动。尽管所有的文档词汇和大部分的句法结构都可能会在文档翻译成其他语言时发生改变，文档的OHCO结构却可能会原封不动。再拿前文的例子来看，其结构依旧如此： 2　其他模型尽管OHCO模型有许多优点，大多数计算机文本管理软件却使用了其他不太专业的模型。本节将介绍其他几种文本模型：作为位图的文本模型、作为字符流的文本模型、作为格式指令的文本模型、作为页面布局的文本模型、作为内容对象流的文本模型。 2.1　作为位图的文本想象一下，人们使用图像扫描仪扫描一个文档，可以得到该文档的页面图像。虽然读者可以阅读图像上的文字，就像阅读手写信件一样，但图像上并没有可以被计算机识别的用来指明哪些字符将在页面上展示的显著标记。因此，用户无法对文本中的词汇进行搜索、修改或者重新定义其格式。对于某些计算目的来说，位图是理想的，例如为了古文书学及相关领域的使用而存储和展示手稿复本。但是，没有人会尝试利用位图对文字进行处理。档案系统在存储一些纸质文档的复本时，常将每个页面的图像与一些文本或描述性文字相关联，由此实现文档的索引、搜索等。 2.2　作为字符流的文本这种方法常用于通过计算机网络发送的文本文件。这种文本中仅有的结构性编码是通过空格和回车实现的。由于文本字符都有清晰的编码，所以位图模型最明显的缺点就被克服了。由空格和标点符号提供的最基本的标记使得一些文本单元，如词汇和句子等都可以相当准确地定位。然而，文档的本质内容和文档结构远比字符重要，但这些依旧无法处理，所以位图模型面临的这些难题还是没有得到解决。除了可以搜索和修改词汇外，用户没法做其他任何事。例如，只有清晰地展示出文档结构后，才有可能让电脑将一个在线文档特定章节中所有引用诺思洛普·弗莱的话做个列表。 2.3　作为格式指令的文本相对于位图模型和字符流模型来说，目前常见的字处理文件在格式化页面制作上有了长足进步。字处理文件包含一系列字符和空格，还有少量排版处理指令。与以前的模型相比，该模型中的每个字母都有明确的表示。编辑程序可以定位单词、删除字符、进行全局替换以及其他常见的文字处理；此外还有附加功能可以使用，如自动拼写检查、词典、索引等。然而，由于缺少对作者感兴趣的对象的控制，当前的模型还无法定位文本中的诗歌引文或方程式。该模型没有明确指明文本的哪一部分是诗歌，哪一部分是方程式。虽然格式命令可能提供了一些线索，但它们并不可靠，原因如下：·为了挑选出一种文本表现形式，必须要记住或重构一系列的格式化命令；·在许多程序中，同样的文本表现样式可以通过不同的方式实现，但这些文本表现样式却没有唯一的识别特征；·作者可能没有使用相同的方式对给定类型的内容对象进行格式化处理，由此导致搜索时会漏掉一些内容；·作者可能以相同的方式对多种类型的对象进行了格式化，由此导致从外观上无法区分不同类型的对象。就像计算机可以将我们从排序问题中解脱出来一样，计算机同样也应解放那些想系统地改变某类内容对象格式的排版工人们，但是计算机不能，因为缺乏必要的描述性信息。信息的表现——格式化信息并不是问题的关键：它只与特定的设计风格、特定的文本处理程序以及特定的输出设备相关。 2.4　作为页面布局的文本这种文档表示方法的最好代表也许是PostScriptTM，其结构是分层的，与常见的论文处理方法类似，故被广泛使用。一本书可以分为若干页，一个页面又可以分为页眉、正文区、可有可无的脚注和页脚。然而，即使是这种模式也不能满足作者和学者的文本操作需求。怎么才能找到方程、诗歌引文、诗句等类似内容？该问题与指令格式化模型面临的问题是一样的。页面布局模型有助于描述文本在页面上的位置，但不容易转换以满足其他用途。正如我们下面将要看到的，OHCO模型可以很容易地映射到其他模型。 2.5　作为内容对象流的文本该模型与OHCO模型的不同仅仅在于内容对象按贯序排列而非层级结构。任何单个文本片段只能是一个对象的部分，因此更高层次的内容对象，如章和节就无法直接展示。目前，许多文字处理软件都在使用该模型，例如，麦金塔电脑版的Word软件允许将特定类型的内容对象定义为“样式”。可惜的是，这些样式不能适用于段落以外的对象：无法定义那些具有层次关系的更小或更大的对象是国际标准化组织的“标准化通用标记语言”。它定义了一个强大的语言，借助简单的字符流文件来描述和编制任意复杂的层级结构文档。它没有指定一套特定的内容对象类型或“标签”，而是提供了一种标签及其关系使用法则。对于有固定形式的文档，如字典和参考文献，SGML可以帮助其建立一致性结构。对于结构更加松散的文档，如文学文本，文档结构的精确描述可以用于文档分析。从这个意义上讲，SGML之于学者的帮助大于其对作者的帮助。SGML根据文档的OHCO结构来定义文档：它不直接指定如何格式化或处理文档，而是通过内容对象助记名来描述文档的层级结构。因此，它并不关心文件应该被视为数据库、文字处理文件，还是其他东西。另外，需要特别指出的是，这种独立性并不妨碍SGML应用程序能够根据用户的期望任意地显示数据。许多软件都提供了多种工具来设定任意内容对象类型的表现形式，并在写作和编辑中以“所见即所得”的方式显示这些内容。美国出版商协会曾经为了组织成员标记拟出版文件开发过一套SGML“标签”。虽然它还不能满足学术目的也推荐了一个非常类似的标签集。文本编码组织是一个得到学术界广泛支持的国际性协会，它正在开发多种满足学术和商业广泛性目标的文本编码指南。TEI也是一个欧美联合科研项目，囊括了全球的学者。虽然还没有完工，但TEI已经决心使用SGML作为基本的文本描述语言。人们期望TEI包含一些标准用于表示那些常见的兴趣单元，以及多种文档类型定义用于各种标准化的文档，还有明确定义如何根据新内容对象所需的标识来扩展自身。 3.1　基于OHCO模型的文本处理优点该章节提出了一些使用OHCO模型识别文档逻辑对象的文本处理系统的优点。这些优点分为三方面：创作辅助、生产辅助、简化数据的再利用。这三个分类基本上是按照文献出版生命周期提出的，并作了扩展。 3.2　对于创作的好处OHCO模型简化了创作过程。格式方面的考虑使得作者在创作文本时，无需专门记住必要的格式规定和格式化命令，取而代之的是作者只需从菜单中选择一个名字来确认每个文本元素。该模型允许作者以适当的身份在某个抽象层面上处理文档，而确定到底是加重标题还是使标题居中以前则是印刷工人考虑的事。OHCO模型支持不同的文档视图。最近，大纲已经成为文本处理程序的标配，这不过是理想的文本模型带来的初步结果。文档的各级大纲视图仅需通过隐藏特定级别上的内容即可生成，例如顶级大纲视图只保留一级标题而隐藏其他内容。多个文档特定部分的复杂的有选择的展示也可以借助文档的逻辑组成轻松地实现。不幸的是，一般大纲视图只考虑有限范围内的元素。在最低层级，所有内容都是无差别的文本元素。例如，微软的Word软件的大纲视图采用的是一种非层级的文本模型。由于这种表现的限制，用户一般不能使用其大纲视图单独显示诗歌引文或者引文块以及加重的元素。这种令人遗憾的局限源于将“标题”作为一个特例而不是一个特定的层级对象类型组，而这正好对于生成选择性视图很有用。OHCO模型支持很多写作工具。由于OHCO格式的编辑程序可以按照组件形式灵活地处理文档，所以用户可以很容易得到有用的和复杂的编辑工具。因为有精确的内容层级描述，所以编辑软件，尤其是以SGML为基础的软件对文档结构较为敏感。这类软件可以提供包含所有所需对象的合适的大纲视图，并能提示作者所有上下文所需的或禁止的对象，并自动地重新编号或调整文档组件。例如，SoftquadAuthor/EditorTM以图标的形式显示标签，并允许用户从菜单中选择标签来防止出现某些错误，该菜单只列出适用于当前上下文的所有标签。尽管很多编辑器都提供这种功能的简化版，但文本模型的不足还是会限制这些编辑器的有效性。例如，微软的Word可以给段落重新编号，但由于其文本模型是非层级结构的，它就不能区分列表项和嵌入在列表项中的段落。如果注释可以被标注，那么计算机就可以在文本与书目数据库、个人笔迹等内容间建立直接的联系。通过记录这些基本的文本组件的结构，就可以更加有效地利用它们。早期的超文本系统FRESS除支持OHCO文本模型的部分外，还有独立的注释，这些注释可以由一些类似于数据库的功能进行操作。由于一个学科的重要性文本单元决定了用于编码的最适合的标签，所以每个学科的特殊的复杂性可以直观地通过描述性标记来处理。精心设计的标记框架则能够促进更好地重用数据。 4　OHCO在当下的应用 4.1　基于OHCO的文本处理可能会被大众接受吗？尽管自20世纪60年代以来，研究人员就在推荐使用结构化的和内容导向的文本处理程序，1980年代的电脑文字处理软件却明显忽略了OHCO模型。这些程序的设计师更重视他们熟悉的系统，这些系统也有点像打字机，视觉上较为吸引人，但是，现在已有明确的迹象表明基于OHCO的文本处理程序将很快进入大众文本处理市场。首先，用户要求专业的计算保障，包括可移植性、兼容性、信息检索、成套的辅助工具、从电子手稿直接出版、在应用程序间共享数据，还有其他许多最先进的电脑文字处理软件都无法满足的要求，这些要求总是以令人意想不到的方式出现。最引人注目的变化是SGML的地位得到大幅度提升，SGML成为描述性标记系统的国际标准以及文本编码数据标准。支持SGML的组织包括国际标准化组织、美国国家标准学会、美国出版协会、图像通信协会、欧洲专利局、欧洲共同体委员会等。SGML由美国出版协会发布，也受到美国图书馆协会、美国国会图书馆、医学图书馆协会、现代语言协会、电气和电子工程师协会、联机计算机图书馆中心、大学微缩胶卷联盟，以及其他专业和产业组织的支持。最重要的是，SGML作为一个“联邦信息处理标准”已经被一些政府办公室，包括美国国防部在大型出版项目上的采纳。这个规定可能会对编辑和字处理软件的发展产生重大影响，这些软件主要用于国防承包商开发技术文献。最终，这个规定也将会影响一般的高端文本处理市场。最后，拥有强大处理器和图形用户界面的新型微机，目前已经可以支持基于OHCO的文本处理软件，同时拥有所见即所得式的字处理程序的外观和感觉。这是创造流行的基于OHCO的文本处理器的最后障碍。 4.2　现在有哪些产品？基于OHCO的文本处理开辟了在Scribe和IBMScript/GML的大型机上进行批处理的先机。目前，相关软件仍然可用，并且拥有基于OHCO的文本处理的大部分优点。但是，如果作者们要实现文本结构化还必须使用通用编辑器向文本中输入一些描述性标记标签并设置一些特殊的分隔符。现在还没有很多专业的编辑器来简化在电脑上打标和格式化处理工作。因此，新的所见即所得式的文字处理器便于新用户上手；Scribe和GML的优点只在那些大型复杂文档上体现得比较明显。SoftQuad是一个运行在苹果麦金塔电脑上的基于SGML的编辑器。它看上去和麦金塔电脑上其他的所见即所得式的文字处理程序没区别。SoftQuad能验证文本的OHCO结构，提供了可选择标记的菜单，并能和排版软件对接。但是该编辑器的基础版不是一个全功能的文字处理器，它缺少一些细节功能，如多栏、脚注还有复杂的页面布局功能。事实上，SoftQuad强调它本身是一个给作者和编辑者的工具，用于编写文档，而不是给设计师和排版人员进行页面设计和印刷的工具。SoftQuad所提供的格式化功能主要是让作者创建一个自然的和视觉上舒适的编辑环境，让标题看起来像标题，诗歌看起来像诗歌。SoftQuad有力地证明了基于OHCO的文本处理不需要像Scribe、Script/GML这样的传统而笨拙的批量格式化软件。Exoterica软件提供了各种各样的SGML操作工具，包括编辑器、解析器等。这些工具并不提供常见的文字处理界面以方便创作，但它们在处理SGML相关问题上相当专业，在处理不规范输入文件上表现也很出色。在很多设备上都可以使用这些工具。Interleaf、Context还有很多其他文字处理、桌面出版厂商都急于支持SGML；它们有的将SGML视作一个导入/导出格式，有些则将其视为基础性设计问题，不管怎样，但都在很认真地对待SGML，因为SGML有广泛的支持基础，尤其是在大市场领域，如那些有超多文献编制需求的行业。 5　OHCO在未来的应用 5.1　多层级结构这里有一个问题我们并没有讨论，那就是很多文档都有多个不相交的结构。例如，《圣经》里至少有三个有用的层次结构：·参照层次，包括圣约、图书、章节、诗句；·主题层次，包括章节、段落、句子；·对于任意版本都有的版式层次，包括页面、列、行。这样的多重结构在任何标记系统中都很难表示。尽管SGML可以对多个不相交的层级结构进行编码，但仍需要在编码和显示层面开发更好的表示方法。在某些情况下，多结构表示很重要，对OHCO模型进行统一的转换也有很多优势，这是未来发展的基础。 5.2　网络和超文本有些文本结构即使使用多个层级结构也不能完整描述，它们需要更加灵活的网络结构。这种结构的典型例子就是交叉引用和超文本链接。然而，即使我们经常在文本的各个部分建立交叉引用的锚点，它们依旧是由OHCO的部分元素独立驱使的，所以为了支持这种新型专业技术，OHCO文本模型必须提供更多控制功能。分层文本结构已经被用于从现存文档中自动构建超文本。为了实施超文本系统，需要将文本分割成一个个的区块或“节点”。在那些有意义的、清晰的文本标记支持下，这一工作发展相当迅速。哈佛大学的珀尔修斯项目正在将SGML作为其文献档案的基本格式，用于构建一个与古希腊相关的多媒体超文本系统。 5.3　版本管理另一个与电子文档开发工具相关的问题是文本的版本管理。这一工作不仅出现在创作过程中的记录修改环节，也出现在古籍手稿的电子记录修改环节。SGML似乎提供了足够的、可能稍显粗糙的关于版本信息的编码机制，但该领域鲜有进展。事实上，OHCO模型本身已经提供了简化描述和跟踪版本变化过程的必要信息。该模型通过章和节来直接表示对象，所以版本维护软件可以显示那些对作者或读者有意义的版本差异。例如，文本层次模型允许读者发现一本书的一章从一个地方移动到另一个地方，并跟踪章中的任何复杂变化。人们可通过观察版本的差异列表来获得这些变化信息。如果缺乏描述文档层次结构的信息，则无法自动提取这些变化。 6　总　结 “让我来编写整个国家的数据结构，我不关心谁写这些代码。”——W.理查德·里斯道我们的观点一点都不过甚其辞。文本是内容对象的有序层级架构；基于其他文本模型的软件程序或计算实践都不能满足我们的科研与学术目标。那些忽略内容结构模型的软件不仅会阻碍理想的“信息空间”的发展，还会延续格式不兼容带来的成本问题，以及今天大学领域常见的应用程序只能一次性利用的难题。硬件或软件的改进都无法弥补这种设计上的根本缺陷。理想的功能性要求文本的本质结构必须按照我们的方法来反映。如果不反映文本的这些特征，就没有软件能够实现灵活性。下一步需要做些什么呢?首先，我们必须继续深化对文本结构的理解，并将其传递给我们的同事和大学。其次，我们必须把已知的文本结构融入计算技术与实践中，并鼓励其他人效仿。最后，我们必须坚持要求软件开发人员设计符合我们要求的系统——将文本视为多个对象的一种结构而非字符编码串。我们各个大学也不应该支持格式导向的文本处理器，就像我们避免错误的方法论、草率的研究活动以及糟糕的写作语法一样。本文英文版原载于Journal of Computer in Higher Education1990年第1卷第2期，中文译文已获得该刊版权许可，载于《出版科学》2016年第3期。欢迎个人装载，公众号转载请联系后台基金项目:　本文系中组部“青年拔尖人才”支持计划和教育部“新世纪优秀人才”支持计划资助成果之一。＊作者及译者：[美]史蒂芬·德罗斯，戴维德·杜兰德，艾利·米洛纳斯，艾兰·瑞尼尔著王晓光，凌宇翔，王俊芳译出版科学编辑部地址：武汉大学信息管理学院在线投稿：www.cbkx.com电话：68753799 68754437国际标准刊号：ISSN 1009-5853国内统一刊号：CN 42-1618/G2

文本文档是什么 文本到底是什么？

文本文档是什么文本到底是什么？