1. 简单百科
  2. 书目数据库

书目数据库

书目数据库是存储某个领域的二次文献(如目录、题录,文摘等书目数据)的一类数据库,有时又称为二次文献数据库,或简称文献数据库。主要提供文献的题名、作者、出处等基本书目信息,有的提供文献。常见的书目型数据库有:《生物文摘》,《全国报刊索引》,《中国学术期刊文摘》以及《科学文摘》等。

发展现状

书目数据库是最早出现的一类数据库之一。自1964年第一个书目数据库——MEDLARS开发成功并投入检索服务以来,全球范围内已建立了大量的书目数据库。在可提供联机检索的数据库中,书目数据库占据了主导地位,涵盖了几乎所有专业领域的文献。书目数据库的增长迅速,影响力巨大,这一现象背后存在着特定的历史背景。

情报政策背景

在当今时代,信息被视为财富和实力的象征,掌握和处理信息的能力被认为是国家科技发展水平、社会进步程度和国际地位的标志。各国政府尤其是发达国家都将信息视为国家战略武器,控制信息成为国家的基本政策,也成为民间产业的关注焦点。这是书目数据库发展的政策背景。

社会背景

在西方国家,通货膨胀导致图书馆预算紧张,书籍价格上涨显著,而科技图书的出版数量持续增加。许多图书馆难以购置所需的书籍,因此加强了馆际互借、照相复制等工作,并致力于建立合作网络,实现资源共享。其中一个举措是建立和利用机读数据库。例如,美国国会从1969年开始发行机读目录(MARC)磁带,俄亥俄州立大学图书馆中心(OCLC)在此基础上进行共享编目,建立反映了该网络各成员馆藏书的机读数据库,并促成了洛克希德、系统发展公司及书目检索服务公司等情报检索服务商的发展,为机读数据库的大规模增长奠定了基础。

技术背景

书目数据库与计算机化的照相排版技术结合,使得传统的印刷型文摘索引的出版商也开始生产与其对应的手动检索工具,即书目数据库,并以磁带形式发行。此外,计算机性能提升和价格降低,极大地推动了书目数据库的发展并提升了其利用率。

分类

书目数据库按照存储信息的性质可分为文摘索引数据库和图书馆目录数据库两类。

文摘索引数据库

文摘索引数据库的内容与书本式文摘索引相似,主要用于记录某一时间段内发表的文章,供人们检索和查询。它们提供了文献的确切来源信息,即文摘对应的原始文献,但通常不提供原始文献的馆藏信息。

图书馆目录数据库

图书馆目录数据库,又称机器可读目录(Machine Readable Catalogue,MARC),是以特定代码形式和特定结构预先录制在计算机存储媒介上的、能够被计算机识别和处理的目录。它是传统卡片目录内容以标准数据形式记录在计算机存储媒介上并通过计算机识别的形式。它包含了特定图书馆实际收藏的各文献资料的书目信息和存储位置,是用户通过计算机查找图书馆资料的工具,同时也是图书馆业务部门的业务管理工具。其数据内容详细,除了文献外部特征的描述信息外,还包括了许多管理信息、馆藏信息等附加信息,并且拥有统一的记录格式。

特点

书目数据库与其他类型的书目产品和其他类型的数据库相比,具有以下特点:

1. 便于对书目数据的管理和维护。书目数据库将文献的各种特征信息用特定的代码形式和结构存储在相关媒介上,并可通过计算机硬件识别,使其易于管理和维护。

2. 检索快捷,具有较高的查全与查准率。相较于手动检索,利用计算机从书目数据库进行检索不仅能大幅节约时间,还能得益于书目数据库在存储密度、易于处理等方面的优势,实现更高的标引深度和更快的更新频率,从而保障较高的查准率与查全率,增强检索者的信心。

3. 数据结构简单,记录格式固定,生产费用低廉。书目数据库结构简单,记录格式稳定,生产成本相对较低,这也是其竞争优势之一。

4. 便于产生其他类型的书目产品。书目数据库可用于生产卡片或书本式目录、缩微胶片目录和光盘数据库等多种形式的产品。此外,还可利用书目数据库方便地形成各种辅助索引。

书目数据库还具备数据量大、连续性、累积性强、交换便捷等特点。

应用

书目数据库的主要用途是进行情报检索服务。联机检索是最常见的一种检索服务,用户可通过系统终端访问联机书目数据库,获取感兴趣的信息。联机检索服务机构可通过提供此类服务获取收益,而数据库生产者则通过收取数据使用费收回投资。除联机检索外,书目数据库还可用于批式检索服务,如定题服务(SDl)和回溯检索服务。此外,书目数据库还可用于生产其他形式的检索工具,如书本式检索工具或卡片式目录、缩微胶片目录和光盘数据库。最后,通过对书目数据库的半成品或成品进行二次开发,可以获得特定需求的多种专题数据库或专门类型的数据库。这类数据库通常规模较小,被称为微数据库(microdatabase)。然而,微数据库的建设主要涉及版权问题,应在建设中予以充分考虑。

形态

当前发行的书目数据库主要以三种形态存在:

1. 联机系统的数据库。这种数据库被集成在联机检索系统中,允许联机访问。其规模可能最大,有些包含数百万篇文献记录。

2. 光盘检索系统中的数据库。这种数据库的载体是CD-ROM光盘,因此发行具有相对独立性。其规模属于中等,因为每张光盘的容量约为500MB,包含的文献记录可达数十万篇。

3. 单独发行或提供服务的专业或专门文献类型的数据库。这种数据库的规模较小,适用于在个人电脑上运行,通常配备相应的检索软件,构成独立系统。

构建过程

书目数据库的构建是一项复杂的过程,也是一个集知识、技术和劳动力于一体的高度专业化产业。其过程主要包括数据库的整体设计、数据的获取与加工整理、数据库的创建、数据库的维护与更新以及数据库的评价五个部分。

总体设计

逻辑设计

逻辑设计旨在确定所建立的书目数据库的目标用户群体、内容范围和功能要求。首先确定目标用户群的特点和特殊需求,这些需求决定了数据库的内容范围和功能。内容范围指的是数据库应涵盖的领域和情报源,数据库内应收录的数据类型,记录的数量等。功能要求包括书目数据库的更新、验证、检索、输出、访问控制和数据保护等措施。

技术设计

技术设计旨在确定数据库的总体结构,库内各种文档的结构,文档之间的关系,存取路径的选择和文档的物理组织方式;杆式及存储空间的分配等。数据库总体结构指的是库内包含的文档数量、文档类型、各文档之间的逻辑关系,以及数据流程。文档结构设计指的是确定文档的记录内容和格式,包括字段组成、字段定义、长度、划分可检字段与不可检字段、设立字段标识等。一般地,一条书目记录应含有文献号、题名、著者、出版、语种、文摘、主题词、分类号等各种必要的字段,且一般包括文献出处。不同的图书情报机构在书目加工时对原始数据的取舍有很大差异。为了统一,可参照新修订的国家标准GB2901推荐的标准格式以及通用国际目录信息交换标准ISO2709。文档的物理组织方式设计指的是根据计算机数据处理方式、操作系统提供的文件组织方式、存取方式、服务程序以及对存取时间、处理时间的要求,确定各种文档物理存储方式,以加快数据库对数据的存取速度。存取路径的选择指的是确定检索途径或检索点以及相应的工作文档,根据检索点来设定索引文档,定义其中的记录。一般说来,每一类检索点都需要一种索引文档来支持。

数据获取与加工整理

数据获取与加工整理,亦称数据准备阶段,是书目数据库建设的关键环节。其成功与否决定了书目数据库的价值。数据准备通常包括数据采集、鉴选、著录、标引、文摘加工和审核六个步骤。

数据采集

数据采集指的是根据设计方案规定的内容范围和数据类型,收集所需的数据。收集对象可根据需要确定,可能是普通书刊、特种文献、内部出版物、机读磁带、软盘或光盘。采集手段包括订购、交换或利用行政手段收集下属机构的数据,或利用现有传统数据(如书本式文摘、题录、目录、指南等)。收集工作应主要面向图书馆和收藏丰富的资料单位,力求快速、全面、准确,确保数据来源的可靠、准确和完整。

鉴选

鉴选是决定书目数据库具体内容范围的基本方式之一。鉴别真伪、区分优劣是必要的,不能“有书必录”。对于低水平或明显有错误的文献应该排除在外。在选择时,可以文献类型为准则,也可以学科为准则,或以问题或任务为准则。以文献类型为准则,可以专收一种类型文献,如研究报告数据库、专利文献数据库等,也可以收录多种类型的文献;以学科为准,就是所谓“面向学科的数据库”,如《化学文摘》数据库,《核物理文摘》数据库等;以问题为准的数据库,如环境数据库,《污染文摘》数据库等;以任务为准的,有所谓面向任务的数据库,如《航空航天文摘》数据库等。

著录

著录是对文献内容和形式特征进行分析、选择和记录的过程。为了提高书目数据库的质量和资源共享的便利性,书目数据的著录应按统一的著录原则和标准进行,例如我国有国家标准GB3792.1—83《文献著录总则》,GB37921—83(检索期刊条目著录规则》等,只有遵循了统一的标准进行书目数据的著录,才能保证书目数据库中的全部记录符合标准化和规范化的要求。

标引

标引是给数据库中的各个记录赋予内容特征标识的过程。主要是要给出分类号、主题词和自由词等。标引可以是人工标引,即标引员针对文献内容,根据一定的分类表或主题词表给出标引词;也可以是完全或部分由计算机参与的自动标引或半自动标引。自动标引的原理是,将分类表或词表及有关规则存储在计算机中,通过编制的程序自动完成标引工作,对于在计算机标引过程中进行适当人工干预的标引就是所谓的半自动标引了。对于中文文献来说,进行自动标引,首先要解决词的自动切分问题。此外,标引还有另一种方式,称为“无标引”或“全标引”,如单汉字检索方式中每个汉字都由计算机做倒排档,因此不需人工参与,故被称为“无标引”。而从计算机的角度来说,对每个汉字均作了标引词的处理,所以也可理解为“全标引”。相对于中文文献,西文文献的自动标引和全标引实现起来就要简单得多。

文摘加工

文摘的编写加工也非常重要。编写文摘应当言简意赅,简洁明了。文摘可以由文献著者自行撰写,附于文献之前,也可以由文摘员进行撰写。文摘的编写也应当标准化,我国有国家标准CB6447—86《文摘编写规则》作为编写依据。文摘有报道性文摘、指示性文摘以及报道—指示性文摘等多种类型,不同类型的文摘对编写和长度有不同的要求。编写时应根据具体需要进行相应的编写。

审核修正

审核修正指的是记录正式数据库之前的把关工作。这须由高水平人员进行。审核的内容包括数据项是否完备、准确,有关的著录是否符合标准,标引深度是否适当,等等。

经过以上六步,数据的准备工作就已完成,接下来就可以进行数据库的正式创建工作。

创建

硬件配置与软件选择

进行书目数据库的开发,必须配备相应的计算机系统,应根据需要购买性能优良的计算机硬件设备。通常情况下,计算机主机系统已经存在,建库者要做的是完成必要的终端和外设与主机系统的连接,例如,安装光盘驱动设备,扫描和打印设备等。如果建库工作是在联机网络的节点上进行,那么还要完成设备与网络的连接工作,解决网络数据通信问题。解决了硬件问题后,建库者需要选择合适的建库和检索软件。建库软件的获取一般有两种途径,一种是购买现成的数据库管理系统软件,另一种是自行编制。当然,目前大多数采用的是前一种途径,即直接购买现成的数据库管理软件。我国图书情报部门比较流行的数据库管理软件是联合国教科文组织推出的CDS/ISIS软件。

数据录入

数据录入就是将前面所述的文献处理结果转化为机读数据的过程。数据录入通常有两种方式:自动录入和平工录入。手工录入的方式是对非机读书目信息的录入。计算机系统显示一个类似于工作单的表格,上面有用户定义的字段名称,用户只需在这些字段名称之后用键盘录入相应数据即可。为了加速录入工作,用户也可以用其他文字处理软件(如MICROSOFT WORD)对书目数据进行录入,之后再做成批转换;另外还可以利用光学字符识别技术(OCR),让计算机根据一定的印刷或打印字体将文本转化为机读形式。自动录入的方式用于对光盘数据库、磁带数据库或其他类型的机读数据库的数据进行转录或套录。所谓套录,就是从一个或几个计算机中获得数据库的数据,传送到另一计算机中,并将其存储在后者的磁盘或磁带等存储介质上的一种过程或手段。具体地说,就是从联机检索系统或光盘中的数据库中套录下一些书目信息,然后,再将这些书目信息进行编辑、归并、格式转换等再处理,使数据产生新的组合,确立新的结构,从而获得适合特定需要的书目数据库。这种套录建库方式,也称为书目数据库的二次开发。信息技术和数据库业的发展,促进了套录的诞生和推广。目前供发行和服务的书目数据库,不管以何种形式出现,大多可以用适当的方法被套录。这种套录建库优势在于,建库周期短、投资少、易上规模、重复劳动少,使信息资源得到极大程度的共享。但它可能涉及到的产权问题也应引起重视,切勿顾此失彼,带来未曾预计的损失。当手工或自动录入数据后,在建库软件的支持下,计算机自动生成书目数据库的各种顺序文档。这种数据库内的书目信息有其复杂的计算机能识别、处理的机内记录格式,内容主要包括:一条记录的总长度,书目数据的实际起始地址,每个字段的名称、长度,字段间的分隔符、结束符、记录状态的标识符等。另外,数据库所需的各种索引倒排文档也无需人工干预,而由建库程序自行完成。

程序检查

程序检查指的是计算机自动对录入的文本进行形式上的审查,例如,括号是否配对,定义了数字形式的字段是否出现文字;定长字段长度是否符合要求,字段的数据形式,如ISBN号,是否正确,各种标识符号是否有错,是否出现了系统禁止使用的专用字符或非法字符等。计算机对数据的校验可在不同阶段进行。

经过这三个步骤,书目数据库就已经基本建成了。但在正式投入使用之前,还需要进行试运行。根据规划设计要求,选取一定检索实例进行检验,通过设计者、使用者和有关专家的鉴定之后,才算完成数据库的建立工作。

维护与更新

书目数据库投入运行后,由于不断地对文档进行插入、删除、修改等操作,可能会使文档的时空性能变坏,或者是由于原来的文档组织方式已不能适应新的要求,或者新书目的激增使得原来的数据量已不能满足用户的需求,故而必须定期地对书目数据库进行维护与更新,以适应用户要求和文献生产情况的变化。维护主要是指对数据库系统硬件设备的维修、保养和对系统软件功能的修改和扩充。更新主要是指对数据库的数据进行添加和重新组织,它对书目数据库的存在和使用,保证书目数据的质量有着尤为重要的意义。数据库的数据往往不是个别进行插入、删除和修改,而是定期、批量地进行。这种数据库的更新,不仅要对顺序文档进行更新,而且还必须对所有相关的倒排档及索引文件进行重组,这就要求要对新追加的大量数据进行一系列加工处理后重装文献库。重装虽然要开销一定的维护时间,但可以保证检索的快速性,因而是值得的。另外,数据库的更新工作还要随文档的存储方式而异。顺序文档一般采用尾接扩充法,就是将新的书目记录依次尾接在文档后面;索引或倒排文档通常采用重装方法,即将新加记录抽词排序后的文档与原来的排序文档归并,然后重新总体排序,建立索引。另外,在数据库的维护中一定要重视数据库及其文档的备份工作。一般地,顺序文档和倒排文档都应该保存2—3份副本,即不仅保留本次更新的副本,而且要保留前1—2次更新时的副本。这样,如果由于硬件故障等原因使得数据库文档不能正常使用时,就可用副本重装一次,从而保证数据库的正常运行。

性能指标和评价准则

一个书目数据库建成后,其构造是否合理,建设是否成功,要依据一定的性能指标和评价准则进行评估。这里我们将简要介绍一些目前得到普遍认可的数据库性能指标与评价准则。

1. 数据收录的完备性

它是指根据数据库的主题范围,看其收录的文献数据是否完整或基本完整。其中最重要的是数据收录的覆盖面。例如,一个特定的书目数据库,其收录是否包括所有类型的出版物,还是某一特定类型的出版物;它所收录的文献包括哪些文种,其时间跨度有多长;它对核心出版物、一般出版物、边缘相关出版物的收录和覆盖面各有多大。收录完备性是数据库质量的首要指标。因为用户使用书目数据库的目的,是要获得与自己特定情报需求相关的全面资料,如果数据库本身收录的数据就不够全面,那么即便用户非常专业,进行了细致的检索,所获得的检索结果也是不符合要求的。

2. 数据的准确性

书目数据库中所收录的数据必须非常准确,这体现在它与原始材料的一致性、著录的标准性等多个方面。数据库不同于利用手工检索的书目文献,在手工检索的文献中,用户对著录格式的差异、同一词拼写上的不同、字符设备的出入等在一定程度上可以容忍和理解,但在利用计算机进行机检时,这些因素,甚至一个括号使用的不同,都会对用户的利用产生很大影响,无论对建库还是检索都会造成一定的混乱。如果说数据库收录材料覆盖面的高低是取得用户信赖的量方面的因素,那么,数据库中数据的准确性,则是取得用户信赖的质方面的因素。它的混乱将导致用户对整个数据库价值的否认。

3. 数据库的时效性

在这里主要是指数据库的时差,即从一篇文献出版发表到纳入数据库之间的时间差距。数据库的时差就是全库文献的平均时间差距。不同学科领域对时差的要求和敏感性有所不同,对于迅速发展中的学科,如计算机、网络科学,及对现实性要求比较高的信息,如报纸信息,数据库时差的缩短尤其重要。对于情报用户来说,如果他们首先看到了原始文献,然后才从数据库中检索到该文献的信息,用户就会感到该数据库中的信息缺乏新颖性。因此,对一般用户来说的新颖率(即用户最先从库中了解到的信息占库中所有信息的百分比)是数据库时效性的另一种衡量指标。很显然,数据库的时效性与数据库的更新周期有密切的关系。更新周期短,自然能缩短数据库的时差,提高新颖率。

4. 数据信息含量的充分性

信息含量的充分性,主要是指书目数据库中款目记录的完备与充分性。例如,为每篇文献记录设置了多少个项目(字段),是否设有摘要,摘要的详略如何。显然,款目中的信息含量越充分,则越有助于用户了解该文献的外表特征与内容特征,从而有助于用户确认一篇文献,判断该文献对自己检索目的的切题程度和价值,判断有无阅读原文的需要。数据信息含量的高低,是数据库内在质量的标志之一。

5. 词表和标引的适当性

词表和标引的适当性主要是指书目数据库采用的控制同表的质量和标引深度的适度性。一般书目数据库均会采用一定的控制词表(包括分类表)作为标引的依据,因此词表本身的质量是制约数据库质量的根本性因素之一。标引是根据文献内容给出词表中有关词(分类号)的过程。标引的深度就是为一篇文献记录赋予检索词的数目。从用户角度来说,标引深度也就是能检索到该文献内容特征的检索点数。检索点的充分与否,关系到检索的查全性能与查准性能。无论是词表还是标引,适度是很重要的。如果词表与标引太简单粗浅,自然无法对数据进行充分完全的描述,因而不能满足查准性能的要求;但如若词表与标引太细太繁,则不仅会增加词表编制及标引工作的成本,增加数据库占用空间,而且也可能导致误检率的提高。

除了上述五点之外,数据库的经济成本、著录格式的标准与交换性、数据库设计的合理性等也都可以作为书目数据库的性能指标和评价准则。

参考资料

书目数据库.书目数据库.2024-08-29

“中国历史文献总库·民国图书数据库”是“中国历史文献总库”的子库,由国家图书馆出版社开发。本数据库已完成五期20万种图书的建设,总计3500万页,3.8TB,全部图书实现全文检索,可检索的字数超过100亿字。.国家图书馆出版社.2024-08-29

中国国家图书馆 中华古籍善本联合书目.中国国家图书馆 中华古籍善本联合书目.2024-08-29