计算机检索方法学与中医药文献数据库研究综述

  关键词:信息研究 中医药文献 数据库 计算机检索

  文献资源共享是时代的迫切要求

  随着科学技术的飞速进步,人类社会由工业社会向后工业社会——信息社会挺进,社会信息化程度不断地提高,人们越来越重视信息的作用。信息需求的客观性大大刺激了信息技术的发展,全球性的信息网络迅速建立起来。信息资源得以在“信息高速公路”上自由传送,全球性的信息资源共享的梦想终于有望得以实现。

  实现文献资源共享是信息社会的客观要求,是现代化技术发展的历史必然。在市场经济的环境下,文献资源的需求更为迫切。实现文献资源共享是我国图书情报事业发展的必然趋势,也是各国图书情报事业发展的重要特点。美国人曾在1850年就提出了编制联合目录的设想,1942年美国制定了进行文献协调补充的“法明顿计划”。1975年,国际图书馆协会联合会(IFLA)将文献资源共享(UAP)正式列为一项中期计划。目前,全世界有上百的检索网络,数以千计机读数据库。仅美国国家医学图书馆医学文献联机检索系统(MEDLINE),其网络由遍布全国的11个地区图书馆中心和800个联机检索点组成,网络还延伸到全世界11个地区和国家,共有3000多个终端。整个系统存贮有79个文献数据库,其中包括350万篇论文及病毒学等专业的数据资料、医学图书馆目录、医学期刊目录等。[1]

  Internet是世界上规模最大、用户最多、影响最广的网络互联系统。据估计,Internet上的数据库总数不下1万个,这其中不仅有大量的科技数据库,也有大量的时事评论、社会科学、文学艺术等方面的数据库。北美最大、最有代表性的图书馆资源共享网络要数美国的OCLC和加拿大的ISM了。至1997年3月,OCLC已经发展到24117个成员馆,遍及60多个国家和地区,是世界上最大的专业网络。OCLC中的参考服务系统连接有55个国际上有影响的大型数据库,遵循Z39.50协议,一种检索方式可以访问55个数据库。有的数据库还提供全文,并标有FAX服务的价格。[2]

  国际计算机检索方法学的现状和新进展

  数据库(Database)是统一管理的相关数据的集合,它能为各种用户所共享,具有最小冗余度,数据间联系密切,而又有较高的数据独立性。数据库系统(Database System)是指实现有组织地、动态地存储大量的关联数据,方便多用户访问的计算机软件、硬件和数据资源组成的系统,即采用了数据库技术的计算机系统。根据ISO.DIS5127号标准(文献与情报工作术语),数据库被定义为:“至少由一种文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合。”[3]按照国际上通用的分类方法,数据库通常划分为以下类型:

  1.参考数据库(Reference Databases):指引用户到另一信息源以获得原文或其他细节的一类数据库。它又包括书目数据库和指南数据库。

  2.源数据库(Source Databases):指能直接提供原始资料或具体数据的数据库。可划分为:数值数据库、文本-数值数据库、全文数据库、术语数据库、图像数据库、混合型数据库。

  计算机检索系统根据存储的数据库内容、文件结构、存储容量、检索方式的不同,可以提供多种内容与形式的检索服务。就全文数据库检索而言,目前的产品的检索方法一般是用布尔(Boolean)逻辑运算和自由词来检索文献中某个词或某几个词所在的出处,也可进行词频检索。当前的检索技术难以做到对检索出的文献按相关程度进行排序,相关程度最大的文献应当排在最前面。布尔检索正是相关程度排序的弱肯定(weak assertion)形式,这种局限性的存在,降低了检索的绩效。[4]

  对全文本文献信息检索技术的研究,开始于基于概念(concept-based)的算法,发展到现在的基于内容(content-based)的算法,这一演化反映了对内容知识的检索逐渐取代了对概念知识的检索。每篇文献都是由众多概念构成的,这些概念之间的关系实质上就是文献内容的真实反映,概念之间的相互关系可以称之为“概念结构”。标引和检索文献时,必须如实反映其概念结构,现代检索技术中称之为“事实检索”(message understanding)的检索方法就是追求概念结构的典型形式。目前,普遍应用的是一种基于框架(frame-based)的方法,在这种方法中概念结构被框架化了。[5]

  布尔逻辑理论指导下的检索提问式都遵循De Morgan法则——把“或”和“与”联系起来,“与”的互补是互补部分的“或”。这种理论认为一个对象要么属于一个集合,要么不属于一个集合,即只用0和1来表达这种从属关系。而模糊子集合理论则认为存在着一种一般化的从属关系函数,即可以0~1之间的任一值来表达这种关系。元素集合{xεx}的一个模糊子集合可由一个从属关系函数定义为:0≤fs(x)≤1。

  也就是说,当fs(x)=1时,x要素肯定在系统中;当fs(x)=0时,x肯定不在系统中。

  把提问式中的每个概念转化成概念空间中相应的一个要素向量,用W和T计算相似的测度,根据模糊逻辑法则算出总分数,就可以完善地诠释一个结构化的提问式。[6]

  基于积(product-based)的表达法,利用De Morgan法则中的AND函数计算OR函数。实际上,严格的参数对未出现的术语做了过于严厉的限制,通过对fx进行适当的修改,例如使其范围介于0.3~1之间,可防止这一情况的出现。

  由此可见,构造一个复杂的线性结构,然后用代表一个提问式剩余结构的选择扩展项对此加以修饰,从而把文献用向量表示出来,把提问式用概念结构表示出来,就可以充分支持一个检索项目。需要明确的是:无论是从自然语言概念、概率或统计检索或从基于框架的推理等各种不同的理论出发,都可以得到上述用线性代数和非线性广义方法所表达的匹配方案。实际上,大多数方法是直接应用自然语言,而不是概念。

  无论检索词是以字、n-grams的形式,还是以短语形式出现,在处理提问式和可检索的文献时,所采用的方法都与上述对概念描述所采用的处理方法相同。这里不用c(概念)来标引加权和相互关系,而用T(文献或提问式中实际出现的的术语)进行标引,因为它们是文本中实际出现的术语,因此,我们将其称之为文本的“内容”,这与由人所感知的概念是有很大差别的。

  预先处理(preprocessing)是从内容中提取出概念的一个步骤,预先处理文献的老式方法是用大写字体形式代替所有的字,用这些字的词干部分代替大量的字。这种做法有助于突出词所代表的概念,而无需考虑这些概念的各种变化形式,如名词的单复数、动词的时态变化等。当把短语和字的组合形式增加到倒排文档中时,以这种方式编制索引会耗费大量空间。

  上述的线性公式是一种很著名的向量方法,它在SMARTS及其后来的进化系统中得到了证实。用向量代表文献,这些向量的基本要素与术语出现在文献中的频率有关,提问式也是在这一基础上加以表达的。实际上,在SMARTS未出现之前,Luhn在1959年就提出了一些非常重要的原则,其要点是:(1)文献和术语的相关程度应随着术语在文献中出现的频率的增加而增加(术语频率或TF原则);(2)一个术语在区分文献中的重要程度随着包含它的文献数量的增加而降低(逆文献频率或IDF原则)。[7]

  如果布尔逻辑系统只是对集合进行检索,而不把所检索到的文献按相关重要程度进行排序的话,在对术语集合进行某种运算时,所使用的就不再局限于布尔运算。首先,系统规定用户按某种特定的方式,如题名、关键词等查找预定义的概念实体(conceptual entities),标记语言(markup languages)的迅速发展极大便利了为检索目的而进行的文本处理的自动化;[8]其次,系统认可对从自由文本中抽取的概念进行重组的近似算符。不过在实际检索中,还没有任何系统采用上述近似方法计算术语之间的相互关系而将其作为标引文本的依据,而是根据检索用户的要求来界定术语之间的关系。

  术语之间还存在更复杂的关系,即域无关(corpus-independent)的情况。这是确立术语之间相互关系的另一种方法,它要求对书写文献的基本词汇进行研究,包括从构造词表到对自然语言进行处理的一系列过程。目前对这一方法的研究是以WordNet的语义网络结构为基础的,但还未取得预期的结果。不过已进行的研究表明:在一个显示术语与术语之间相互关系的通用网络中无法找到所要求的特殊关系。因此,研究的方向就是发展与各领域的基本概念相对应的术语与术语之间的关系的特定领域网络,这与人工智能中得到的一个结论相类似――要解决一个特定问题,就要发展特定领域知识。[9]把这一结论应用于中医药学古籍文献的检索中,非常具有指导意义,它提示我们必须深入到中医古籍特有的语词规律中去,发展特定的标引体系。如果照搬其他医学文献的标引方法,将是行不通的。

  自动做文摘和抽取主题句也是一种可以考虑的标引方法。系统通过自动做出文摘和抽取文中的关键句子和重要公式,可以向用户描述数据空间,从而有助于测度和明确信息需求。分散/集中方法通过为用户提供题名和短语、跟踪用户的抉择,可以帮助用户构造尽可能简洁明了的提问式。

  经过多年的不断发展和完善,目前已建立起检索编码,但存在的不足是:一个程序无法显示它的设计原则的所有特征,这就导致遵循相同原则设计的系统在运作时会出现相当大的差别。由此引起的问题领域包括:(1)在减少某一空间时所需进行的维度选择;(2)为科霍南算法选择意识参数(conscience parameters);(3)选择可改变“文献频率参数”的区间;(4)对词干规则和非用词表的特定选择;(5)建立代表概念的术语集。这几方面都影响系统绩效,但由于系统极其复杂,要想把每一选择所造成的影响独立出来加以考虑非常困难。

  当代信息检索方法无论是在理论层次上,还是在实践中都显示出一种成熟的技术特质,通过对实践经验的不断积累,可以有效地推进理论的发展。

  中医药文献检索方法的进展

  国内在中医药文献方面的理论研究新成果相对较少,尤其缺乏创新性成果。由于建设大型数据库方面要耗费大量的财力、人力,在一定程度上限制了这方面的大型项目的开展,所以可供参考信息的不多。

  建设全国中医药信息网络的设想数年前就有人提出,中国中医研究院在1987年就初步建成我国第一个综合性的《中医药文献分析检索系统》(TCMLARS),收录1984~1987年全国公开发行的300余种生物医学期刊中有关中医、中药、针灸、按摩、气功、养生保健、民族医药等内容的文献十多万条。这个数据库在当时能与国内外主要生物医学数据库兼容,但在时差和收录范围方面则显得落后,而这两项恰好是检索工具先进性的主要标志。[10]“上海市中医药信息协作中心”提出的局域网拓扑结构为总线型与星型相结合,采用Windows NT4.0网络操作系统。该系统大致有以下几方面的应用:(1)行政办公;(2)中医函授;(3)情报文献,网上刊物,报刊摘要,学术动态;(4)学术交流,开设杏林论苑;(5)医药服务,远程会诊,网上就医,健康咨询,药品介绍等。[11]目前,国内已经出现商业性的期刊检索数据库,其中也包含了医药类期刊,如http://www.cnki.net(CNKI数据库)。

  在中医文献的数字化方面的工作,上海中医药大学计算机中心开展得比较早,在数据库的中医特色化上有许多创新思路,值得借鉴。他们最早提出整合性关系化医学电子书(IRMEB)的概念,探索医学的数学和信息学内涵,致力于医学的定量化、数学化、信息化的新研究QMSOC(医学的计算机定量模拟和运算)或信息医学(Information Medicine)的一部分。IRMEB尽可能地把医学的最实质的知识元素化,把知识的表达方式归结为一种结构严格一致的关系形式。将各种专门的知识以诸如“生成”、“组成(所属)”、“激扬”、“阻抑”、“量序”、“时序”、“度序”等构成知识的基本谓词,编辑成知识“积木块”,然后对任何大小范围的医学信息和知识进行重新组装,并利用医学知识的内在的数学属性加以整合互通、互导、互析、互晰等。[12]

  包含飞把所有医学知识归结为系统论意义下的几种泛化关系:泛激、泛抑、泛生、泛函、泛等、泛转、泛并、泛序、泛移、泛境。并把医学事件、概念、泛权元素化编码化,进而把医学知识根据上述关系三集合化:主体集合、客体集合、条件集合,在此基础上对医学知识实施互联、整理、整合。[13]这对如何进行中医药文献的数据库建设是具有一定的启发意义的。

  中国中医研究院及北京中医药大学研制出了“小儿咳喘病证古代中医文献数据库”,收集资料年代范围截止到1911年以前。该课题的数据收集、整理工作全部在中文Office97中进行,用Visual Basic6.0中文版进行编程。系统采用了动态数据库对象技术,运用面向对象的编程技术和activeX技术进行程序设计,简洁高效,可视性好。界面采用多媒体技术进行动画和声音处理,特色鲜明。采用树状结构显示文献目录和检索结果目录,运用补字技术处理僻字。[14]

  南京中医药大学在中医方剂数据库方面做了大量富有成效的工作,已顺利完成了江苏省科委自然科学基金资助项目“中医方剂编码及文献数据库系统”。该项研究历时3年,共收录方剂101903首,比《中医方剂大辞典》多收载方剂5311首,是目前最大的方剂数据库检索系统,各方剂的相关研究资料截止1999年底,反映了这一领域的最新成就。该系统具有多途径检索功能,可以进行方名检索、处方药物检索、功效检索、药味数检索、模糊检索等,还可以进行多个项目的联合检索,即可以将多项检索条目逻辑相加进行布尔检索,对方名、书名、药物、功用、主治等的任一两项以上条件的综合检索,有效地提高了检索绩效。该系统维护简便,可以随时增添新内容,并且自动生成相应索引项。此项研究中还创制了一套行之有效的方剂编码系统,对于纠正古代方剂文献中广泛存在的命名混乱现象,颇具研究价值。方法是以功效与主治病证为依据,对各方编制代码,采用62位进制的混合码,由10个阿拉伯数字和26个英文字母的大小写二种形式组合而成。每码长度为12位,前8位描述功效和主治病证,每2位表示一个分类条目,后4位码用作功效和主治病证相同方剂的顺序码。这项编码体系是现代检索技术在中医药古代文献研究领域的具体运用,对于中医药文献数据库研究的理论和实践有着重要的参考价值。

  综上所述,国内在中医药文献数据库方面起步较晚,缺乏必要的人力、物力投入,故发展滞后,明显落后于其他先进学科的水平。所以,在此领域的发展空间还是相当巨大的。

  参考文献

  [1]陈界,等.新编文献学.北京:军事医学科学出版社,1999-1:302.

  [2]陈界,等.新编文献学.北京:军事医学科学出版社,1999-1:312.

  [3]黎汉津,等.中医药文献检索.广州:广东高等教育出版社,1999-8:117.

  [4]孟广均,等.国外图书馆学情报学研究进展.北京:北京图书馆出版社,1999-9:190.

  [5]孟广均,等.国外图书馆学情报学研究进展.北京:北京图书馆出版社,1999-9:193.

  [6]孟广均,等.国外图书馆学情报学研究进展.北京:北京图书馆出版社,1999-9:195.

  [7]Luhn,H.P.Auto-encoding of documents for information retrieval systems.In:Boaz,M.,ed.Modern Trends in Documentation. London,England:Pergamon Press,1959:45.

  [8]Goldfarb,Charles F.The SGML Handbook.New York,NY:Oxford University Press,1990:664.

  [9]Miller,George A.;et al.Five Papers on WordNet.Princeton,NJ:PrincetonUniversityComputer Science Laboratory,1990JuIy.

  [10]唐国顺.完善和发展全国中医药信息网络的设想.中医文献杂志,1996,(3):22.

  [11]胡开敏,等.中医药信息与INTERNET.中医文献杂志,1997,(3):21.

  [12]包含飞,等.整合性关系化医学电子书的单纯性传递性知识链自动推导―QMSOC与计算机辅助医学教学(Ⅲ).医学教育,1994,(8):17.

  [13]包含飞.在E&R基础上建成国际一流的中医学智能化Internet网站.中国中医基础医学杂志,2000,6(3):56.

  [14]万芳,等.小儿咳喘病证古代文献数据库的建立,北京中医药大学学报,2000,23(6):15.

  南京中医药大学(江苏,210029) 陈晓东 李婷