跨界与融合:全球视野下的数字人文
朱本军 聂华
2017年6月7日
尽管“数字人文”的概念晚至2001年才被首次提出,但在短短十多年的时间内即受到全球人文学者的瞩目。据国际数字人文组织联盟(The Alliance of Digital HumanitiesOrganizations,ADHO)的统计,目前全球有超过183个冠以“数字人文”的机构或项目正在运行。在国内,“数字人文”的浪潮正在形成。2016年5月,北京大学图书馆联合哈佛大学“中国历代人物传记资料库(CBDB)”项目和北京大学“数字人文建设与发展研究课题组”共同举办了首届北京大学“数字人文论坛”,该论坛对全球视野下的数字人文概念、实践和反思进行了全景式扫描,对数字人文在历史学、语言文学和艺术学中的应用进行了深入探讨。为将全球“数字人文”的历史及进展公诸同好,笔者对此次会议的主要内容综述如下。
1 全球视野下的数字人文概念、内涵与实践
1.1 数字人文的缘起与概念
数字人文起源于“人文计算” [1]。一般认为,“数字人文”最早可追溯到肇始于1949年的“人文计算(Humanities Computing)”。那一年,意大利耶稣教神父罗伯托·布萨(Roberto Busa)在IBM公司的帮助下,用计算机成功为托马斯·阿奎那(St Thomas Aquinas)和相关人员多达1100多万拉丁文的作品编制索引。这一成功,使得计算机在语言学领域的运用风行,并在此后逐步向文学、历史学、文艺学等领域扩展。20世纪90年代早期至21世纪初期,随着互联网的出现和计算机技术的发展,“人文计算”的对象从电子文本逐步扩展到超文本、图像、视频、音频、数字地图、网页、虚拟现实、3D等多媒体,计算的领域也不再单单只在语言学领域,而是扩展到历史、音乐、艺术等多个领域。这种发展使得继续使用“人文计算”这个概念显得有些过时。2001年4月布莱克维尔出版社(Blackwell Publishing)首次出版了一部以“数字人文”为书名的图书《数字人文指南(Companion to Digital Humanities)》。“数字人文”迅速取代“人文计算”成为一个在西方广泛传播的新兴跨学科研究领域的代名词。
数字人文的定义难于界定。究竟何谓“数字人文”?武汉大学信息管理学院王晓光教授《全球视角下的数字人文:概念与实践》从对数字人文发展沿革的梳理[2],哈佛大学费正清研究中心徐力恒博士《欧美高校数字人文建设经典案例与当下议题》从国际学界对数字人文概念及相关问题的讨论[3],一致认为“数字人文”是一个不断发展的概念,难于清晰界定,不仅过去不同时期不同领域的人所进行的界定和赋予的内涵并不一致,未来还将处于不断发展变化和再定义过程中。王晓光教授认为,尽管难于定义,但是可以从当前数字人文研究人员的研究主题和数字人文组织机构的实践中总结数字人文的研究领域和范畴,并援引美国伊利诺伊州立大学香槟分校图书馆和信息科学研究生院教授约翰·昂斯沃斯(John Unsworth)的观点,认为数字人文的主要范畴是改变人文知识的探索(discovering)、标注(annotating)、比较(comparing)、引用(referring)、取样(sampling)、阐释(illustrating)与呈现(representing),实现人文研究与教学的升级和创新发展。哈佛大学徐力恒博士认为“数字人文”的意义在于通过更智能的工具帮助人文学者提出、重界定和回答人文领域的问题。
数字人文可为人文学者提供新的研究范式和视角。数字人文会对传统人文学者进行何种改变?北京大学朱本军和聂华研究员在《数字人文及图书馆实践的新方向——基于人文研究与数字人文项目调查的视角》报告中对人文学者(主要集中在文、史、哲,及其衍生出来的艺术、美学、宗教、伦理等学科领域)与社会科学学者的研究范式进行了对比,认为人文学者较多采用定性研究,其创作或研究较多基于基础材料进行思辨、演绎推理、解释、叙述,而且个体性非常强、无固定的套路,而社会科学学者较多采用定量研究,其创作或研究结果较多基于对基础数据的统计分析得出,具有一定的规律性且可以在一定条件下重复再现。在他们看来,“数字人文”在某种程度上就是将社会科学领域的某些研究方法引入人文领域,通过信息技术工具软件或规模化数据为人文研究提出问题、界定问题和回答问题提供新的视角。
1.2 数字人文的实践与内容
数字人文在全球的实践已有较丰富的成果。数字人文在全球,特别是欧美已经有了相当长时间的发展。在数字人文组织机构建设方面,徐力恒博士援引哈佛大学的一份与数字人文相关的内部报告指出,全球范围内有超过183个以“数字人文”为名称的中心、项目、实验室、团队或圈子,各数字人文项目的性质和类型从小型实验室、虚拟技术支持中心到包括硬件设施、甚至是要件完备可授予学位的学术部门。王晓光教授全景展示了全球范围内知名的数字人文研究中心、资助基金,如斯坦福大学人文中心[4]、麻省理工大学HyperStudio[5]、加州大学洛杉矶分校数字人文研究中心[6]、英国伦敦国王学院人文艺术学院数字人文部[7]、日本立命馆大学京都文艺数字人文研究中心[8]、中国台湾大学数位人文研究中心[9]、美国国家人文基金会[10]等,和国际数字人文组织联盟,如文学与语言学计算协会(The Association for Literary and Linguistic Computing , ALLC)、人文领域计算机应用联合会(The Association for Computers in the Humanities, ACH)、数字人文学会(The Society for Digital Humanities / Société pour l‘étude des médias interactifs, SDH/SEMI)。在国际学术会议和学术刊物方面,徐力恒博士和王晓光教授均提到了国际数字人文组织联盟(ADHO)及其每年一次、旨在探讨全球数字人文领域的新实践和新动向的“数字人文国际会议”。此外,还有一些向全球传播数字人文研究的理念、方法和成果的学术刊物和在线出版物,如《文学和语言计算(Literacy and Linguistic Computing)》、《文本技术(Text Technology)》、《人文领域计算机应用工作论文(Computers in the Humanities Working Papers)》、《数字人文季刊(Digital Humanities Quarterly)》和持续讨论数字人文相关主题的《数字人文指南(Companion to Digital Humanities)》丛书。
数字人文至少包括四个层面的内容。通过对全球“数字人文”项目实践的梳理和归纳总结,朱本军和聂华指出,数字人文的内容主要集中在四个层次:一是人文数据库或数据集的建设。这一层次主要表现为两个方面:其一是将非数字的人文资料加工转化为数字内容,典型的例子如:谷歌数字图书项目(Google Books) [11]、中国学术期刊CNKI项目[12]、西文过刊全文库(JSTOR) [13] 等数字化项目;其二是对非结构化的数字文本内容按照某种使用目的进行规范化标注著录的数据集(dataset)建设,典型的例子如哈佛大学费正清研究中心发起的中国历代人物资料库项目(CBDB, China Biography Database) [14]。二是人文数字工具的开发使用。这一层次主要表现为两个方面:其一是使用或设计数字工具和平台解决传统人文问题。数字工具和平台在其中所起的作用,主要是处理低水平重复的工作,如资料查找、文本比对、文本标记等,将人文学者从“体力劳动”中解放出来,让其将精力放在更高深的人文问题研究中。典型的例子,如Ctext文本比对工具[15]、MARKUS文本标记工具[16]、图书馆使用的SUMMON[17]等检索工具。其二是使用或设计非人文领域研究方法的数字工具来理解和分析数据集。典型的例子,如:使用可视化社会网络分析工具Gephi[18]来分析处理历史人物的亲属关系或社会关系;使用空间分析工具Qgis[19]来展示历史人物的分布或变迁;卫星影像记录河流改道、岩壁壁画褪色等大时间尺度的记录与呈现。人文学者使用或设计这种非人文领域研究方法的数字工具,可以用来解决传统人文领域无法解决的问题,也可以发现新问题。三是创新人文研究方法和研究范式,将人文学者较多采用的定性研究转变为定性研究与定量研究相辅助的形式。四是人文领域的创造性破坏与建设,通过数字技术切入人文领域,对人类文化遗产的传承、传播、全球化和创新提供新的方法。典型的例子,如中国2010年上海世界博览会期间所展示的全息《清明上河图》,以全息视频的形式将静态的人、物进行动态展示,引起世界关注,推动了古代中国绘画、中国古代文化的全球化传播。
2 数字人文与人文学科
数字人文最受人文学者青睐之处在于数字技术与人文领域的紧密融合。本次论坛对数字人文在历史学、语言文学、艺术学的相关应用议题进行了深入的探讨。
2.1 史学与大规模史料的深度挖掘
史学文献数字化与数据库建设。数字技术应用到史学,最直接的体现是史料数字化和数据库建设。截至目前,这方面的工作成果大量存在,最典型的特点是将实体文献扫描为数字文献,并通过数据库来集中揭示。王晓光教授在《全球视角下的数字人文:概念与实践》报告中列举了一些重要的古籍文献资料数字化项目,如国家图书馆的“华夏记忆项目” [20]、北京大学主持的“中国历代典籍总目”项目和“中国基本古籍库”项目、首都师范大学电子文献研究所的“国学宝典”项目[21]、首都师范大学国学传播中心的“古籍电子定本工程” [22]等。浙江大学图书馆黄晨研究员在《CADAL数字人文合作举要》报告中所列举的CADAL项目[23]及其一系列子项目如“民国文献大全(~1949)” [24]、“浙江大学 & 哥伦比亚大学甲骨文数字化项目”等,伊利诺伊州立大学香槟分校史蒂芬·多利(J.Stephen Downie)在《HathiTrust研究中心:探索更多的合作机遇》报告中重点提及的HathiTrust项目[25]等,都属于数字化和数据库建设项目。
史学文献文本化与数据集建设。对史学文献进行文本化,并在此基础上建设结构化数据的数据集,是一个最为基础的工作,但是目前这样的数据集并不多见。本次会议提到的两个典型的数据集,一个是社会科学院邱源媛副研究员在《史学数字化研究中的人文思维——以清代旗人户口册研究为例》报告中提到的香港科技大学李中清团队所开发的《中国辽宁多代人口数据集(China Multi-GenerationalPanel Dataset,Liaoning)》 [26],另一个是哈佛大学徐力恒博士在《数据驱动的史学研究——中国历代人物传记资料库(CBDB)的建设与使用》报告中所介绍的“中国历代人物传记资料库”(CBDB)。以CBDB为例,其主要工作是将分散在史料中人物相关的非结构化文本数据进行结构化标引,如将人名(别名、字号)、时间、地址(籍贯、游学、入仕地等)、职官、入仕途径、著作、社会区分、亲属关系、社会关系、财产、人物参与的重大事件等标引转化为结构化的数据,并大规模著录,形成了一个超大规模的数据集。人文学者可以很方便地利用数据进行地理空间分析、社会网络分析、群体分析和统计分析。
2.2 语言文学与文本处理、知识探索
北京大学数据分析研究中心许京奕博士认为,在语言学领域,单纯的数字化、文本化已然是一个过时的思路,基于规模文本和教学科研需要进行文本深度挖掘和智能分析能更显数字人文的意义。
在《古籍数字化与史料知识深度挖掘》报告中,许京奕博士介绍了北京大学中文系在这方面所做的几项重要探究:一是“全唐诗分析系统” [27]和“全宋诗分析系统”[28],其最重要的工作不是简单地止于对5.7万首唐诗和25.4万首宋诗文本进行文本化入库,而是在此基础上结合人文研究、创作的需要建立一系列的数据模型或数据集(如建立了二十八种诗歌模型、音韵库、诗人信息库等),并通过数据模型对诗歌的全文文本进行标注和分析,方便人文学者进一步研究。以“全宋诗分析系统”为例,不仅可以做普通的全文检索,还可以自动识别宋诗中的重出诗,以及自动分析标注人文学者自作诗的格律。二是“古籍研习平台”,并非止步于将二十五史、十三经注疏、诸子集成等史料文本数字化入库,而是在此基础上建立文献知识网络(如建立文献间关系、建立文献内关系),方便人文领域的用户查找、研习文献。三是“古汉语文本自动句读系统”,并不止步于将史料文本悉数入库,而是基于语句切分、语词切分、汉字聚类、搭配关系统计和机器学习,让计算机对任何一篇古文进行智能点读,准确率能达98%以上,可有效节省人工点校的时间。
2.3 人文艺术与数据可视化呈现
数据可视化呈现为人文研究提供新视角。王晓光教授在《全球视角下的数字人文:概念与实践》报告中列举了人文领域很多重要的数据可视化项目,如历史档案领域可视化分析研究的“淡新档案诉讼关系图”[29]、文学领域地理信息可视化研究的“宋人与宋诗地理资讯系统”[30]、考古学领域的GIS结合应用研究“地理资讯科学研究专题中心”[31]、基于GIS的城市发展历史可视化展示、Google地图与文学相融合的可视化展示项目“BibleMap”[32]、多源历史文献数据的融合可视化探索项目“The Overland Trails”等。徐力恒博士在《数据驱动的史学研究——中国历代人物传记资料库(CBDB)的建设与使用》报告中,以CBDB数据集的使用为例,探讨如何通过数据驱动史学研究,认为可视化可以帮助史学研究提出一些新问题。譬如,历史学者可以在宋代4730个进士的籍贯分布和1080年(宋元丰三年)18路人口分布(如图1所示)的基础上,进一步提出“进士的数量与人口的密度是否存在正相关性”这样的问题;再比如,历史学者通过对与朱熹同代的理学家之间书信交往的关系图(如图2所示),提出“社会关系对
个体影响大小”的假设。
艺术学是数字人文大有可为的领域。清华大学美术学院向帆副教授和朱舜山工程师在《数据可视化与人文艺术——全国美展获奖作品视觉化分析》报告中对中国第6-12届全国美展获奖入围的2276副作品进行了可视化分析。通过自主开发的在线视觉化平台AwardPuzzle[33],对历时30年的获奖油画作品的分析显示,大量作品集中于红黄色调,高明度的色调特别受到全国美展的青睐。此外,他们通过可视化发现全国美展的油画作品中大画幅、获奖经历、暖红色调、中年审美、家园故土主题等因素与入围获奖相关度高。通过对大规模图像数据的视觉化分析来窥探全国美展的获奖秘密,其所提出的不同于传统视角的新问题,实际上为计算机技术与艺术学相关研究的融合提供了非常好的样例。
3 图书馆“数字人文”的实践新方向
数字人文领域的研究和实践在不断地跨越学科的壁垒和边界,融合多方的成果和力量,这是“数字人文”最典型的特征。但是这种跨界与融合对人文学者和信息技术专家充分了解彼此,用互相听得懂的话进行沟通却是一大难题。哈佛大学徐力恒博士认为,高校数字人文的实践应首先建立在高校人文学者与信息技术专家充分沟通和彼此了解的基础之上。此外,要减小这种跨界带来的阻力,高校人文院系和信息技术相关院系都应反思和调整人才培养方式,跨越到对方的领域,以便能够培养出真正意义上既懂数字技术又懂人文学科的数字人文人才。
北京大学朱本军和聂华从图书馆实践的角度认为,“数字人文”领域是图书馆可实践的一个新方向。不过,他们提醒图书馆在实践中应避免进入两个误区:一是将人文学科和社会科学混为一谈,让“数字人文”变成“数字社科”或“数字人文社科”。人文学科和社会科学虽然有一定的共性,但是“数字人文”的落脚点在语言文学、历史学(包括考古)、哲学(包括美学、艺术学、宗教学、伦理学等衍生学科)等人文学科,而不要落脚在社会科学领域。二是由于人文学科的研究或创作带有非常强的个人色彩,而且没有固定的套路,人文研究所要使用的数据集、工具软件或平台一般是小众的,而且指向性非常明确,在“数字人文”实践的过程中,图书馆要避免自以为意式的闭门造车,而应与人文学者保持密切联系,充分介入到人文学者的教学和科研过程中,避免脱离具体的人文教学科研情景,而使“数字人文”的实践没有受众。至于图书馆具体可以开展的工作,朱本军和聂华认为有至少4个具体的方面值得去做:一是将全球范围内分散在不同地域或机构的人文研究数据库、工具软件或平台进行分类汇总整理,用专门的网站或页面集中展示,方便人文学者了解使用。二是依托图书馆已有的资源、技术和存储优势,创建可促进人文研究的数据集或大规模结构化数据,扩大人文学者的抽样样本。三是新增“数字人文”咨询,让图书馆成为人文学者、计算机或信息科学人员之间的桥,翻译、整合两者之间的对话。四是建议有条件的图书馆可以开设“数字人文部”,为高校研究生、教师提供数字人文课程或培训,提供数据库、工具,以及根据人文研究的需求组织实施数字人文项目。
此外,朱本军和聂华还认为,图书馆开展数字人文将可能催生出“数字人文图书馆员”,这类图书馆员具有某种与数字人文相关的知识或技能,如理解人文学者所需数据并能够为数据制定元数据著录规则的人文数据馆员、擅长数据可视化呈现的可视化馆员、擅长地理信息系统的GIS馆员、擅长社会网络数据分析的SNA数据分析馆员、擅长理解人文学者需求并转化为计算机技术专家可理解语言的人文学者-IT技术专家沟通馆员,以及专门培训人文学者数字人文素养的馆员等。
4 对数字人文的反思
“数字人文”是否会取代传统人文的教学和科研?这是与会者普遍关心的问题。北京大学朱本军、聂华认为,“数字人文”并不能一揽子解决所有人文问题,它对传统人文研究的促进,一方面体现在将人文学者从机械、繁重的资料查找、文本比对等工作中解脱出来,使其在学术研究中具有更广阔的思辨、演绎、推理的空间;另一方面体现在通过数字化、工具软件等手段将社会科学领域的某些研究方法引入人文领域,创新人文研究方法和研究范式,从定性到定量辅助加定性,为人文研究提出问题、界定问题和回答问题提供新的视角。人文学者提出问题、分析问题和解决问题的敏觉力是数字人文所不能代替的。哈佛大学徐力恒博士以CBDB为例,认为CBDB数据库绝非是对历史文献的取代,而是一种新的文献打开方式、查询方式、呈现方式。他也表示,数字技术只是历史学者使用的一种研究工具,在研究中应发挥人文学者和计算机各自的长处。
作为一个以跨界与融合为特点的新兴领域,数字人文还将不断变化和再定义。尽管国内外已经开展了一些与数字人文相关的研究与实践,但要在全球范围内,特别是中国国内形成明显的数字人文研究共同体,尚需时日。
参考文献
[1] Matthew G. Kirschenbaum.What Is Digital Humanities and What's It Doing in English Departments?ADE Bulletin 150(2010),pp.55-61(7)
[2] 王晓光教授报告援引“数字人文的概念难于界定”出自《数字人文季刊(Digital Humanities Quarterly)》2007年创刊欢迎辞:J Flanders,M Terras & W Piez.Welcome to Digital Humanities Quarterly, Digital HumanitiesQuarterly[J],2007)
[3] 徐力恒博士援引文章为:Gold, Matthew K.Debates in the Digital Humanities.[2016-07-20].[EB/OL]http://dhdebates.gc.cuny.edu/debates/text/38
[4] Stanford Humanities Center[EB/OL].[2016-07-20].http:// shc.stanford.edu/digital-humanities
[5] HyperStudio-Digital Humanities at MIT[EB/OL].[2016-07-20].http://hyperstudio.mit.edu
[6] Center for Digital Humanities-UCLA[EB/OL].[2016-07-20].http:// www.cdh.ucla.edu
[7] Department of Digital Humanities-King’s College Lodon[EB/OL].[2016-07-20]. http://www.kcl.ac.uk/artshums/depts/ddh/index.aspx
[8] Digital Humanities Center for Japanese Arts and Culture[EB/OL].[2016-07-20]. http://www.dh-jac.net
[9] 台湾大学数位人文研究中心[EB/OL].[2016-07-20]. http://www.digital.ntu.edu.tw
[10] National Endowment for the Humanities [EB/OL].[2016-07-20].http://www.neh.gov
[11] Google Books[EB/OL].[2016-07-20].https://books.google.com
[12] 中国知网[EB/OL].[2016-07-20].http://cnki.net
[13] JSTOR[EB/OL].[2016-07-20].http://www.jstor.org
[14] China Biographical Database Project [EB/OL].[2016-07-20].projects.iq.harvard.edu/cbdb/home
[15] 一款用来自动标出多份文本的差异之处的工具软件,详见:http://ctext.org/
[16] 一款对中文文本内容进行自动标引的工具,详见:http://dh.chinese-empires.eu/beta/
[17] ProQuest Summon[EB/OL].[2016-07-20]. http://www.proquest.com/products-services/The-Summon-Service.html
[18] 一款可视化的社会网络分析软件,详见:https://gephi.org/
[19] 一款GIS可视化分析软件,详见:http://www.qgis.org/zh_CN/site/
[20] 华夏记忆[EB/OL].[2016-07-20]. http:// www.nlc.gov.cn/newhxjy
[21] 国学宝典[EB/OL].[2016-07-20]. http://www.gxbd.com
[22] 古籍电子定本工程[EB/OL].[2016-07-20]. http://www.guoxue.com/zt/dzdb/
[23] CADAL项目[EB/OL].[2016-07-20].http://cadal.zju.edu.cn
[24] 民国文献大全(~1949)[EB/OL].[2016-07-20]. http://cadal.hytung.cn
[25] HathiTrust Digital Library[EB/OL].[2016-07-20]. http://www.hathitrust.org
[26] China Multi-GenerationalPanel Dataset [EB/OL].[2016-07-20].http://www.icpsr.umich.edu/icpsrweb/ICPSR/series/265
[27] 全唐诗分析系统[EB/OL].[2016-07-20]. http://202.106.125.44:8082/tang/
[28] 全宋诗分析系统[EB/OL].[2016-07-20].http://202.106.125.44:8082/song/
[29] 淡新档案诉讼关系图[EB/OL].[2016-07-20].http://140.112.30.230/THDLEyeball/
[30] 宋人与宋诗地理资讯系统[EB/OL].[2016-07-20].http://cls.hs.yzu.edu.tw/sung/sung/
[31] 地理资讯科学研究专题中心[EB/OL].[2016-07-20].http://gis.rchss.sinica.edu.tw/
[32] BibleMap [EB/OL].[2016-07-20]. https://bible.org/article/net-bible-maps#samples
[33] AwardPuzzle [EB/OL].[2016-07-20]. http://www.zeelab.xyz/AwardPuzzle
本文转自“北京大学《数字人文指南》第一期”