- +1
臺大資訊工程學(xué)教授:新技術(shù)能為歷史研究提供什么幫助
數(shù)字時代,資訊科技能夠?yàn)閭鹘y(tǒng)歷史學(xué)研究帶來怎樣的變化?就目前歷史學(xué)界的研究體驗(yàn)來說,一是研究者可以利用新技術(shù)帶來的數(shù)字資源,突破原有時間、空間的界限,能夠?qū)崿F(xiàn)短時間內(nèi)占有更多的研究資料,二則是新技術(shù)帶給傳統(tǒng)歷史學(xué)研究的新方法、新思路。但另一方面,也有不少史學(xué)研究者對新技術(shù)提供的服務(wù)表示不滿和遺憾。
作為歷史研究的主體,以往談及數(shù)字時代的史學(xué)研究,多是由歷史研究者發(fā)聲。那么,作為數(shù)字資源服務(wù)的提供方,簡單地說,就是歷史文獻(xiàn)數(shù)據(jù)庫、檢索系統(tǒng)的建設(shè)者來說,他們?nèi)绾卫斫膺@個問題?又如何思考數(shù)字時代的歷史學(xué)研究?
5月29日,上海交通大學(xué)人文學(xué)院邀請臺灣大學(xué)數(shù)位人文研究中心主任項(xiàng)潔教授做客歷史系,介紹臺灣大學(xué)自1996年以來在史料數(shù)字化上的工作,并以臺灣歷史數(shù)位圖書館(Taiwan History Digital Library--THDL)為例,從史料收集與數(shù)位化、數(shù)位典藏庫建置方法、人文研究如何應(yīng)用數(shù)位數(shù)據(jù)庫等議題交流看法和心得。會后,澎湃新聞(www.loaarchitects.com.cn)采訪了項(xiàng)教授。

項(xiàng)潔是臺灣大學(xué)資訊工程學(xué)系的特聘教授,同時也是臺灣大學(xué)數(shù)位人文研究中心的主任,曾任臺灣大學(xué)圖書館館長。近幾年來,他一直致力于數(shù)字人文的研究,尤其是歷史文獻(xiàn)數(shù)據(jù)庫的開發(fā)。他主持開發(fā)的臺灣歷史數(shù)位圖書館、云南民間古文書的數(shù)據(jù)庫等,在學(xué)界都有一定的影響力。據(jù)他介紹,臺大從1996年開始進(jìn)行歷史文獻(xiàn)的數(shù)字化工作,2002年臺灣開始普遍展開數(shù)位典藏的工作,2007年,已積累了十年工作經(jīng)驗(yàn)的臺大成立了數(shù)位典藏研究中心,后來改名數(shù)位人文研究中心。從“數(shù)位典藏”到“數(shù)位人文”,名稱改換背后,其實(shí)是一個理念的變化。
“我個人覺得數(shù)字典藏是被動的,數(shù)據(jù)放在那里等待被使用。數(shù)字人文是主動的,試圖與研究者的需求產(chǎn)生關(guān)系?!彼^“被動”,就是說數(shù)據(jù)庫中存儲的千千萬萬條文獻(xiàn)數(shù)據(jù),對使用者來說,它們只是等待被檢索的對象。除了檢索之外,使用者似乎對于整個系統(tǒng)也沒有更多面向的使用。而“數(shù)位人文”,用項(xiàng)教授自己所下定義來說,就是透過資訊科技用數(shù)字資源進(jìn)行人文研究。淺白一點(diǎn)說,他開發(fā)、建設(shè)的系統(tǒng)并不是僅僅實(shí)現(xiàn)資料的檢索,而是要為研究者提供一個“能觀察”的環(huán)境,在這個系統(tǒng)中,能夠呈現(xiàn)資料之間的脈絡(luò)關(guān)系,以此彌補(bǔ)史料本身存在的不足,以及數(shù)字化之后,信息所呈現(xiàn)出的龐雜紛亂。
多年從事歷史文獻(xiàn)數(shù)據(jù)庫的開發(fā)和建設(shè),項(xiàng)教授對于接觸過的資料也產(chǎn)生過一些研究想法,不過他對自己的定位很明確,“我現(xiàn)在做的不是學(xué)術(shù),是學(xué)術(shù)服務(wù)業(yè)”。
項(xiàng)潔:歷史學(xué)和人類學(xué)是我從小的喜好,在臺灣我也花了十余年做了大量的數(shù)字史料方面的工作。對我來說,思考如何透過信息科技來使用這些數(shù)字資源從事歷史研究,這似乎是很自然的一件事。
澎湃新聞:曾與一位歷史研究者談及電子資源的使用,他說,我們使用電子資源時,所感受的不足或者“麻煩”,其原因不在于技術(shù)本身,而在于技術(shù)開發(fā)者和資源使用者之間的溝通,使用的人不懂技術(shù),管技術(shù)開發(fā)的人又不知道使用者需要什么,而一旦他們認(rèn)識到這個問題,技術(shù)完全能做得更好。您怎么看這個問題?
項(xiàng)潔:我的學(xué)生大多是學(xué)資訊的,每年我要花很多時間跟他們講,我們的工作不是要幫歷史學(xué)家做研究,給他們找答案。歷史研究是一門詮釋的學(xué)問,這不像計(jì)算機(jī)科學(xué),你提出一個問題,它給你一個答案。我認(rèn)為,我的工作是要給歷史學(xué)家一個能觀察的環(huán)境。
起初,我們做數(shù)字化的工作,一些歷史學(xué)家除了檢索之外,似乎對系統(tǒng)沒有更多面向的使用,我想這不是他們的錯,是我們的錯,我們沒有提供一個研究者愿意使用,有興趣使用的系統(tǒng)。

澎湃新聞:您認(rèn)為,歷史學(xué)家需要怎樣的數(shù)字系統(tǒng)?
項(xiàng)潔:一個好用的系統(tǒng)。以THDL為例,我們的目的一方面是要提供既深且廣的第一手臺灣史料,比如,我們“明清臺灣行政檔案”部分包括了80%的20世紀(jì)以前的中文官方檔案;“古契書”的史料囊括了從1666年到日治初期,涵蓋清代全臺灣的資料,具有相當(dāng)?shù)拇硇?。另一個方面,我們也在思考這個系統(tǒng)能不能把臺灣史研究借由數(shù)位資料和資訊科技帶到一個不一樣的層次。
傳統(tǒng)檢索系統(tǒng)是這樣的,它以precision(求準(zhǔn)率)和recall(求全率)作為系統(tǒng)使用指標(biāo),其背后的預(yù)設(shè)是文件之間沒有關(guān)聯(lián)。我們在網(wǎng)頁上使用的搜索引擎、圖書館的自動化系統(tǒng)和大部分digital libraries(數(shù)字圖書館)都是這樣的。所謂“求準(zhǔn)率”,就是說,檢索結(jié)果是不是你要的內(nèi)容;所謂“求全率”,就是說,是不是能顯示所有相關(guān)內(nèi)容。這兩個指標(biāo)是很難在一個系統(tǒng)兼而有之,一般求準(zhǔn)率高的系統(tǒng),求全率就低,百度、谷歌就是這樣,其文件和文件之間沒有關(guān)聯(lián),反而是在“打仗”,誰贏了,誰就顯示在前面。
文件與文件之間是什么關(guān)系?對不同的史料來說,是不一樣的。檔案中的文件多數(shù)是彼此相關(guān)的,存在脈絡(luò);而對于一些散亂的民間文獻(xiàn),其脈絡(luò)并不清晰,需要研究者去發(fā)現(xiàn),把它聯(lián)系起來。
那么,我希望檢索系統(tǒng)能夠盡量提供文件的各種脈絡(luò)以及觀察脈絡(luò)的環(huán)境。也就是說,你輸入一個搜索詞,檢索成果可以是一個有意義的文件集,給使用者提供各種方法讓他觀察其中的脈絡(luò)。
澎湃新聞:您說,最初與人類學(xué)家一起做數(shù)字人文的工作,彼此曾產(chǎn)生過很多爭論,能談?wù)剢幔繗v史學(xué)者和技術(shù)開發(fā)者處理歷史信息的差異在哪兒?
項(xiàng)潔:人文學(xué)者講求精讀,從少量的數(shù)據(jù)里看出豐富的內(nèi)涵。數(shù)字人文則希望有能力在精讀之前,先粗略地鳥瞰整個數(shù)據(jù)群,其前提是要有足夠多的數(shù)據(jù)。
一開始,我們的爭論——當(dāng)然還是學(xué)理上的爭論,主要在于數(shù)據(jù)的數(shù)字化,尤其是詮釋數(shù)據(jù)(metadata)的建立,要到什么地步才算合理。人文學(xué)者希望越詳細(xì)越好,但太詳細(xì),數(shù)字化的量就勢必不會足夠大,那么,就達(dá)不到鳥瞰的效果。這里還有一個問題,就是資料數(shù)據(jù)的“標(biāo)準(zhǔn)化”,這關(guān)系到詮釋數(shù)據(jù)(metadata)字段的設(shè)計(jì),數(shù)字化的主要目的是使用,標(biāo)準(zhǔn)化會更方便使用。

澎湃新聞:為了更好地實(shí)現(xiàn)“鳥瞰”資料的效果,THDL有哪些分析工具,可供其他數(shù)據(jù)庫開發(fā)借鑒?
項(xiàng)潔:我是希望在我建設(shè)的系統(tǒng)界面中,呈現(xiàn)多種與檢索結(jié)果相關(guān)的資料,所以,你可以在我們的檢索界面看到與檢索結(jié)果相關(guān)的地理分布圖、時間分布圖,還有檢索后分類,這是將檢索結(jié)果依據(jù)年代、出處、作者、分類、地域五種面向分類,力圖呈現(xiàn)出整體分布情況,這些信息就可以形成一個信息的集合,希望這個集合有利于使用者發(fā)現(xiàn)文獻(xiàn)之間的脈絡(luò)。


在“臺灣總督府檔案”數(shù)據(jù)庫中有很多文書、契約資料,我們設(shè)有g(shù)is工具,提供“臺灣堡圖”、“地形圖”、“衛(wèi)星地圖”、“古今對照”、“行政區(qū)域”五種底圖,利用我們的檢索工具,可以查看不同類型的契書在地理上的分布情況。

另外,我們也可以通過數(shù)據(jù)庫的設(shè)計(jì)發(fā)現(xiàn)隱藏于語意中的資料之間的脈絡(luò)。THDL中有近40,000件地契文書,這些文書來自一百余種不同的出處,這些契約文書彼此有什么關(guān)系:哪些契約是關(guān)于同一塊(或相鄰)土地的文書?哪些契約是關(guān)于同一個大家族的?如果不借助資訊科技,要重建文件之間原有的脈絡(luò),得耗費(fèi)極大的人力和時間。那么,我們的數(shù)據(jù)庫如何實(shí)現(xiàn)這個脈絡(luò)的聯(lián)結(jié)呢?
我們可以自動選取契書的標(biāo)題、人名、四至、土地面積、售價、地號以及時間等信息特征,通過上述信息的比對,就可以找出彼此有關(guān)聯(lián)的契書,而這個工作單靠人力去完成是很難的。我們把這些有關(guān)聯(lián)的契約文書串聯(lián)起來,可以形成一塊土地在不同地主手中的轉(zhuǎn)移圖。目前我們在三萬多件契約中,已經(jīng)形成了2376個土地轉(zhuǎn)移圖,其中有一塊地的流轉(zhuǎn)由103件契約構(gòu)成,可見這塊土地背后是一個多么有趣的故事!

上圖兩個文件中涉及的人名、地名均不同,文件出處也不同,我們很容易忽略二者之間的關(guān)聯(lián)。但是仔細(xì)看,就會發(fā)現(xiàn)兩個文件涉及的土地“四至”相同,系統(tǒng)便認(rèn)定這兩份文件是來自同一塊土地的兩張契約,由此即可建立兩個文件之間的聯(lián)系。

這是一塊苗栗永和山地區(qū)的土地交易情形,圖中的主角是率先開墾土地的廖姓家族。這個圖直接呈現(xiàn)出的資料之間的脈絡(luò)是我們通過技術(shù)可以實(shí)現(xiàn)的,但是這個圖在社會史、經(jīng)濟(jì)史和家族史上呈現(xiàn)的意義,是需要?dú)v史學(xué)家去研究的。
這樣的方法我們也應(yīng)用于明清朝廷奏折的分析,你可以發(fā)現(xiàn)奏折、上諭之間的引用、包含的關(guān)系,借此研究者可以觀察朝廷政務(wù)討論中的脈絡(luò)。
澎湃新聞:從您的角度看,數(shù)字化對歷史學(xué)研究的積極作用是什么?
項(xiàng)潔:首先,陸續(xù)發(fā)現(xiàn)的歷史文獻(xiàn)越來越多,也出版了不少資料集,但是一個問題是,資料集出版后,如果再出現(xiàn)相關(guān)的資料怎么辦?與出版業(yè)相比,數(shù)字平臺的好處就是可以持續(xù)追加。這是一個動態(tài)的資料集合。對歷史學(xué)研究來說,這當(dāng)然是個便利條件。
其次,就研究來說,我以為,文獻(xiàn)之間的脈絡(luò)是可以通過數(shù)據(jù)庫來實(shí)現(xiàn)的,而“文本”與“人文”之間的脈絡(luò)則是歷史學(xué)家需要去研究的。大量的數(shù)位史料應(yīng)該是可以拓展歷史研究的想象空間。當(dāng)然,在用數(shù)位資料的同時,也需要認(rèn)識到資訊科技運(yùn)用在人文研究上所存在的限制——數(shù)據(jù)庫對相關(guān)資料的取樣是否均衡,其數(shù)據(jù)統(tǒng)計(jì)的意義,歷史研究者在利用數(shù)據(jù)庫資料進(jìn)行研究時,這些問題是需要研究者思考的。
澎湃新聞:從技術(shù)層面來說,西方學(xué)界的史料數(shù)位化是怎樣的?
項(xiàng)潔:他們更強(qiáng)調(diào)資料的互操作性。因此在數(shù)據(jù)著錄工具、檢索協(xié)議、視覺呈現(xiàn)上有很多很好的工作和成果。相比之下,對于史料脈絡(luò)的思考上反而沒有那么清楚。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司




