原標(biāo)題:我國(guó)世界史研究中外文數(shù)據(jù)庫(kù)的利用
據(jù)筆者調(diào)查,,國(guó)內(nèi)主要圖書(shū)館購(gòu)買的以及可免費(fèi)利用的外文專業(yè)數(shù)據(jù)庫(kù)資源,,已超過(guò)千種。這些數(shù)據(jù)庫(kù)就文獻(xiàn)類型而言,,可分為圖書(shū),、期刊、學(xué)位論文與會(huì)議論文,、報(bào)紙,、檔案、統(tǒng)計(jì)資料,、報(bào)告,、書(shū)目與文摘,、圖片,、音視頻等。就收入內(nèi)容而言,歷史學(xué)涉及史學(xué)理論,、世界通史與斷代史,、地區(qū)國(guó)別史(涉及70個(gè)左右的國(guó)家)、傳記,、文物考古,,其他學(xué)科如地理、哲學(xué)與宗教,、政治與法律,、軍事、經(jīng)濟(jì),、文化,、科學(xué)、教育,、體育,、語(yǔ)言與文字、文學(xué),、藝術(shù),、醫(yī)藥衛(wèi)生等,也有很多資源可以參考,。世界史研究需要利用數(shù)據(jù)庫(kù)尤其是外文數(shù)據(jù)庫(kù),,這是無(wú)須爭(zhēng)辯的問(wèn)題。需要討論的是,,如何對(duì)這些數(shù)量龐大的數(shù)據(jù)庫(kù)進(jìn)行利用,。本文從定名與定性、專題數(shù)據(jù)庫(kù)的建立,、數(shù)據(jù)庫(kù)內(nèi)容考辨三個(gè)角度,,談一些粗淺的看法。
一
所謂定名與定性,,是指對(duì)數(shù)據(jù)庫(kù)的名稱,、性質(zhì)和收錄范圍有清晰的認(rèn)識(shí)。
一般而言,,因數(shù)據(jù)庫(kù)開(kāi)發(fā)者都會(huì)提供數(shù)據(jù)庫(kù)名稱,,定名問(wèn)題不會(huì)有太大的困難,但也有一些特殊情況,。其一,,數(shù)據(jù)庫(kù)開(kāi)發(fā)者有時(shí)會(huì)改變數(shù)據(jù)庫(kù)的名稱,從而導(dǎo)致在不同的館藏地或不同的學(xué)者引用中對(duì)同一數(shù)據(jù)庫(kù)標(biāo)引不同,。如美國(guó)檔案類數(shù)據(jù)庫(kù)“美國(guó)解密檔案在線”(U.S. Declassified Documents Online),,原名為“解密檔案參考系統(tǒng)”(Declassified Documents Reference System),;期刊類全文數(shù)據(jù)庫(kù)“綜合學(xué)科學(xué)術(shù)文獻(xiàn)大全”(Academic Search Complete),原來(lái)的英文名為“Academic Search Premier”,。在這種情況下,,建議標(biāo)引以最新名稱為準(zhǔn),同時(shí)了解其歷史名稱,。其二,,存在總庫(kù)、子庫(kù)的情況,。如HeinOnline法律數(shù)據(jù)庫(kù)有60余個(gè)子庫(kù),,美國(guó)國(guó)會(huì)圖書(shū)館的“數(shù)字化收藏”(Digital Collections)有300多個(gè)子庫(kù)。一些開(kāi)發(fā)商或代理商,,還會(huì)重組其數(shù)據(jù)資源,,形成新的總庫(kù)。如Gale公司,,它把旗下部分報(bào)紙期刊類的庫(kù)組成Gale NewsVault,,又把以檔案為主的300余個(gè)子庫(kù)組成“珍稀原始典藏檔案”(Archives Unbound,簡(jiǎn)稱AU),,還把這兩個(gè)庫(kù)和它的其他偏重原始檔案文獻(xiàn)的子庫(kù)組合起來(lái),,形成了Gale Scholar超大型數(shù)據(jù)庫(kù)。就個(gè)人利用而言,,清晰的子庫(kù)名稱更重要,;但由于一些館藏只標(biāo)引了總庫(kù),所以也需要了解總庫(kù)名稱,。其三,,館藏機(jī)構(gòu)的標(biāo)引方式,也會(huì)造成名稱的混亂,。比如,,有的館藏只列翻譯而無(wú)原文名稱,各館藏有時(shí)翻譯名稱不同,,以及有的館藏根據(jù)購(gòu)買情況重新擬定數(shù)據(jù)庫(kù)名稱,。如國(guó)家圖書(shū)館購(gòu)買了AU中亞洲的部分專輯,命名為“珍稀原始典藏檔案合集:亞洲”(Archives Unbound Asia),。
確定性質(zhì)指確定文獻(xiàn)的收錄類型,。前文已提及,外文數(shù)據(jù)庫(kù)的文獻(xiàn)類型包括圖書(shū),、期刊,、報(bào)紙、檔案等,。不同類型的文獻(xiàn),,在史學(xué)研究中所起到的作用是不同的,,或作為目錄檢索路徑,或作為前期學(xué)術(shù)史,,或作為史料來(lái)源,。在開(kāi)發(fā)商或圖書(shū)館的數(shù)據(jù)庫(kù)介紹中,,會(huì)說(shuō)明文獻(xiàn)的類型或特征,。需要強(qiáng)調(diào)的是,上述文獻(xiàn)是基于現(xiàn)代的出版類型進(jìn)行分類的,,它很難完全體現(xiàn)人類過(guò)去所積累的文獻(xiàn)的所有特征,,所以只能是相對(duì)性的。比如,,檔案在今天往往指代有密級(jí)的,、生成之時(shí)尚不能為一般公眾查看的文獻(xiàn),但對(duì)于古代史而言,,甲骨,、碑銘、紙草文書(shū),、木板文書(shū)等,,不管其當(dāng)時(shí)的利用范圍如何,都已是研究那個(gè)時(shí)代的珍貴“檔案”了,。
確定收錄范圍,,指弄清數(shù)據(jù)庫(kù)收錄的內(nèi)容特征。在數(shù)據(jù)庫(kù)的介紹中,,一般會(huì)對(duì)此作出說(shuō)明,,如“早期英文書(shū)籍在線”(Early English Books Online)的介紹,一般會(huì)說(shuō)明其收錄的數(shù)量(12.5萬(wàn)余種,、超過(guò)2250萬(wàn)頁(yè)英文著作),、時(shí)段(1473—1700年之間)、類型(名家著作,、皇家條例及布告,、軍事、宗教和其他公共文件,、年鑒),、學(xué)科范圍(歷史、語(yǔ)言,、音樂(lè),、美術(shù)、物理學(xué),、婦女研究)等,。但確定內(nèi)容特征有時(shí)也會(huì)有一定的困難,,上文提及的總庫(kù)與子庫(kù)的情況是其中之一。有的數(shù)據(jù)庫(kù)有很多子庫(kù),,但圖書(shū)館一般只會(huì)選擇部分子庫(kù)購(gòu)買,,而標(biāo)引時(shí)卻用總庫(kù)名稱,這樣就很難知道該庫(kù)在某一具體館中的子庫(kù)收錄情況,。另一種情況是,,很多圖書(shū)館會(huì)選擇數(shù)據(jù)庫(kù)中與本校教學(xué)科研密切的模塊來(lái)購(gòu)買,從而導(dǎo)致即便沒(méi)有子庫(kù)的數(shù)據(jù)庫(kù),,在各館中收錄內(nèi)容差異也較大,。比如Sage期刊庫(kù),有的館(如首都師范大學(xué))購(gòu)買了500多種現(xiàn)刊,,有的館(如北京大學(xué))則購(gòu)買了800多種現(xiàn)刊,。同名數(shù)據(jù)庫(kù)各館收藏不同,會(huì)讓同一檢索在不同的館藏出現(xiàn)差異甚至差別較大,。此外,,有的數(shù)據(jù)庫(kù)以模塊形式呈現(xiàn),模塊下內(nèi)容較多,,而模塊名稱卻未必能完整展現(xiàn)其收錄內(nèi)容,。如ProQuest歷史庫(kù)的一個(gè)模塊“越南戰(zhàn)爭(zhēng)和美國(guó)外交政策(1960—1975年)”(Vietnam War and American Foreign Policy,1960—1975)是一個(gè)單一的數(shù)據(jù)庫(kù),,從其名稱來(lái)看,,只能判斷其與越戰(zhàn)有關(guān)。但這個(gè)數(shù)據(jù)庫(kù)收錄內(nèi)容廣泛,,含有104個(gè)子輯,,內(nèi)容極其豐富,比如有成系列的美國(guó)國(guó)家安全委員會(huì)文件,、國(guó)家安全委員會(huì)會(huì)議記錄,,從肯尼迪到尼克松時(shí)期的國(guó)家安全文件等,實(shí)際上是戰(zhàn)后到20世紀(jì)70年代美國(guó)外交史研究的重要資源,。像這類數(shù)據(jù)庫(kù),,不了解其子輯內(nèi)容就沒(méi)法深入利用。
二
定名與定性是我們利用外文數(shù)據(jù)庫(kù)的起步工作,。接下來(lái),,就可以大體判斷某一數(shù)據(jù)庫(kù)與我們所從事研究的關(guān)系,從而確定是否要加以搜集和利用,。類似于做專題文獻(xiàn)書(shū)目一樣,,在從事一項(xiàng)專題性的學(xué)術(shù)研究時(shí),也要圍繞該研究搜集在線資源,做一個(gè)專題數(shù)據(jù)庫(kù)的列表,。需要注意的是,,這些專題數(shù)據(jù)庫(kù)搜集時(shí)面不能過(guò)窄,它們不僅要包括與某一研究直接相關(guān)的數(shù)字資源,,也要包括一些宏觀性質(zhì)的及可能相關(guān)的其他數(shù)據(jù)庫(kù),。如研究?jī)纱问澜绱髴?zhàn)期間英國(guó)的綏靖外交,首選當(dāng)然是英國(guó)的外交檔案以及重要人物的文件集,,如收錄了60余冊(cè)《英國(guó)外交政策文件,,1919—1939年》的“英國(guó)海外政策文件”(Documents on British Policy Overseas)數(shù)據(jù)庫(kù)、內(nèi)維爾·張伯倫和奧斯丁·張伯倫的文件集(The Papers of Neville Chamberlain,; The Papers of Sir Austen Chamberlain),、“丘吉爾檔案”(Churchill Archive),,次選是這一時(shí)期的內(nèi)閣文件(Cabinet Papers)和國(guó)會(huì)文件的系列數(shù)據(jù)庫(kù)(U.K.Parliamentary Papers,, House of Commons Parliamentary Papers, Hansard等),,最后是反映當(dāng)時(shí)媒體動(dòng)向的重要報(bào)刊,,如“大英圖書(shū)館報(bào)紙”(British Library Newspapers)、《泰晤士報(bào)》《每日電訊報(bào)》《倫敦新聞畫報(bào)》《圖畫郵報(bào)》等,。同時(shí),,通過(guò)“英國(guó)外交部機(jī)密印刷件:北美,1824—1961年”(Confidential Print: North America,, 1824—1961),、“英國(guó)外交部:美國(guó)通信”(British Foreign Office: United States Correspondence)、“英國(guó)外交部檔案:日本,,1919—1952年”(Foreign Office Files for Japan,,1919—1952)、“英國(guó)外交部檔案:中國(guó),,1919—1980年”(Foreign Office Files for China,,1919—1980)等英國(guó)檔案數(shù)據(jù)庫(kù),以及美國(guó),、日本,、德國(guó)、澳大利亞,、加拿大等國(guó)家的外交檔案數(shù)字資源,,可了解圍繞英國(guó)綏靖行動(dòng)有關(guān)國(guó)家的互動(dòng)。以上搜集偏重于兩次世界大戰(zhàn)期間與英國(guó)有關(guān),、相對(duì)原始的文獻(xiàn),,也不能忽略一般的通用數(shù)據(jù)庫(kù),比如圖書(shū)資源(約50種),、期刊資源(約30種),、學(xué)位論文資源(十余種)等,。
三
在搜集到相當(dāng)?shù)碾娮淤Y源后,還要進(jìn)行內(nèi)容考辨的工作,。這一考辨,,可以從兩個(gè)角度入手。
一是觀察數(shù)據(jù)庫(kù)資料來(lái)源和開(kāi)發(fā)機(jī)構(gòu),。一般而言,,政府機(jī)構(gòu)公布的本機(jī)構(gòu)所掌握文獻(xiàn)的權(quán)威性,高于其他來(lái)源,;知名開(kāi)發(fā)商,、學(xué)術(shù)機(jī)構(gòu)開(kāi)發(fā)的專業(yè)性數(shù)據(jù)庫(kù),高于一般網(wǎng)絡(luò)資源,。例如,,我們要查美國(guó)人口數(shù)據(jù),最優(yōu)先利用的是美國(guó)人口普查局開(kāi)發(fā)的“美國(guó)事實(shí)發(fā)現(xiàn)者”(American Fact Finder),,它可以提供美國(guó)人口,、住房、經(jīng)濟(jì)和地理數(shù)據(jù)的來(lái)源,;關(guān)于美國(guó)農(nóng)業(yè)人口,,則要參閱農(nóng)業(yè)部的“國(guó)家農(nóng)業(yè)統(tǒng)計(jì)數(shù)據(jù)”(National Agricultural Statistics Service),它提供了自1840年以來(lái)美國(guó)各州和地區(qū)的農(nóng)業(yè)人口普查數(shù)據(jù),;還可以利用明尼蘇達(dá)大學(xué)的“美國(guó)國(guó)家歷史地理信息系統(tǒng)”(National Historical Geographic Information System),,它提供了1790年至今的美國(guó)人口普查和其他全國(guó)性調(diào)查統(tǒng)計(jì)資料,包括帶有地理空間屬性信息的人口,、農(nóng)業(yè),、經(jīng)濟(jì)等方面的數(shù)據(jù)。
二是注重?cái)?shù)據(jù)形式和原實(shí)體之間的關(guān)系,。就人文學(xué)科的多數(shù)數(shù)據(jù)庫(kù)而言,,其數(shù)據(jù)往往來(lái)自某種實(shí)物。利用這種數(shù)據(jù)庫(kù)時(shí),,除了傳統(tǒng)利用實(shí)物載體要注意的考辨等工作外,,還要考察數(shù)據(jù)形式同原實(shí)體之間的關(guān)系。如紙質(zhì)文獻(xiàn)在電子化的過(guò)程中,,是完整電子化,,還是部分電子化?電子化的文獻(xiàn)是如何排列的,,這種排列同原始文獻(xiàn)的排列關(guān)系何在,?等等。如ProQuest公司開(kāi)發(fā)的“數(shù)字化國(guó)家安全檔案”(Digital National Security Archive),其文獻(xiàn)選取和組合模式是圍繞某一國(guó)家安全問(wèn)題,,抽取來(lái)自不同機(jī)構(gòu)的檔案,,并按時(shí)間先后組織在新的子輯中。雖然所抽取的檔案是完整掃描,,但它并不會(huì)完整掃描原檔案所在卷宗或系列,,研究人員只能通過(guò)不同檔案的時(shí)序排列建立起聯(lián)系。利用這類數(shù)據(jù)庫(kù)時(shí),,有時(shí)還需使用相關(guān)的配套指南,、大事年表、人名索引等工具,。
定名與定性,、建立專題數(shù)據(jù)庫(kù)、內(nèi)容考辨,,是利用外文數(shù)據(jù)庫(kù)的基礎(chǔ)工作,。做好這些工作,研究者可以更高效準(zhǔn)確地找到自己所需要的電子資源,。當(dāng)然,,它們并非利用外文數(shù)據(jù)庫(kù)注意事項(xiàng)的全部,,如從知識(shí)考古學(xué)角度,,可以討論數(shù)據(jù)庫(kù)開(kāi)發(fā)的知識(shí)背景、開(kāi)發(fā)動(dòng)機(jī),、開(kāi)發(fā)人員組成,、文獻(xiàn)著錄方式等;從文獻(xiàn)挖掘角度,,可以討論挖掘工具的選用,、關(guān)鍵詞選取、算法等,,這些都是我們?cè)谑褂脭?shù)據(jù)庫(kù)時(shí)需要考慮的內(nèi)容,。
(作者:姚百慧,,系首都師范大學(xué)歷史學(xué)院教授)