張雨欣
語(yǔ)料庫(kù)(corpora)是以大量的自然語(yǔ)言為基礎(chǔ),運(yùn)用計(jì)算機(jī)技術(shù)進(jìn)行分析的大型資料庫(kù)。20世紀(jì)中葉,建立語(yǔ)料庫(kù)的方法為語(yǔ)言學(xué)研究提供了新的途徑,并隨著計(jì)算機(jī)技術(shù)的發(fā)展迅速普及,從產(chǎn)生至今日漸成熟,已經(jīng)取得了豐碩的學(xué)術(shù)成果,成為一門(mén)獨(dú)立的學(xué)科。AntConc作為語(yǔ)料庫(kù)分析軟件,隨著語(yǔ)料的研究其應(yīng)用范圍也在不斷擴(kuò)大,成為一款重要的語(yǔ)料庫(kù)分析軟件。AntConc具有詞語(yǔ)檢索、主題詞和生成詞表三大核心功能,通過(guò)統(tǒng)計(jì)和概率的算法對(duì)語(yǔ)言的構(gòu)建進(jìn)行深層的探究,探討語(yǔ)言背后的規(guī)律和意義,由于其操作簡(jiǎn)單、功能齊全和免費(fèi)性等優(yōu)點(diǎn)被人們廣泛運(yùn)用。AntConc的傳統(tǒng)應(yīng)用領(lǐng)域包括語(yǔ)料庫(kù)語(yǔ)言學(xué)、翻譯學(xué)、外語(yǔ)教學(xué)等,隨著軟件的升級(jí)、技術(shù)的完善,其研究對(duì)象被拓寬,研究程度更加深化,在中國(guó)語(yǔ)言文字、外國(guó)語(yǔ)言文字、世界文學(xué)、新聞與傳媒等領(lǐng)域都有所運(yùn)用。
AntConc是由日本學(xué)者Laurence Anthony于2002年開(kāi)發(fā)而成。2000年,Laurence Anthony正在為他的博士畢業(yè)論文而發(fā)愁,面對(duì)大量的文本語(yǔ)料,沒(méi)有高效的辦法進(jìn)行處理,當(dāng)時(shí)用計(jì)算機(jī)輔佐語(yǔ)料庫(kù)研究還是一個(gè)少有的理念,谷歌剛誕生不久、微軟還沒(méi)推出Windows XP、諾基亞的功能機(jī)正風(fēng)靡全球,能有專(zhuān)門(mén)分析語(yǔ)料庫(kù)的軟件更是少之又少,Laurence Anthony為了突破學(xué)術(shù)瓶頸,改變現(xiàn)狀,于2002年成功地開(kāi)發(fā)出一款用于語(yǔ)料庫(kù)分析的軟件——AntConc,不僅順利完成博士論文,更慷慨地將此軟件發(fā)布,任何需要進(jìn)行語(yǔ)料分析工作的人都可以免費(fèi)下載。后來(lái)被眾多研究者參考使用,經(jīng)過(guò)20年的不斷升級(jí)和完善,其應(yīng)用領(lǐng)域越來(lái)越廣,更加驗(yàn)證了計(jì)算機(jī)輔助語(yǔ)言研究的重要性。
我國(guó)AntConc的使用雖然晚于國(guó)外,但目前利用該軟件取得的成果卻極為豐富,有必要進(jìn)行整理和歸納,為日后語(yǔ)料庫(kù)的使用和研究提供參考和指引。在此之前,國(guó)內(nèi)并沒(méi)有對(duì)AntConc的使用做過(guò)系統(tǒng)的綜述分析,本文將利用Citespace可視化圖譜分析工具對(duì)AntConc的使用情況進(jìn)行統(tǒng)計(jì),探析AntConc的研究熱點(diǎn)和發(fā)展趨勢(shì)。
本文主要研究AntConc軟件在我國(guó)各領(lǐng)域研究中的使用現(xiàn)狀以及在語(yǔ)言學(xué)研究中所做出的貢獻(xiàn),檢索時(shí)間為2023年5月27日,以中國(guó)期刊全文數(shù)據(jù)庫(kù)(CNKI)為數(shù)據(jù)來(lái)源,在高級(jí)檢索的模式下,將“AntConc”依次輸入“主題”“篇關(guān)摘”“篇名”“關(guān)鍵詞”搜索欄中,發(fā)現(xiàn)以AntConc作為“篇關(guān)摘”得到的文獻(xiàn)最全面,在總庫(kù)中共得到1994篇文獻(xiàn),本文主要探討“學(xué)術(shù)期刊”類(lèi)別中的AntConc的應(yīng)用,得到446篇學(xué)術(shù)期刊,又經(jīng)過(guò)嚴(yán)格的手動(dòng)剔除和篩選的方法,排除會(huì)議紀(jì)要、外文文獻(xiàn)、成果公告等非期刊內(nèi)容,最終將435篇運(yùn)用AntConc軟件的中文期刊文獻(xiàn)作為研究對(duì)象。
CiteSpace是由德雷塞爾大學(xué)華人學(xué)者陳超美(Chaomei Chen)博士開(kāi)發(fā)的一款主要用于計(jì)量和分析科學(xué)文獻(xiàn)數(shù)據(jù)的信息可視化軟件,可以用來(lái)繪制科學(xué)和技術(shù)領(lǐng)域發(fā)展的知識(shí)圖譜,直觀(guān)地展現(xiàn)科學(xué)知識(shí)領(lǐng)域的信息全景,識(shí)別某一科學(xué)領(lǐng)域中的關(guān)鍵文獻(xiàn)、熱點(diǎn)研究和前沿方向[1]。CiteSpace通過(guò)提供三種選擇(Author、Institution、Keywords)生成可視化圖像,以“Author”為主要分析項(xiàng)時(shí),能夠得到該領(lǐng)域研究的核心作者及合作關(guān)系網(wǎng)絡(luò)結(jié)構(gòu);在進(jìn)行“Institution”共現(xiàn)分析時(shí)可以了解到哪些機(jī)構(gòu)對(duì)該領(lǐng)域的研究更深入、更廣泛;運(yùn)用“Keywords”進(jìn)行分析可以生成聚類(lèi)視圖、時(shí)區(qū)視圖和突變視圖。其中,聚類(lèi)視圖用于展現(xiàn)不同領(lǐng)域的知識(shí)結(jié)構(gòu);時(shí)區(qū)視圖則側(cè)重于描繪在時(shí)間演變下各研究主題的發(fā)展趨勢(shì);突變視圖研究該領(lǐng)域的研究熱點(diǎn)和前沿。總體來(lái)說(shuō),CiteSpace可以將文本性的信息通過(guò)圖表等可視化的圖像將該學(xué)科領(lǐng)域的知識(shí)基礎(chǔ)和研究前沿表現(xiàn)出來(lái)。
CiteSpace的使用方法主要有三步:準(zhǔn)備數(shù)據(jù)、導(dǎo)入數(shù)據(jù)、生成圖譜。本文在CNKI設(shè)置檢索條件得出文獻(xiàn),完成數(shù)據(jù)收集,將得到的435篇文獻(xiàn)全部選中,導(dǎo)出“refwork”格式,用CiteSpace內(nèi)置的格式轉(zhuǎn)換器將格式轉(zhuǎn)換成.txt,將轉(zhuǎn)換好的文件命名成以“download”開(kāi)頭,并存放在提前建好的“data”文件夾里面。完成了準(zhǔn)備數(shù)據(jù)工作之后,接下來(lái)導(dǎo)入數(shù)據(jù),將Citespace的文獻(xiàn)檢索時(shí)間設(shè)置成2007年1月—2023年12月(最早運(yùn)用AntConc的文獻(xiàn)發(fā)表于2007年),時(shí)間切片為1年,根據(jù)“Author”“Institution”和“Keywords”選項(xiàng)生成相應(yīng)的網(wǎng)絡(luò)靜態(tài)圖,之后通過(guò)調(diào)整各種參數(shù)大小、顏色深淺優(yōu)化可視圖譜,將圖譜調(diào)節(jié)到可供分析的最佳效果。
運(yùn)用Citespace的文獻(xiàn)計(jì)量分析功能對(duì)運(yùn)用AntConc所寫(xiě)成的論文數(shù)量進(jìn)行統(tǒng)計(jì),總計(jì)435篇,以年份為橫坐標(biāo),以發(fā)文量為縱坐標(biāo),對(duì)其論文發(fā)表數(shù)量的時(shí)間趨勢(shì)進(jìn)行初步的觀(guān)察。
從圖1可以看出,最早運(yùn)用AntConc的文獻(xiàn)發(fā)表于2007年,隨后年度發(fā)文量整體上呈上升趨勢(shì),到2013年出現(xiàn)第一個(gè)小高峰,發(fā)表了37篇,2014—2017年發(fā)文量有所下降,盡管2016年數(shù)量增多,但也只有25篇,2017年以后,發(fā)文量逐年上升,在2020年,發(fā)文量超過(guò)了2013年的37篇,達(dá)到53篇,隨后發(fā)文量逐年降低,但仍高于2013年以前,截止到2023年5月27日,本年度共發(fā)6篇文獻(xiàn)。2020年的發(fā)文量和國(guó)情有關(guān),2019年末,由于疫情,出行不便,實(shí)地搜集語(yǔ)料工作困難,人們更多利用現(xiàn)有材料進(jìn)行研究,AntConc的使用飆升,2021年和2022年使用頻率也是居高不下。2023年只有6篇是因?yàn)楸疚闹凰鸭?月之前的文獻(xiàn),6月以后的發(fā)文量無(wú)從得知,并且在2023年年初,國(guó)家對(duì)疫情政策做了調(diào)整,使實(shí)地搜集考察語(yǔ)料成為可能。
圖1 文獻(xiàn)發(fā)表年度趨勢(shì)
在Citespace設(shè)置中以“Author”為分析項(xiàng),得到了應(yīng)用AntConc研究的核心作者及他們的合作關(guān)系,字號(hào)越大說(shuō)明發(fā)文量越大,字號(hào)越小說(shuō)明發(fā)文數(shù)量越少。如圖2所示,用AntConc研究發(fā)文最多的是吳明海和趙小晶,每人發(fā)文三篇,任丹青、黃杰鵬、閆莉等人發(fā)文兩篇。并且,連接作者姓名的線(xiàn)條疏散,說(shuō)明作者大多是獨(dú)立研究,未形成緊密的合作網(wǎng)絡(luò)。
圖2 文獻(xiàn)產(chǎn)出作者分布與合作關(guān)系
將“Keywords”設(shè)為Citespace主要分析項(xiàng),得到AntConc相關(guān)研究的關(guān)鍵詞聚類(lèi)圖。關(guān)鍵詞是一篇論文中最精髓的內(nèi)容,涵蓋了主要的研究對(duì)象和研究方法,是文章最精確的提煉,對(duì)關(guān)鍵詞進(jìn)行系統(tǒng)的分析,可以追蹤該領(lǐng)域的研究熱點(diǎn)與前沿。
可視化圖譜分析共得到9個(gè)主要的關(guān)鍵詞聚類(lèi),Q值為0.7037(>0.3),表明網(wǎng)絡(luò)社團(tuán)結(jié)構(gòu)顯著,聚類(lèi)效果良好;S值為0.9881(>0.7),表明聚類(lèi)結(jié)果令人信服。AntConc軟件在我國(guó)應(yīng)用主要有9個(gè)研究熱點(diǎn),其中,語(yǔ)料庫(kù)的節(jié)點(diǎn)最明顯,這也是AntConc主要的應(yīng)用領(lǐng)域,研究路徑為以某一材料為語(yǔ)料庫(kù),根據(jù)不同的研究目標(biāo)進(jìn)行檢索和分析,除“分析”外其他7個(gè)聚類(lèi)就是AntConc的研究對(duì)象:特征、搭配、象征手法、詞塊、主題詞、人際意義、人際功能,本文選取幾個(gè)有代表性的研究方向探究AntConc的使用情況:
1.文學(xué)作品的寫(xiě)作風(fēng)格特征研究
例如在2020年發(fā)表的《基于語(yǔ)料庫(kù)的老舍小說(shuō)<貓城記>分析》(孫媛媛)、《利用語(yǔ)料庫(kù)軟件AntConc對(duì)<追風(fēng)箏的人>的多維度分析》(鄭文揚(yáng))以及《基于語(yǔ)料庫(kù)檢索軟件AntConc分析<小婦人>人物性格》(張鳳吉),都是以“AntConc”為工具分析某一文學(xué)作品的敘述特征、人物、情節(jié)發(fā)展以及寫(xiě)作藝術(shù),為讀者提供解讀文學(xué)的一個(gè)全新的視角。并且文學(xué)作品的范圍不斷擴(kuò)大,不僅局限于國(guó)內(nèi),還對(duì)國(guó)外的經(jīng)典著作進(jìn)行解讀,為國(guó)內(nèi)的經(jīng)典注入新鮮活力的同時(shí)也有利于學(xué)習(xí)國(guó)外名著的優(yōu)點(diǎn),博采眾長(zhǎng),為我所用。
2.教學(xué)、教材的分析
AntConc也用于教學(xué)、教材的分析,由于視角不同分為對(duì)外語(yǔ)和漢語(yǔ)的研究。外語(yǔ)教學(xué)相關(guān)的例如《詞塊理論框架下東華大學(xué)生學(xué)術(shù)英語(yǔ)寫(xiě)作語(yǔ)料流利度的分析》(張莉)、《基于自建語(yǔ)料庫(kù)的高中生英語(yǔ)寫(xiě)作詞匯搭配錯(cuò)誤分析》(張匯匯)和《<國(guó)際貿(mào)易實(shí)務(wù)>英文原版教材詞匯研究》(李寧),也有一部分是對(duì)本土教材的分析,如《基于A(yíng)ntConc的人教版小學(xué)二年級(jí)語(yǔ)文教材分析》(喻二霞)。其中對(duì)英語(yǔ)的研究多使用AntConc,這是由于英語(yǔ)較漢語(yǔ)來(lái)講其語(yǔ)法結(jié)構(gòu)更具有規(guī)律性和規(guī)范性,各種等級(jí)的考試也需要對(duì)英語(yǔ)語(yǔ)料進(jìn)行分析,以便在較短的時(shí)間里獲得高頻詞語(yǔ)和句型,減輕備考的壓力。例如《基于雙語(yǔ)平行語(yǔ)料庫(kù)的四六級(jí)翻譯提升策略研究》(劉榮亮、秦靜)。
3.人際意義探究
社會(huì)賦予了每個(gè)人不同的身份,階級(jí)的差別、國(guó)家的差異、語(yǔ)言的構(gòu)建便被賦予了象征意義。眾多學(xué)者借助AntConc語(yǔ)料庫(kù)檢索分析工具來(lái)分析語(yǔ)篇人際意義的實(shí)現(xiàn)方式,例如《語(yǔ)言、態(tài)度、詞匯選擇——評(píng)價(jià)系統(tǒng)下基于語(yǔ)料庫(kù)的人際意義分析》(張仁霞)、《中美政治語(yǔ)篇中責(zé)任型情態(tài)人際意義探究——以介入系統(tǒng)為視角》(魏亞坤、張奕、樊佳芬)和《庭審辯方立場(chǎng)標(biāo)記語(yǔ)特征及人際功能研究》(曹慧姝)。
可以看出,AntConc已經(jīng)成為語(yǔ)言研究的重要工具,越來(lái)越多的學(xué)者借助AntConc進(jìn)行語(yǔ)料研究,并且研究對(duì)象已不局限于語(yǔ)言學(xué),還包括中國(guó)語(yǔ)言文字、外國(guó)語(yǔ)言文字、世界文學(xué)、新聞與傳媒等眾多領(lǐng)域。語(yǔ)料庫(kù)與AntConc相結(jié)合的研究正朝著跨學(xué)科、多元化方向發(fā)展,具體表現(xiàn)為研究主題的細(xì)化。本文利用Citespace將AntConc應(yīng)用領(lǐng)域的高頻關(guān)鍵詞進(jìn)行整理,統(tǒng)計(jì)如表1(根據(jù)頻次排列),通過(guò)對(duì)比發(fā)現(xiàn),語(yǔ)料庫(kù)出現(xiàn)的頻率最高,語(yǔ)義韻次之,搭配第三。
表1 AntConc應(yīng)用領(lǐng)域高頻關(guān)鍵詞
通過(guò)Citespace得到“語(yǔ)料庫(kù)”關(guān)鍵詞出現(xiàn)在文獻(xiàn)中的趨勢(shì)圖,大規(guī)模的語(yǔ)料庫(kù)研究始于2010年,這與計(jì)算機(jī)技術(shù)的發(fā)展進(jìn)步有密切關(guān)系。從此,我國(guó)語(yǔ)料庫(kù)研究步入一個(gè)新的階段,研究對(duì)象不斷細(xì)化,出現(xiàn)了人際關(guān)系、對(duì)比分析、概念隱喻等高頻關(guān)鍵詞(詳見(jiàn)表1)。2019年,語(yǔ)料庫(kù)的研究出現(xiàn)了繼2012年以來(lái)的第二個(gè)高峰,這是由于自建語(yǔ)料庫(kù)的技術(shù)日漸成熟,掀起了又一波研究熱浪。頻率第二的關(guān)鍵詞“語(yǔ)義韻”和第三的關(guān)鍵詞“搭配”出現(xiàn)在A(yíng)ntConc研究文獻(xiàn)的趨勢(shì)基本相似,都是在2008年出現(xiàn),并于2021、2012和2019年達(dá)到高峰,在2020年至今不再出現(xiàn)。說(shuō)明如今運(yùn)用AntConc研究的熱點(diǎn)問(wèn)題已經(jīng)轉(zhuǎn)移。關(guān)鍵詞是不斷變化的,研究熱點(diǎn)也不是一成不變的。表1只能看出關(guān)鍵詞出現(xiàn)的頻率,如果想要得出關(guān)鍵詞維持熱度的時(shí)間區(qū)段就要借助關(guān)鍵詞突變圖譜,如圖3所示,與一般的高頻次關(guān)鍵詞相比,突現(xiàn)專(zhuān)業(yè)術(shù)語(yǔ)的動(dòng)態(tài)變化特性使之能更準(zhǔn)確地反映出某一學(xué)科的研究前沿[2]。本文從435篇文獻(xiàn)中的關(guān)鍵詞中提煉出突變術(shù)語(yǔ)(burst),得到突變性最強(qiáng)的前五個(gè)詞“語(yǔ)義韻”“詞匯特征”“意識(shí)形態(tài)”“概念隱喻”“文本分析”,其中語(yǔ)義韻的突現(xiàn)強(qiáng)度最大,持續(xù)時(shí)間為2008年到2013年,說(shuō)明在運(yùn)用AntConc的研究中,語(yǔ)義韻這一關(guān)鍵詞受關(guān)注程度最高,近幾年,概念隱喻和文本分析成為關(guān)注熱點(diǎn)。語(yǔ)料作為社會(huì)文化系統(tǒng)的物質(zhì)載體,其意義和內(nèi)涵十分豐富,職業(yè)群體、社會(huì)身份、個(gè)人立場(chǎng)的不同,語(yǔ)言構(gòu)建也會(huì)千差萬(wàn)別,越來(lái)越多的學(xué)者探究語(yǔ)言背后的規(guī)律和意義,力圖從語(yǔ)料的文本分析中找出一套認(rèn)知評(píng)估模式和基準(zhǔn)。
圖3 關(guān)鍵詞突變圖譜
為了進(jìn)一步探究AntConc研究熱點(diǎn)的時(shí)間分布和前沿趨勢(shì),在Citespace中選擇“Timeline”進(jìn)行分析。在2008年,出現(xiàn)了第一篇語(yǔ)料庫(kù)的參考文獻(xiàn),2007年出現(xiàn)第一篇與“搭配”相關(guān)的文獻(xiàn),在2008年,語(yǔ)義韻這一話(huà)題受到關(guān)注,發(fā)文量增多。與“人際功能”相關(guān)的研究起步最晚,而“人際意義”相關(guān)的研究起步最早,2007年發(fā)表了第一篇文獻(xiàn),但是在2017年以后發(fā)文減少,話(huà)題趨冷。
綜上所述,我國(guó)運(yùn)用AntConc最多的就是語(yǔ)料庫(kù)的研究,構(gòu)成國(guó)內(nèi)AntConc應(yīng)用的重要基礎(chǔ)。在此基礎(chǔ)上,研究的主題進(jìn)行了細(xì)化,比如語(yǔ)義韻、搭配、對(duì)比分析、人際關(guān)系、詞塊,這些領(lǐng)域都將成為AntConc應(yīng)用的重要方向,近幾年,概念隱喻和文本分析受到人們的關(guān)注。
本文將CNKI作為文獻(xiàn)基礎(chǔ),運(yùn)用Citespace軟件生成作者、關(guān)鍵詞聚類(lèi)、關(guān)鍵詞突變、時(shí)間線(xiàn)等可視化圖像,對(duì)使用AntConc軟件的情況進(jìn)行了分析,研究結(jié)果表明:國(guó)內(nèi)AntConc的使用較為常見(jiàn),年度發(fā)文量變化幅度大,但是總體上成果豐碩;作者之間的合作關(guān)系不強(qiáng),多為獨(dú)立研究;AntConc軟件通常以語(yǔ)料庫(kù)為基礎(chǔ)進(jìn)行應(yīng)用,目前的研究主題越來(lái)越細(xì)化,已應(yīng)用到文學(xué)作品的寫(xiě)作風(fēng)格特征研究、教學(xué)、教材的分析、人際意義探究等方面;研究熱點(diǎn)從關(guān)于語(yǔ)義韻的研究轉(zhuǎn)向概念隱喻和文本分析。
AntConc界面簡(jiǎn)潔、操作方便的特點(diǎn)可以為缺少技術(shù)背景的語(yǔ)料庫(kù)研究人員提供理論建議和技術(shù)支持; 其強(qiáng)大的功能也為語(yǔ)言的研究提供了新視角, 幫助人們深入、充分地挖掘語(yǔ)料,拓寬研究語(yǔ)料的途徑,進(jìn)而促使學(xué)者們向縱深處研究。本文通過(guò)梳理2007—2023年運(yùn)用AntConc的研究成果,在一定程度上顯示了AntConc在語(yǔ)料庫(kù)研究的跨學(xué)科發(fā)展日趨成熟,以期為以后的語(yǔ)料庫(kù)研究提供借鑒。