摘要:準(zhǔn)確把握日語(yǔ)農(nóng)業(yè)科技術(shù)語(yǔ)的構(gòu)詞特征有利于吸收日本先進(jìn)成果,增強(qiáng)中國(guó)農(nóng)業(yè)科技進(jìn)步貢獻(xiàn)率。利用Python編程語(yǔ)言構(gòu)建了包括7404詞的語(yǔ)料庫(kù)并設(shè)定判斷函數(shù)劃分不同構(gòu)詞類(lèi)別,引入pandas庫(kù)的卡方檢驗(yàn)考察術(shù)語(yǔ)構(gòu)詞類(lèi)型與其領(lǐng)域間交叉分布的顯著性,調(diào)用matplotlib庫(kù)直觀反映新術(shù)語(yǔ)構(gòu)詞特點(diǎn),并利用停用詞、日語(yǔ)分詞庫(kù)、自然語(yǔ)言處理庫(kù)分析了語(yǔ)素的分布頻數(shù)。研究表明,日語(yǔ)農(nóng)業(yè)科技術(shù)語(yǔ)中漢語(yǔ)比重下降、構(gòu)詞更加多樣化,利用Python構(gòu)建和開(kāi)發(fā)高質(zhì)量語(yǔ)料庫(kù)具有廣闊前景。
關(guān)鍵詞:農(nóng)業(yè);科技術(shù)語(yǔ);語(yǔ)料庫(kù);構(gòu)詞;Python
中圖分類(lèi)號(hào):TP274;H083 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2024)24-0135-04
開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID)
0 引言
黨的二十大報(bào)告強(qiáng)調(diào)加快建設(shè)農(nóng)業(yè)科技強(qiáng)國(guó),到2035年基本實(shí)現(xiàn)農(nóng)業(yè)現(xiàn)代化,迫切需要翻譯引進(jìn)國(guó)外農(nóng)業(yè)科技經(jīng)驗(yàn)。日本長(zhǎng)期大力支持引進(jìn)歐美和研發(fā)應(yīng)用先進(jìn)農(nóng)業(yè)科技,在農(nóng)業(yè)機(jī)械、農(nóng)作物培育、智慧農(nóng)業(yè)等領(lǐng)域位居世界前列。全面準(zhǔn)確把握這些領(lǐng)域動(dòng)態(tài),能夠?yàn)橹袊?guó)推動(dòng)農(nóng)業(yè)現(xiàn)代化提供重要支持。隨著技術(shù)進(jìn)步,日語(yǔ)農(nóng)業(yè)科技術(shù)語(yǔ)數(shù)量巨大、種類(lèi)繁多,出現(xiàn)的新詞體現(xiàn)農(nóng)業(yè)技術(shù)前沿動(dòng)態(tài),需要多學(xué)科背景才能準(zhǔn)確理解其內(nèi)涵。這些新詞很多尚未收錄到工具書(shū)中,影響了國(guó)際學(xué)術(shù)交流特別是文獻(xiàn)漢譯及借鑒推廣。日語(yǔ)農(nóng)業(yè)科技用語(yǔ)結(jié)合使用漢字、假名、英文字母、羅馬字等多種文字,存在多詞同義、同詞異形、部分漢字與中文語(yǔ)義差異較大等現(xiàn)象。例如,“蛋白質(zhì)”在日語(yǔ)中有「蛋白質(zhì)」「蛋白」「タンパク」「たんぱく質(zhì)」「たん白質(zhì)」「ポロテイン」等詞形。為統(tǒng)一農(nóng)業(yè)術(shù)語(yǔ)以便于農(nóng)業(yè)信息系統(tǒng)之間的溝通交流,日本借助互聯(lián)網(wǎng)已發(fā)布多個(gè)電子版語(yǔ)料庫(kù)。2006年,農(nóng)研機(jī)構(gòu)(NARO)編集發(fā)行《農(nóng)業(yè)技術(shù)事典》,合并同義異形詞后共收錄作物栽培、土壤肥料、信息及經(jīng)營(yíng)、環(huán)境及農(nóng)業(yè)發(fā)展等10個(gè)專(zhuān)業(yè)領(lǐng)域的9 587個(gè)核心詞匯[1];2014年,內(nèi)閣府和IT綜合戰(zhàn)略本部資助設(shè)立通用農(nóng)業(yè)詞庫(kù)(CAVOC),已收錄567個(gè)基礎(chǔ)術(shù)語(yǔ)[2]。
日本學(xué)界探索了構(gòu)筑農(nóng)業(yè)科技術(shù)語(yǔ)庫(kù)的途徑或工具,包括開(kāi)發(fā)專(zhuān)業(yè)平臺(tái)將術(shù)語(yǔ)統(tǒng)一格式,便于識(shí)別與關(guān)聯(lián)或合并異形詞、同義詞,并通過(guò)網(wǎng)絡(luò)應(yīng)用程序接口(WebAPI)提供便捷的在線檢索服務(wù)[3];構(gòu)建農(nóng)業(yè)生產(chǎn)作業(yè)和作物的知識(shí)圖譜及領(lǐng)域知識(shí)圖,討論構(gòu)造過(guò)程中的關(guān)鍵技術(shù)[4]。多位學(xué)者關(guān)注日語(yǔ)農(nóng)業(yè)科技術(shù)語(yǔ)語(yǔ)料庫(kù)存在的問(wèn)題及對(duì)策,有的學(xué)者研究了日文版維基百科中農(nóng)業(yè)農(nóng)村信息化術(shù)語(yǔ)集的貢獻(xiàn)和特點(diǎn),提出了增強(qiáng)其安全性和便捷性的建議[5];有的課題組從數(shù)據(jù)共享和國(guó)際交流角度,論述了完善農(nóng)業(yè)作業(yè)和農(nóng)作物標(biāo)準(zhǔn)化術(shù)語(yǔ)體系的意義及途徑[6]。中國(guó)學(xué)者從翻譯學(xué)角度研究分析了適應(yīng)日語(yǔ)農(nóng)業(yè)科技術(shù)語(yǔ)語(yǔ)素、詞匯系統(tǒng)的構(gòu)成特點(diǎn),對(duì)等化漢譯的途徑及價(jià)值[7-8]。對(duì)日語(yǔ)農(nóng)業(yè)科技術(shù)語(yǔ)構(gòu)詞特點(diǎn)的研究較少,造成農(nóng)業(yè)科技新術(shù)語(yǔ)的構(gòu)詞特征未被準(zhǔn)確把握,影響及時(shí)推介到中國(guó)科研和生產(chǎn)中。作為一種跨平臺(tái)、開(kāi)源、語(yǔ)法簡(jiǎn)潔、功能強(qiáng)大的高級(jí)編程語(yǔ)言,Python在語(yǔ)料庫(kù)開(kāi)發(fā)、分詞、停用詞設(shè)定和詞頻統(tǒng)計(jì)等方面處理自然語(yǔ)言的功能與價(jià)值正得到學(xué)界認(rèn)可[9-10]。
綜合當(dāng)前文獻(xiàn),日本學(xué)者的研究偏向于借助信息技術(shù)推進(jìn)日語(yǔ)農(nóng)業(yè)科技術(shù)語(yǔ)的便捷規(guī)范應(yīng)用,涉及構(gòu)詞特征的文獻(xiàn)較少。中國(guó)學(xué)者對(duì)日語(yǔ)農(nóng)業(yè)科技術(shù)語(yǔ)庫(kù)構(gòu)詞的理論和實(shí)踐研究較為匱乏,未能從術(shù)語(yǔ)構(gòu)詞特征出發(fā)進(jìn)行深入拓展。為彌補(bǔ)這些缺憾,本文參考日本農(nóng)研機(jī)構(gòu)《農(nóng)業(yè)技術(shù)事典》等術(shù)語(yǔ)庫(kù)及專(zhuān)業(yè)文獻(xiàn),借助Python語(yǔ)言創(chuàng)建日語(yǔ)農(nóng)業(yè)科技語(yǔ)料庫(kù),結(jié)合作者在日本開(kāi)展智慧農(nóng)業(yè)等系列課題積累的研究經(jīng)驗(yàn),總結(jié)科技術(shù)語(yǔ)構(gòu)詞規(guī)則及趨勢(shì),助力準(zhǔn)確把握日本農(nóng)業(yè)科技動(dòng)向、增強(qiáng)中國(guó)農(nóng)業(yè)科技保障能力。
1 語(yǔ)料庫(kù)創(chuàng)建及主要構(gòu)成類(lèi)型
1.1 日語(yǔ)農(nóng)業(yè)科技術(shù)語(yǔ)語(yǔ)料庫(kù)的創(chuàng)建
進(jìn)入信息技術(shù)高度發(fā)達(dá)時(shí)代,建立語(yǔ)料庫(kù)及檢索系統(tǒng)、加快數(shù)字化已經(jīng)成為各類(lèi)語(yǔ)言研究的普遍選擇。當(dāng)前語(yǔ)言學(xué)文獻(xiàn)一般將語(yǔ)料庫(kù)定義為大規(guī)模電子文本數(shù)據(jù)庫(kù),主要特征包括構(gòu)建大樣本、引入數(shù)理統(tǒng)計(jì)及計(jì)算機(jī)手段量化充分描述共通性的語(yǔ)用趨勢(shì),即所謂“量、器、聚、用”[11],保障語(yǔ)料的代表性、權(quán)威性和系統(tǒng)性[9]。根據(jù)這些基本原則,本文將在線檢索電子資源與手工收集紙質(zhì)文獻(xiàn)相結(jié)合,構(gòu)筑了包括7404詞的日語(yǔ)農(nóng)業(yè)科技術(shù)語(yǔ)語(yǔ)料庫(kù)。首先通過(guò)在線檢索從《農(nóng)業(yè)技術(shù)事典》收集6 833詞、從日本通用農(nóng)業(yè)詞庫(kù)收集400詞,從多部日語(yǔ)農(nóng)學(xué)專(zhuān)著[12-15]中收集171詞。采用語(yǔ)料庫(kù)處理較為通行的做法,術(shù)語(yǔ)首先錄入和保存為xlsx格式文件,由Python讀取并分析詞形后將結(jié)果回傳保存,實(shí)現(xiàn)了提取術(shù)語(yǔ)文件形式的最佳選擇[9]。
1.2 日語(yǔ)農(nóng)業(yè)科技術(shù)語(yǔ)構(gòu)詞類(lèi)型劃分
發(fā)揮Python面向?qū)ο缶幊痰膬?yōu)勢(shì),封裝劃分術(shù)語(yǔ)構(gòu)詞類(lèi)型的判斷函數(shù)。遍歷單個(gè)術(shù)語(yǔ)中各個(gè)字符,根據(jù)其Unicode編碼所屬范圍用“a”“b”或“c”分別表示“字母”“假名”和“漢字”,然后放入設(shè)立的集合中去除重復(fù)代碼。遍歷單個(gè)術(shù)語(yǔ)后將類(lèi)型代碼排序并依次還原其含義,形成“假名+漢字”等整個(gè)術(shù)語(yǔ)的構(gòu)詞類(lèi)型,作為函數(shù)的返回值輸出。運(yùn)行主程序時(shí),首先導(dǎo)入處理和分析數(shù)據(jù)的pandas庫(kù),從xlsx格式文件導(dǎo)入語(yǔ)料庫(kù)數(shù)據(jù)。通過(guò)運(yùn)行代碼遍歷單個(gè)日語(yǔ)術(shù)語(yǔ),調(diào)用判斷函數(shù)確定構(gòu)詞類(lèi)型存入相應(yīng)列表。取完語(yǔ)料庫(kù)中所有術(shù)語(yǔ)后,借助pandas庫(kù)的數(shù)據(jù)框功能將列表轉(zhuǎn)化為語(yǔ)料庫(kù)的一列,從而實(shí)現(xiàn)對(duì)庫(kù)內(nèi)所有日語(yǔ)術(shù)語(yǔ)的詞形分類(lèi)(圖1)。
詞形分類(lèi)確定后,本文語(yǔ)料庫(kù)收錄的日語(yǔ)農(nóng)業(yè)科技術(shù)語(yǔ)包括表1所示的7種構(gòu)詞類(lèi)型。表中基于pandas庫(kù)的列聯(lián)分析顯示漢字共3 978字,占庫(kù)內(nèi)術(shù)語(yǔ)總量的53.7%,其他類(lèi)型按照詞數(shù)從多到少依次是假名、假名+漢字、字母、字母+漢字、字母+假名、字母+假名+漢字。在專(zhuān)業(yè)領(lǐng)域方面,參照《農(nóng)業(yè)技術(shù)事典》的分類(lèi)標(biāo)準(zhǔn)將術(shù)語(yǔ)劃分為10個(gè)專(zhuān)業(yè)領(lǐng)域并對(duì)庫(kù)內(nèi)術(shù)語(yǔ)逐個(gè)歸類(lèi),個(gè)別存在領(lǐng)域交叉的術(shù)語(yǔ)按照就近原則確定領(lǐng)域歸屬。各個(gè)領(lǐng)域中作物栽培術(shù)語(yǔ)最多,以2 902詞占庫(kù)內(nèi)術(shù)語(yǔ)總量的39.2%;其次是畜產(chǎn),以1 612詞占庫(kù)內(nèi)術(shù)語(yǔ)總量的21.8%。其他領(lǐng)域詞數(shù)從多到少依次是土壤肥料、病害雜草、信息及經(jīng)營(yíng)、氣象、設(shè)備及作業(yè)、育種及生物技術(shù)、食品;環(huán)境及農(nóng)業(yè)發(fā)展領(lǐng)域術(shù)語(yǔ)最少,以45詞僅占庫(kù)內(nèi)術(shù)語(yǔ)總量的0.6%。可見(jiàn),語(yǔ)料庫(kù)內(nèi)術(shù)語(yǔ)在構(gòu)詞和專(zhuān)業(yè)性上都具有較為廣泛的代表性。按照漢字、假名、英文字母三種文字形式的組合形式,可在上述7類(lèi)日語(yǔ)農(nóng)業(yè)科技術(shù)語(yǔ)基礎(chǔ)上進(jìn)一步細(xì)分其構(gòu)詞特征。
1)漢字詞匯。具體又分為兩大類(lèi)。一是與中文繁體、簡(jiǎn)體或異體漢字的詞形詞義基本相同。例如「有機(jī)農(nóng)業(yè)」(有機(jī)農(nóng)業(yè))中使用了3個(gè)繁體漢字,「高圧殺菌」、「牛海綿狀脳癥」中出現(xiàn)了異體字「圧」、「脳」和繁體字「殺」、「綿」,「口蹄疫」則與中文簡(jiǎn)體漢字完全相同。另一種情況是日語(yǔ)與中文詞匯的字序顛倒,例如「交雑」與“雜交”、「花成」與“成花”。有的詞匯存在同義簡(jiǎn)略形式。例如「色彩選別機(jī)」也作「色選機(jī)」,表示利用可見(jiàn)光、近紅外光反射光及透射光的差異識(shí)別不良谷物顆粒及異物的機(jī)器。二是與中文漢字詞形或詞義差異較大。例如,「生育診斷」指對(duì)作物生長(zhǎng)情況的診斷,其中「生育」與中文側(cè)重于“孕育并分娩胎兒或繁殖后代”的詞義相去甚遠(yuǎn);「苗代」(苗床)、「篩部」(韌皮部)等與現(xiàn)代漢語(yǔ)對(duì)應(yīng)用字差異很大,普通中國(guó)讀者難以直接理解其含義。本文語(yǔ)料庫(kù)中,字形或詞義與中文存在較大差異的漢字詞匯占7.7%。
2)假名詞匯。首先是從英文轉(zhuǎn)換過(guò)來(lái)的詞匯,例如「アミロース」(直鏈淀粉)、「クローン」(克?。ⅰ弗偿螗啸ぅ蟆梗?lián)合收購(gòu)機(jī))分別來(lái)自英文詞匯“amylose”“clone”“combine”。存在同一假名詞匯對(duì)應(yīng)不同英文單詞和含義的情況。例如,畜產(chǎn)領(lǐng)域「ルーメン」的英文是“rumen”,意為反芻動(dòng)物的第一個(gè)胃(瘤胃),在表示光流量單位“流明”時(shí)則對(duì)應(yīng)“l(fā)umen”。其次,有些詞匯起源于歐美其他語(yǔ)言,例如「ゲノム」(基因組)源于德語(yǔ)“genom”。有些農(nóng)作物新品種則使用表示日語(yǔ)漢字讀音的“振假名”命名,例如「コシヒカリ」是日本播種面積最大的水稻品種“越光”。
3)假名+漢字詞匯。有些詞的順序就是“先漢字后假名”,例如「光センサー」(光學(xué)遙感器)就是由漢字「光」和假名「センサー」(sensor)組合而成。有些詞匯的構(gòu)詞順序則是“先假名后漢字”,例如「セルトレイは種」(穴盤(pán)育苗)是英文“cell tray”和漢字「播種」的結(jié)合,其中「播」字使用了假名「は」。有些詞匯使用了提示辨別漢字讀音的“送假名”,例如「枝変わり」(枝變異,即植物體部分枝條表現(xiàn)出異常遺傳性狀)。此類(lèi)詞匯中還包括在漢字和假名基礎(chǔ)上構(gòu)建的簡(jiǎn)略詞,例如「搾ロボ」是「搾乳ロボット」(擠奶機(jī)器人)的略稱(chēng)。有些詞匯也有變形為其他類(lèi)型的寫(xiě)法,例如「浮き皮」(果肉與果皮之間出現(xiàn)空隙的現(xiàn)象)也可以去掉中間的假名寫(xiě)成全漢字的「浮皮」,「無(wú)人ヘリコプタ」(無(wú)人直升機(jī))可略寫(xiě)為「無(wú)人ヘリ」,「ロボット技術(shù)」(機(jī)器人技術(shù))也寫(xiě)成平假名「ロボティクス」或英文縮寫(xiě)「RT」。
4)字母詞匯。多以縮寫(xiě)表示農(nóng)業(yè)信息、新型生產(chǎn)養(yǎng)殖技術(shù)。例如,「IPM」的全拼是“Integrated pest management”(有害生物綜合治理);「TMR」是“Total mixed ration”(全混合日糧)的縮寫(xiě),指一種混合礦物質(zhì)、維生素等提供均衡營(yíng)養(yǎng)的飼料。有些字母縮寫(xiě)可以根據(jù)其讀音寫(xiě)成假名,如「FOAES」(地下水位控制系統(tǒng))也作「フォアス」。
5)字母+漢字詞匯。多是“先字母后漢字”,如「MA貯蔵」(自發(fā)氣調(diào)儲(chǔ)藏)中使用了“Modified atmosphere”的縮寫(xiě),「F1品種」表示不同親本生物雜交產(chǎn)生的第1個(gè)子代。少量詞匯是“先漢字后字母”(如「內(nèi)生GA」,內(nèi)源性赤霉素)或字母嵌在漢字中間(如「不耕起V溝直播機(jī)」,免耕V溝直播機(jī))。有些字母表示漢字的羅馬字讀音。例如,「WAGRI」是農(nóng)林水產(chǎn)省牽頭建造、2019年投入運(yùn)行的農(nóng)業(yè)數(shù)據(jù)協(xié)作平臺(tái),其中「WA」是「和」「輪」或「環(huán)」對(duì)應(yīng)假名「わ」的讀音,「AGRI」是“agriculture”的略寫(xiě),寓意該平臺(tái)閉環(huán)連接各類(lèi)數(shù)據(jù)和服務(wù)、是驅(qū)動(dòng)推動(dòng)農(nóng)業(yè)和諧發(fā)展的車(chē)輪。
6)字母+假名詞匯。主要以“先字母后假名”的形式表示畜產(chǎn)、信息及經(jīng)營(yíng)等領(lǐng)域技術(shù),例如「DNAマーカー」(DNA標(biāo)記)、「ICチップ」(集成電路)、「Webマーケティング」(網(wǎng)絡(luò)營(yíng)銷(xiāo))。也有個(gè)別詞匯是“先假名后字母”,如「イネWCS」(稻谷發(fā)酵粗飼料)。
7)字母+假名+漢字詞匯。本文語(yǔ)料庫(kù)中此類(lèi)術(shù)語(yǔ)最少,主要涉及畜產(chǎn)、育種及生物技術(shù)、農(nóng)業(yè)經(jīng)營(yíng)管理等領(lǐng)域,例如「BSEサーベイランス事業(yè)」(瘋牛病篩查工程)、「キラーT細(xì)胞」(殺傷T細(xì)胞)、「e-むらづくり計(jì)畫(huà)」(e-鄉(xiāng)村計(jì)劃)等。
2 日語(yǔ)農(nóng)業(yè)科技術(shù)語(yǔ)的構(gòu)詞特點(diǎn)及動(dòng)向
2.1 日語(yǔ)農(nóng)業(yè)科技術(shù)語(yǔ)構(gòu)詞的主要特點(diǎn)
1)不同領(lǐng)域與構(gòu)詞類(lèi)型間術(shù)語(yǔ)交叉分布的顯著性檢驗(yàn)。從Scipy庫(kù)中調(diào)用chi2_contingency函數(shù),結(jié)果顯示P值小于0.01說(shuō)明應(yīng)當(dāng)舍棄原假設(shè),即表1中專(zhuān)業(yè)領(lǐng)域與類(lèi)型間術(shù)語(yǔ)的交叉分布具有統(tǒng)計(jì)學(xué)上的顯著意義。利用pandas庫(kù)的列聯(lián)分析模塊,從縱橫兩個(gè)維度分別考查各類(lèi)型術(shù)語(yǔ)在專(zhuān)業(yè)領(lǐng)域間的分布、各專(zhuān)業(yè)領(lǐng)域內(nèi)部不同構(gòu)詞類(lèi)型的構(gòu)成。整體來(lái)看,技術(shù)內(nèi)生性強(qiáng)、具有地域特色的領(lǐng)域較多使用漢字和假名,而新型技術(shù)密集的領(lǐng)域則多用字母。作物栽培領(lǐng)域漢字、假名詞匯的比重最大,字母術(shù)語(yǔ)在信息及經(jīng)營(yíng)領(lǐng)域的比重僅次于畜產(chǎn);字母術(shù)語(yǔ)占比最高的是信息及經(jīng)營(yíng),病害雜草等,漢字、假名術(shù)語(yǔ)占比最高的分別是氣象、病蟲(chóng)雜草。
2)漢字和假名是農(nóng)業(yè)科技術(shù)語(yǔ)的基本構(gòu)成要素。在本語(yǔ)料庫(kù)收錄的7類(lèi)術(shù)語(yǔ)中,漢字詞匯占53.7%,加上其與假名、字母的多種組合,包含漢字的詞匯占比達(dá)75.4%,即完全不包含漢字的詞匯低于25%。假名詞匯占20.9%,再加上其與漢字、字母的多種組合,包含假名的詞匯共占41.7%;包括與漢字、假名的組合,包含字母的詞匯合計(jì)僅占5.1%。這樣的構(gòu)詞結(jié)構(gòu)為中文母語(yǔ)者了解日本農(nóng)業(yè)科技動(dòng)向提供了便利。
3)新型科技詞匯中同一詞義的假名、英文字母與漢字多詞形并存現(xiàn)象值得關(guān)注。例如「ドローン」、「AUV」(Unmanned aerial vehicle)和「無(wú)人航空機(jī)」都表示用于農(nóng)田勘測(cè)、噴灑農(nóng)藥、導(dǎo)航等的無(wú)人機(jī);「WCS」是“Whole crop silage”的縮寫(xiě),與「ホールクロップサイレージ」、「発酵粗飼料」都表示作物全株飼料。需要開(kāi)發(fā)功能完備的語(yǔ)料庫(kù),以減少給檢索引擎和推廣應(yīng)用帶來(lái)的困擾。
2.2 日語(yǔ)農(nóng)業(yè)科技術(shù)語(yǔ)新詞及構(gòu)詞動(dòng)向
參照日本科技信息集成系統(tǒng)J-STAGE(https://www.jstage.jst.go.jp)期刊學(xué)術(shù)論文、《農(nóng)業(yè)技術(shù)事典》、相關(guān)專(zhuān)著以及作者積累的專(zhuān)業(yè)經(jīng)驗(yàn),在本文語(yǔ)料庫(kù)中選取了新術(shù)語(yǔ)500詞,反映20世紀(jì)90年代以后研發(fā)或普及的農(nóng)業(yè)新技術(shù)、新概念。為直觀分析日語(yǔ)農(nóng)業(yè)科技術(shù)語(yǔ)構(gòu)詞特征的變動(dòng)趨勢(shì),導(dǎo)入Python的數(shù)據(jù)可視化工具matplotlib庫(kù),繪制的全語(yǔ)料庫(kù)及新詞庫(kù)中各類(lèi)型術(shù)語(yǔ)分布對(duì)比如圖2所示。與語(yǔ)料庫(kù)全體詞匯相比較,新詞庫(kù)中漢字詞匯由53.7%大幅降至24.2%,其余類(lèi)型詞匯占比都有所增加。按照增幅由大到小依次是字母、假名+漢字、字母+漢字、假名、字母+假名、字母+假名+漢字。漢字類(lèi)詞匯(假名+漢字、漢字、字母+漢字、字母+假名+漢字)合計(jì)占60.8%,比全庫(kù)下降14.6個(gè)百分點(diǎn);假名類(lèi)詞匯(漢字+假名、假名、字母+假名、字母+漢字+假名)占比55.4%,比全庫(kù)上升13.7個(gè)百分點(diǎn);字母類(lèi)詞匯(字母、字母+漢字、字母+假名、字母+漢字+假名)合計(jì)占22.6%,比全庫(kù)上升17.4個(gè)百分點(diǎn)。說(shuō)明日語(yǔ)科技新術(shù)語(yǔ)中漢字詞匯占比減少、其他各類(lèi)型特別是字母詞匯占比增加。例如,在新興的農(nóng)業(yè)信息領(lǐng)域「機(jī)械學(xué)習(xí)」(機(jī)器學(xué)習(xí))這樣的漢字術(shù)語(yǔ)較少,諸如「深層學(xué)習(xí)」(深度學(xué)習(xí))的漢字形式較少出現(xiàn)在文獻(xiàn)中,其片假名形式「ディープラーニング」更為常見(jiàn)。這樣的發(fā)展趨勢(shì),體現(xiàn)了日本近年來(lái)更加重視學(xué)習(xí)引進(jìn)歐美主導(dǎo)的農(nóng)業(yè)信息及經(jīng)營(yíng)、農(nóng)作物栽培前沿等領(lǐng)域前沿科學(xué)技術(shù),減少與國(guó)外科技交流的文字障礙。漢字詞匯比重降低,也要求構(gòu)建高質(zhì)量語(yǔ)料庫(kù)以準(zhǔn)確把握術(shù)語(yǔ)的構(gòu)詞特征。
2.3 停用詞設(shè)置及高頻語(yǔ)素分析
體現(xiàn)Python在語(yǔ)料庫(kù)分析中的優(yōu)勢(shì),還可以導(dǎo)入日語(yǔ)分詞庫(kù)提取和分析術(shù)語(yǔ)中高頻字詞,借以把握農(nóng)業(yè)科技的發(fā)展動(dòng)向。自然語(yǔ)言處理庫(kù)nltk已經(jīng)提供了中、英、法、俄等29種語(yǔ)言的停用詞(Stop-words),用于統(tǒng)計(jì)時(shí)去除“的、是、很、the、of”等無(wú)實(shí)際含義的詞匯,但是該庫(kù)尚未提供日語(yǔ)停用詞。
本文根據(jù)日語(yǔ)農(nóng)業(yè)科技術(shù)語(yǔ)專(zhuān)業(yè)領(lǐng)域即構(gòu)詞特征,預(yù)先設(shè)定停用詞用以排除各個(gè)術(shù)語(yǔ)中專(zhuān)業(yè)指向性模糊的漢字、假名等語(yǔ)素及數(shù)字、標(biāo)點(diǎn)符號(hào)。程序開(kāi)始首先導(dǎo)入處理自然語(yǔ)言的nltk庫(kù)、日語(yǔ)分詞庫(kù),從xlsx格式文件導(dǎo)入語(yǔ)料庫(kù)數(shù)據(jù)。然后,編寫(xiě)代碼遍歷語(yǔ)料庫(kù)中日語(yǔ)術(shù)語(yǔ)將其合并為1個(gè)字符串,排除設(shè)定的停用詞后調(diào)用分詞庫(kù)生成語(yǔ)素列表。最后調(diào)用nltk庫(kù)中的FreqDist函數(shù)分析和展示關(guān)鍵字詞的分布頻數(shù)并繪制曲線。以使用SudachiPy庫(kù)分析育種及生物技術(shù)領(lǐng)域漢字類(lèi)型的新詞為例,設(shè)定的停用詞包括“不”“性”“法”“的”“系”“系統(tǒng)”“技術(shù)”“·”,運(yùn)行結(jié)果如圖3所示。
納入分析的31個(gè)術(shù)語(yǔ)中,高頻語(yǔ)素包括出現(xiàn)10次的「遺伝子」、出現(xiàn)4次的「培養(yǎng)」、出現(xiàn)3次的「地図」(圖譜)、「染色體」。以小規(guī)模精耕細(xì)作為特色的日本農(nóng)業(yè),重視研發(fā)與應(yīng)用育種及生物技術(shù)改良動(dòng)植物品性。例如,1994年構(gòu)建水稻基因組遺傳圖譜,促進(jìn)了染色體上基因排列測(cè)定和標(biāo)記技術(shù)的迅猛發(fā)展;2006年利用「培養(yǎng)変異」(體細(xì)胞無(wú)性系變異)品種“北海287號(hào)”,培育了低直鏈淀粉、口感良好的轉(zhuǎn)基因水稻品種“朧月”[13]。
3 結(jié)語(yǔ)與展望
Python為語(yǔ)料庫(kù)開(kāi)發(fā)提供了函數(shù)、專(zhuān)業(yè)庫(kù)等開(kāi)放高效的工具,在同類(lèi)研究應(yīng)用中的開(kāi)發(fā)空間廣闊。本文創(chuàng)建的語(yǔ)料庫(kù)涵蓋7 404個(gè)日語(yǔ)農(nóng)業(yè)科技術(shù)語(yǔ),覆蓋作物栽培、土肥、病害、畜產(chǎn)、氣象、育種、信息、環(huán)境、經(jīng)管等專(zhuān)業(yè)領(lǐng)域,包括了漢字、假名和字母等多種文字組合的構(gòu)詞方式。交叉分布顯著性的卡方檢驗(yàn)證實(shí),專(zhuān)業(yè)領(lǐng)域與構(gòu)詞類(lèi)型間術(shù)語(yǔ)的交叉分布具有統(tǒng)計(jì)顯著性;新術(shù)語(yǔ)中漢字依然是主要構(gòu)詞要素但比重大幅下降,假名和字母詞匯比重顯著上升,構(gòu)詞類(lèi)型將更加復(fù)雜、凸顯構(gòu)建高質(zhì)量語(yǔ)料庫(kù)的重要意義。由于日語(yǔ)農(nóng)業(yè)科技術(shù)語(yǔ)具有學(xué)科交叉屬性,本文研究結(jié)論對(duì)于把握日語(yǔ)科技術(shù)語(yǔ)的整體構(gòu)詞特點(diǎn)也具有參考價(jià)值。適應(yīng)科技語(yǔ)言與人工智能和數(shù)字技術(shù)加速融合的大趨勢(shì),后續(xù)研究可借助Python功能豐富強(qiáng)大的開(kāi)源自然語(yǔ)言處理庫(kù)和函數(shù)資源,拓展語(yǔ)料檢索、近義詞關(guān)聯(lián)、同義詞歸并以及上下文關(guān)鍵詞檢索(KWIC)和提取,通過(guò)分析語(yǔ)篇中詞匯出現(xiàn)頻度、驗(yàn)證新術(shù)語(yǔ)選擇的合理性。通過(guò)深化對(duì)日語(yǔ)農(nóng)業(yè)科技術(shù)語(yǔ)構(gòu)詞特征的挖掘,及時(shí)準(zhǔn)確地把握和借鑒日本農(nóng)業(yè)科技成果,不斷增強(qiáng)中國(guó)實(shí)現(xiàn)農(nóng)業(yè)現(xiàn)代化和建設(shè)農(nóng)業(yè)強(qiáng)國(guó)的科技保障能力。
參考文獻(xiàn):
[1] 農(nóng)研機(jī)構(gòu).農(nóng)業(yè)技術(shù)事典[DB/OL]. [2023-12-18]. http://lib.ruralnet.or.jp/nrpd.
[2] 共通農(nóng)業(yè)語(yǔ)?。r(nóng)作業(yè)基本オントロジー[DB/OL]. (2021-08-02) [2023-12-20]. http://cavoc.org/aao.html.
[3] 長(zhǎng)井正彥,大平亙,小野雅史,等[J].農(nóng)業(yè)情報(bào)の相互流通性を支援するためのオントロジー構(gòu)築ツールの開(kāi)発.農(nóng)業(yè)情報(bào)研究,2017, 26(2): 27-33.
[4] 朱成敏,小出誠(chéng)二,武田英明,等.農(nóng)業(yè)データの連攜における農(nóng)作業(yè)の標(biāo)準(zhǔn)語(yǔ)彙體系の構(gòu)築[J].農(nóng)業(yè)情報(bào)研究,2019, 28(3): 143-156.
[5] 関勝壽,溝口勝.Wikiによる農(nóng)業(yè)農(nóng)村情報(bào)用語(yǔ)集システム[J].農(nóng)業(yè)農(nóng)村工學(xué)會(huì)誌, 2014, 80(1): 3-6.
[6] 朱成敏,武田英明,鄧東波,等.國(guó)際相互運(yùn)用性を考慮した農(nóng)作物語(yǔ)彙體系の拡張[C].第34回日本人工知能學(xué)會(huì)全國(guó)大會(huì)論文集,2020, 2H1-OS-21-01: 1-4.
[7] 李紅,盧冬麗,王薇.現(xiàn)代農(nóng)科術(shù)語(yǔ)日漢翻譯對(duì)等模式再探討[J].中國(guó)科技術(shù)語(yǔ),2014(5):33-37.
[8] 李紅,夏建新,盧冬麗.農(nóng)業(yè)科技日語(yǔ)術(shù)語(yǔ)漢譯適應(yīng)化現(xiàn)象分析[J].中國(guó)科技術(shù)語(yǔ),2016,18(2):38-42.
[9] 管新潮.語(yǔ)料庫(kù)與Python應(yīng)用[M].上海:上海交通大學(xué)出版社,2018:2-7.
[10] 後藤功雄.自然言語(yǔ)処理のためのPython[J].映像情報(bào)メディア學(xué)會(huì)誌,2018,72(11): 125-128.
[11] 許家金.語(yǔ)料庫(kù)研究學(xué)術(shù)源流考[J].外語(yǔ)教學(xué)與研究,2017,49(1):51-63.
[12] 農(nóng)業(yè)情報(bào)學(xué)會(huì).新スマート農(nóng)業(yè)―進(jìn)化する農(nóng)業(yè)情報(bào)利用―[M].東京:農(nóng)林統(tǒng)計(jì)出版,2019: 494-500.
[13] 大日本農(nóng)會(huì).平成農(nóng)業(yè)技術(shù)史[M].東京:農(nóng)文協(xié),2019: 522-545.
[14] 三輪泰史、井熊均、木通秀樹(shù).アグリカルチャー4.0時(shí)代の農(nóng)村DX革命[M].東京:日刊工業(yè)新聞社,2019.
[15] 南石晃明.デジタル·ゲノム革命時(shí)代の農(nóng)業(yè)イノベーション[M].東京:農(nóng)林統(tǒng)計(jì)出版,2022: 315-320.
【通聯(lián)編輯:李雅琪】