儲小靜
(常州大學周有光文學院,江蘇常州,213159)
中文信息處理作為應用語言學一大重要分支,目前處于句處理攻堅階段[1]。復句作為連接小句與篇章的橋梁,在真實文本中出現(xiàn)頻率很高,是重難點所在。學者們結(jié)合語言學知識和數(shù)據(jù)挖掘技術(shù)豐富了相關(guān)應用研究(劉云,2009;胡金柱,2010;Yang等,2017;Wang等,2020;Li等,2020)。
復句層次關(guān)系劃分究其實質(zhì)是對分句語義關(guān)聯(lián)度的計算,體現(xiàn)了復句內(nèi)部不同層級意義的相對完整性[2]。這一計算過程較為復雜,離不開對重要抓手——關(guān)聯(lián)標記的探討[3]。學界對此展開了系統(tǒng)研究。陸丙甫、金立鑫(1988)基于關(guān)聯(lián)標記的“論域”概念,描寫偏正復句內(nèi)部高低層級間嵌套關(guān)系。王維賢(1994)借助顯性關(guān)聯(lián)標記,以計分法測算九種條件復句(69種格式)間嵌套關(guān)系。周剛(2002)沿用此思路,對表聯(lián)合、偏正關(guān)系的關(guān)聯(lián)連詞包孕機制展開探討,并用關(guān)聯(lián)標記的句法、語義特征加以理論解釋。
在層次關(guān)系自動劃分應用層面,關(guān)聯(lián)標記這一形式特征依然重要。魯松等(2001)構(gòu)建句法分析器,針對關(guān)聯(lián)標記進行確定性移進—歸約操作。劉云提出關(guān)系標記的“臨近原則”“前者前則優(yōu)先,后者后則優(yōu)先”(2005)和關(guān)聯(lián)標記的“離析度”概念(2008),重視關(guān)聯(lián)標記的音節(jié)形式、位置前后及數(shù)量多少(2009)。吳鋒文先后總結(jié)4種二標三句式(2012)、4種一標三句式(2013)、14種二標四句式(2017)、50種四句式(2017)和18種充盈態(tài)三標四句式(2020)的關(guān)聯(lián)標記聯(lián)結(jié)序列,制定出相應的句法語義判定規(guī)則,并提取出若干制約規(guī)則與優(yōu)先序規(guī)則(2019)。李源等(2017)提倡一種基于語義分析與關(guān)系搭配相結(jié)合的層次分析融合模型,一定程度上提升了識別準確率。楊進才等(2021)融合關(guān)聯(lián)標記特征,利用深度學習模型Rm-transformer實現(xiàn)二句式因果復句的自動標識。
這些研究充實了關(guān)聯(lián)標記嵌套力專題分析,全面翔實。“關(guān)聯(lián)標記嵌套力”是指復句中關(guān)聯(lián)標記嵌套分句結(jié)構(gòu)的能力,關(guān)聯(lián)標記的嵌套力越強,轄域越寬。二重有標三分句的嵌套受分句總量限制,表現(xiàn)在語言結(jié)構(gòu)上多為單個關(guān)聯(lián)標記嵌套其所處分句與相鄰分句構(gòu)成的小句關(guān)聯(lián)體。本文將所有與關(guān)聯(lián)標記有關(guān)的嵌套要素統(tǒng)一視為關(guān)聯(lián)標記嵌套力。事實上,影響關(guān)聯(lián)標記嵌套力的因素共六類十三種,但并非所有因素均同等重要。為此,本文借助自建的包含2092條二重有標三分句語料的關(guān)聯(lián)標記嵌套力影響因素分析語料庫,引入信息量模型、K-means聚類算法、CART算法、scikit-learn工具包等技術(shù)方法,考察常見的六類十三種影響因素,以期得到嵌套因素的綜合重要性排名,以回答規(guī)則效用重要性問題。
音節(jié)在人類語言中普遍存在,指語感上能從語流中分離出的最自然、最小的發(fā)音單位和聽覺單位。漢語以音節(jié)為基本的表意單位。二重有標三分句中關(guān)聯(lián)標記的音節(jié)形式眾多,包含單音節(jié)、雙音節(jié)、三音節(jié)、四音節(jié)、五音節(jié)和六音節(jié)。其中,雙音節(jié)關(guān)聯(lián)標記在數(shù)量上占有絕對優(yōu)勢(占比56.09%),從嵌套概率來看,雙音節(jié)關(guān)聯(lián)標記比其他音節(jié)類型的關(guān)聯(lián)標記要大得多。
從語法特征來看,單音節(jié)關(guān)聯(lián)標記受音節(jié)所限,承載的信息意義不足,多數(shù)須成對使用,強整體性、高凝固性和低離析度使其嵌套能力不如雙音節(jié)。而三音節(jié)、四音節(jié)、五音節(jié)和六音節(jié)關(guān)聯(lián)標記的“詞類”多是超詞形式,使用位置固定,語義、句法限制條件多,相比之下雙音節(jié)更為靈活,嵌套能力也更強。如例(1)為雙音節(jié)關(guān)聯(lián)標記對嵌套單音節(jié)關(guān)聯(lián)標記對,高層語義關(guān)系是“因為……所以……”構(gòu)成的因果關(guān)系,低層語義關(guān)系為“既……也……”組配的并列關(guān)系。后者的意義和形式結(jié)合得非常緊密,窮盡語料庫也很難發(fā)現(xiàn)中間插入其他關(guān)聯(lián)成分。
(1)就因為我們既不是仇敵,也不是朋友,所以我才信任你。(《陸小鳳傳奇》)
從韻律學角度看,漢語最基本的音步是兩個音節(jié)[4],雙音節(jié)關(guān)聯(lián)標記正是標準的韻律詞。不同于雙音步的普適性,其他類型的音步(單音節(jié)關(guān)聯(lián)標記稱為蛻化音步,三音節(jié)關(guān)聯(lián)標記為超音步,四字串關(guān)聯(lián)標記是兩個音步的組合,五音節(jié)、六音節(jié)關(guān)聯(lián)標記由標準韻律詞和超韻律詞組成)與特定句法環(huán)境、語用條件相牽連。這同樣證明雙音節(jié)關(guān)聯(lián)標記的嵌套用法更為自由。
1.關(guān)聯(lián)標記所處分句的位次
二重有標三分句中,關(guān)聯(lián)標記所處分句的位次有三種:初始分句、中位分句、末尾分句。語言符號的線條性決定了書面語中漢字的書寫順序先左后右,關(guān)聯(lián)標記管轄的分句范圍也為右向性。當關(guān)聯(lián)標記所處分句為初始分句或中位分句且管控范圍為兩個分句時,關(guān)聯(lián)標記嵌套所管控的小句關(guān)聯(lián)體,此關(guān)聯(lián)標記聯(lián)結(jié)的為高層結(jié)構(gòu),嵌套力最強。而當關(guān)聯(lián)標記管控范圍為一個分句時,復句的嵌套分析較為復雜,要結(jié)合搭配對象綜合考慮——若搭配對象嵌套小句關(guān)聯(lián)體,此關(guān)聯(lián)標記標示高層語義關(guān)系;否則,標示低層語義關(guān)系。
2.關(guān)聯(lián)標記與主語的相對位置
結(jié)合王維賢(1994)對關(guān)聯(lián)詞語放置位置的分析,二重有標三分句中主語與關(guān)聯(lián)標記的相對位置有四種:關(guān)聯(lián)標記都在主語前、關(guān)聯(lián)標記都在主語后、關(guān)聯(lián)標記與主語一前一后、關(guān)聯(lián)標記位于句首。
若主語先于關(guān)聯(lián)標記出現(xiàn),其管轄范圍大多超出所在分句,右向管轄。轄域內(nèi)的分句因陳述對象連貫和諧、前后過渡自然,語義關(guān)系上更緊密,更易形成小句關(guān)聯(lián)體。若主語位于關(guān)聯(lián)標記之后且異于后分句主語,關(guān)聯(lián)標記管控范圍傾向于僅限當前分句。若主語位于關(guān)聯(lián)標記之后但與后分句主語一致,關(guān)聯(lián)標記管控范圍須結(jié)合前后景信息進行綜合判定。這與劉云(2008)的結(jié)論“能在主語前面的復句關(guān)系詞語當然比僅位于主語后面的關(guān)系詞語的離析度高”[5]是一致的。
3.連用的關(guān)聯(lián)標記相互位置
連用式二重有標三分句中,兩個連用關(guān)聯(lián)標記的相對位置具有標示價值,先后配列一定程度上決定嵌套復句層次識別的優(yōu)先序??筛爬椤扒罢吆髢?yōu)先原則”和“后者后優(yōu)先原則”。
“前者后優(yōu)先原則”指兩個既不同義、搭配對象亦不同的關(guān)聯(lián)標記處于同一個分句中時,句法位置靠前的關(guān)聯(lián)標記傾向于嵌套后邊的關(guān)聯(lián)標記。由于成年人平均記憶容量僅三到五塊(Cowan,2001),受前攝干擾(proactive interference)的影響,語言結(jié)構(gòu)中較難處理的部分嵌套較容易的部分[6]更符合人類認知心理操作策略。體現(xiàn)在二重有標三分句中,高層結(jié)構(gòu)的語義內(nèi)容、語法結(jié)構(gòu)、語用特征都更復雜,與內(nèi)嵌結(jié)構(gòu)所表達的核心相比,最外層的引領(lǐng)性關(guān)聯(lián)標記距離核心較遠。當各自代表的關(guān)聯(lián)標記出現(xiàn)在同一分句中,引領(lǐng)高層結(jié)構(gòu)的關(guān)聯(lián)標記更容易外置于引領(lǐng)低層結(jié)構(gòu)的關(guān)聯(lián)標記前[7],書面語中則居于更左邊的位置。持類似看法的還有張誼生(1996)、張文賢(2007)、吳鋒文(2010)、陸丙甫(2015)等。如例(2)假設(shè)標“如果”在原因標“因為”的左邊,位置偏右的關(guān)聯(lián)標記“因為”引領(lǐng)的分句與后分句優(yōu)先形成因果型小句關(guān)聯(lián)體,再被左邊的“如果”嵌套。
(2)股東如果因為特殊原因,想在股票上市后將股票轉(zhuǎn)入在其他證券商處開立的賬戶上,則只須到港澳證券柜臺填寫轉(zhuǎn)托管申請書即可辦理轉(zhuǎn)托管手續(xù)。(1994年報刊精選)
當然,個別二重有標三分連用式復句遵從“后者后優(yōu)先原則”,即兩個既不同義、搭配對象亦不同的關(guān)聯(lián)標記處在同一分句中時,句法位置靠后的關(guān)聯(lián)標記傾向于嵌套其前邊的關(guān)聯(lián)標記。這條原則多用來處理并列關(guān)系、遞進關(guān)系或選擇關(guān)系與因果關(guān)系、求得式目的關(guān)系、假設(shè)關(guān)系、條件關(guān)系以及讓步關(guān)系組合而成的二重復句,并且相鄰分句大多出現(xiàn)相同的關(guān)聯(lián)標記。如下例二、三分句的遞進標“既”“更”均在相同的原因標“因為”的前面,優(yōu)先規(guī)約為遞進型小句關(guān)聯(lián)體,原因標在語義上管轄著它們,前后聯(lián)結(jié)成復句的高層結(jié)構(gòu)。
(3)椿樹園在京城可出了名,既因為今昔變遷,更因為椿樹園為北京申奧做出過特殊貢獻。(新華社2002年9月新聞報道)
學界普遍認可的復句關(guān)聯(lián)標記有四種:連詞、副詞、助詞和超詞形式。大量語料觀察發(fā)現(xiàn),介詞作為顯著的形式標志可以幫助標示連接成分間的句法語義關(guān)系,是句法、語義及語用三個平面的綜合體。而部分動詞(如“看來、想來”)經(jīng)歷了語義虛化、功能語法化的過程,向著情態(tài)副詞虛化演變,同樣可以標明連接成分間的句法語義關(guān)系。為提高覆蓋面、避免收錄缺漏,本文將關(guān)聯(lián)標記的范圍擴充為六種。
其中,跨語法單位的超詞形式按照結(jié)構(gòu)大致分為帶“說”類(李晉霞、劉云,2009)、帶“是”類、組合類和其他關(guān)聯(lián)性成分四種,多可拆解為連詞或副詞與別的詞的組合;動、介、助詞數(shù)量較少,一般也不嵌套其他關(guān)聯(lián)標記;關(guān)聯(lián)連詞和關(guān)聯(lián)副詞比重之和則超過60%,占絕對優(yōu)勢。相較之下,關(guān)聯(lián)連詞本身語義是確定的,在句法允許的前提下,可以去掉其中一個并保持句法語義關(guān)系的原貌;且關(guān)聯(lián)連詞與分句的嵌套關(guān)系親密,難以省略。因而連詞的關(guān)聯(lián)強度是最強的,嵌套力也最大。
二重復句表達的意義事件復雜,其內(nèi)部構(gòu)成要素——每一基本的語義單元以分句的形式顯現(xiàn),語義單元的推進正是復句結(jié)構(gòu)由低層向高層、由單重向多重的擴張。周剛(2002)認為虛詞也可以分析語義特征,對嵌套現(xiàn)象研究亦有助益?;诖耍疚目偨Y(jié)出五組和關(guān)聯(lián)標記嵌套力有關(guān)的語義特征因素。
(1)關(guān)聯(lián)標記引領(lǐng)的分句表既成事實,具有已然性——推斷標、實讓標;關(guān)聯(lián)標記引領(lǐng)的分句表未成事實,具有未然性——假設(shè)標、條件標、總讓標、忍讓標、虛讓標;關(guān)聯(lián)標記引領(lǐng)的分句既可以表已然也可以表未然——原因標。
一般情況下,具有已然性語義特征的關(guān)聯(lián)標記嵌套力強于具有未然性語義特征的關(guān)聯(lián)標記。這既是邏輯學上的要求,也符合語用學“合作原則”之“質(zhì)量準則”(Quantity Maxim)。語義特征都具有[+未然性]的關(guān)聯(lián)標記間亦可相互嵌套,而具有[±已然性]的關(guān)聯(lián)標記因其內(nèi)涵外延寬廣,屬于全論域,嵌套力則僅次于[+已然性]關(guān)聯(lián)標記。
(2)關(guān)聯(lián)標記引領(lǐng)的分句標明特定條件,具有特定性——假設(shè)標、條件標、目的標;關(guān)聯(lián)標記引領(lǐng)的分句表示無定條件,具有自由性——選擇標、總讓標。
一般情況下,具有特定性語義特征的關(guān)聯(lián)標記嵌套力強于具有自由性語義特征的關(guān)聯(lián)標記。邏輯語義上,具有[+特定性]的關(guān)聯(lián)標記層次高于具有[+自由性]的關(guān)聯(lián)標記,前者可以制約后者,二者位置很難顛倒。語用學上,具有[+特定性]的關(guān)聯(lián)標記提供了適量且足夠詳盡的信息量,符合“合作原則”之“數(shù)量準則”(Quantity Maxim)。
(3)關(guān)聯(lián)標記引領(lǐng)的分句指向明確的事物,具有確定性——結(jié)果標(表推斷關(guān)系、假設(shè)關(guān)系、條件關(guān)系、因果關(guān)系等)、轉(zhuǎn)折標;關(guān)聯(lián)標記引領(lǐng)的分句指向非確定的事物,具有選擇性——選擇標。
從語義適應性角度看,為防止語義特征相矛盾、邏輯混亂,具有選擇性語義特征的關(guān)聯(lián)標記不能嵌套具有確定性語義特征的關(guān)聯(lián)標記,具有確定性語義特征的關(guān)聯(lián)標記亦不能嵌套具有選擇性語義特征的關(guān)聯(lián)標記。
(4)關(guān)聯(lián)標記引領(lǐng)的分句內(nèi)容與其配對分句在思維表述上具有一致性——平列標、解注標、連貫標、順遞標、原因標、推斷標、條件標、假設(shè)標、求得目的標、結(jié)果標;關(guān)聯(lián)標記引領(lǐng)的分句內(nèi)容與其配對分句在思維表述上具有對立性——對照標、反遞標、轉(zhuǎn)折標、求免目的標、假轉(zhuǎn)標。
具有對立性語義特征的關(guān)聯(lián)標記嵌套力一般強于具有一致性語義特征的關(guān)聯(lián)標記。這是因為前者表達逆向思維,是從預期到反預期的命題轉(zhuǎn)換(Quirk,1985),具有一定滯后性和難以接受性;后者卻更符合人類順向思維表達習慣。這導致反映直接順承思維的關(guān)聯(lián)標記很難嵌套經(jīng)過轉(zhuǎn)變進化、要付出更多認知努力、違逆思維順序的關(guān)聯(lián)標記。ERP實驗同樣證明英語也存在類似情況(Xiang M,2015)。
(5)關(guān)聯(lián)標記聯(lián)結(jié)的前后分句概念語義距離較近,認知過程同步,停頓能力差——并列類關(guān)聯(lián)標記;關(guān)聯(lián)標記聯(lián)結(jié)的前后分句概念語義距離較遠,認知過程復雜,停頓能力強——因果類關(guān)聯(lián)標記和轉(zhuǎn)折類關(guān)聯(lián)標記。
本文認為,關(guān)聯(lián)標記與其管控部分的線性距離越小、搭配距離越近,則嵌套其他關(guān)聯(lián)標記的可能性相對小很多。相反,關(guān)聯(lián)標記搭配距離越遠,意味嵌套能力越強。姚雙云(2006)羅列的平均搭配跨距在10個詞長以上的常見搭配格式大部分屬于因果類和轉(zhuǎn)折類,亦佐證本文觀點。
此外,若二重有標三分句呈現(xiàn)擴展式嵌套(相同關(guān)聯(lián)標記重復出現(xiàn)在相鄰分句),相同的語義特征使得所引領(lǐng)分句間的關(guān)系更為緊密,復句嵌套遵循“同義優(yōu)先組原則”。如例(4)初始分句和中位分句都有前配位讓步標“即使”,優(yōu)先組配為并列型小句關(guān)聯(lián)體,再與末尾分句構(gòu)成讓轉(zhuǎn)復句。
(4)即使成本高一點,即使質(zhì)量不是最優(yōu),最后也得用上。(CCL語料)
二重有標三分句中關(guān)聯(lián)標記的實際數(shù)量分為四種情形:關(guān)聯(lián)標記全出現(xiàn),關(guān)聯(lián)標記省略其一,關(guān)聯(lián)標記省略其二,關(guān)聯(lián)標記省略其三。各層次關(guān)聯(lián)標記均未省略是最理想的狀態(tài),復句層次構(gòu)造、分句間語義關(guān)系一目了然。但實例化語料中,關(guān)聯(lián)標記省略現(xiàn)象極為常見,幾乎占語料庫總數(shù)的86.84%。關(guān)聯(lián)標記的省略使某些分句變?yōu)闊o標分句,難以判別其組合對象究竟是一個分句抑或一個小句關(guān)聯(lián)體;還會造成歧義,無法甄別省略的關(guān)聯(lián)標記屬于高層次還是低層次結(jié)構(gòu)。
復句是否呈現(xiàn)充盈態(tài)與關(guān)聯(lián)標記出現(xiàn)的數(shù)量有關(guān)——關(guān)聯(lián)標記出現(xiàn)數(shù)量愈多,復句為充盈態(tài)復句可能性愈高。從信息論的角度看,二重有標三分句中分句共同形成一個關(guān)系集合,集合中元素的數(shù)目較多,構(gòu)建、表達說話人思想的語言單位編碼較長,其“熵”(Shannon,1948)值自然較大。馬爾科夫鏈強調(diào),根據(jù)前面出現(xiàn)的語言符號來預測下一個語言符號的不肯定性會越來越小,因而,在形式上標明分句間特定關(guān)系的關(guān)聯(lián)標記出現(xiàn)越多,嵌套復句的結(jié)構(gòu)層次劃分越清晰明了。“數(shù)量象似原則”(The quantity principle)亦可證明。
傳承關(guān)聯(lián)標記指關(guān)聯(lián)標記古代社會已然存在,發(fā)展演變至現(xiàn)代社會或者衍生出更多含義用法,如“既”,做副詞表推斷關(guān)系是后起意義,始于近代漢語階段,見北宋沈括《夢溪筆談》:“既云孟子不見諸侯,因何見梁惠王”;或者用法基本沒有發(fā)生改變。關(guān)聯(lián)標記的傳承性是判斷其嵌套能力強弱的參考因素。傳承關(guān)聯(lián)標記多出現(xiàn)在帶有文言色彩的正式文體中,適應面較窄,不如新關(guān)聯(lián)標記靈活,嵌套能力總體上也弱于語義相同的新關(guān)聯(lián)標記。
試比較“雖”與“雖然”?!半m然”可以嵌套并列類關(guān)聯(lián)標記“又、既、而且”[例(5)]、因果類關(guān)聯(lián)標記“如果、只要、只有”[例(6)]和讓步類關(guān)聯(lián)標記“無論、就算、不管”[例(7)]等;而“雖”嵌套能力較弱,適應面很窄,多見于古典白話(古雅文言與白話的混合)文體[例(8)]。
(5)雖然她連中學都沒畢業(yè),而且又是個新移民,但她卻毫不畏懼。(《讀者》)
(6)長??h文工團雖然只有30多人,但是,演員一專多能,從團長到樂師都能上臺串戲。(1996年《人民日報》)
(7)雖然不管是機動車撞非機動車還是被非機動車撞,結(jié)果一樣,但責任是一定要分清的。(微博)
(8)林、劉、何所論雖角度不同,且各有發(fā)揮,但都是基于“企戀”這一心理現(xiàn)象生發(fā)開去。(《讀書》)
為全面描寫分析關(guān)聯(lián)標記嵌套力的影響因素,本研究依托CCL語料庫、CCCS語料庫自建了一個現(xiàn)代漢語平衡語料庫,收錄2092條二重有標三分句,并按照結(jié)構(gòu)語義層的不同將各影響因素進行人工標注,見下表1,共13種嵌套因素。它們是:關(guān)聯(lián)標記的音節(jié)(A1—A9)、關(guān)聯(lián)標記所處分句的位次(B1—B28)、關(guān)聯(lián)標記與主語的相對位置(C1—C7)、連用的關(guān)聯(lián)標記相互位置(D1—D3)、關(guān)聯(lián)標記的詞性特征(E1—E48)、關(guān)聯(lián)標記的已然性和未然性(F1—F10)、關(guān)聯(lián)標記的確定性和選擇性(G1—G5)、關(guān)聯(lián)標記的特定性和自由性(H1—H5)、關(guān)聯(lián)標記的一致性和對立性(K1—K5)、關(guān)聯(lián)標記聯(lián)結(jié)的前后分句概念語義距離(L1—L5)、擴展的關(guān)聯(lián)標記出現(xiàn)的句序(M1—M5)、關(guān)聯(lián)標記的數(shù)量(N1—N7)和傳承關(guān)聯(lián)標記(O1—O4)。標注后的語料庫中,句法關(guān)聯(lián)模式為“1-2型”的有1382例,句法關(guān)聯(lián)模式為“2-1型”的有710例。
表1 關(guān)聯(lián)標記嵌套力影響因素分析語料庫標注示例
雖然各類影響因素在現(xiàn)實語料中皆能找到實例,但并不意味著它們的影響概率或影響程度是相同的。各影響因素自身重要性并不均等,甚至差別很大。為保證系統(tǒng)性和有效性,本節(jié)基于機器學習算法分析各影響因素,并給出各因素的重要性排名。
本文基于構(gòu)建的關(guān)聯(lián)標記嵌套力影響因素分析語料庫,通過信息量與K-means聚類集成模型、CART模型和scikit-learn算法包中的inspection. permutation. importance工具,分別對各因素的重要性進行排名。而后給三種方法下的各因素排名分別賦予重要性得分,綜合三種方法的重要性得分,得到最終的影響因素綜合重要性排名。總體操作流程見圖1。
圖1 嵌套力影響因素重要性排名求解過程
1.信息量模型
信息量模型可作為分析過程中量化評價的手段之一,將句法關(guān)聯(lián)模式中“1-2型”的結(jié)果標簽記為“0”,“2-1型”的結(jié)果標簽記為“1”,來定量化分析各離散性指標對嵌套結(jié)果的影響。如果某一因素指標對“1”這類結(jié)果的貢獻越大,那么其對應的信息量值就越大,相應地,此指標對“0”這一類結(jié)果的貢獻就越小。
例如,對于嵌套因素“關(guān)聯(lián)標記的音節(jié)”所屬次級狀態(tài)“A1”而言,統(tǒng)計該分級狀態(tài)下全語料庫有多少語料屬于“A1”,記為NA1;將語料庫中語料總數(shù)記為N;“A1”狀態(tài)分級下“1-2型”句法關(guān)聯(lián)模式的語料數(shù)量為N1A1;全語料庫中“1-2型”句法關(guān)聯(lián)模式的語料數(shù)量為N1。那么,“A1”這一次級狀態(tài)對語料的句法關(guān)聯(lián)模式為“1-2型”形成的信息量值為:
(1.1)
2.K-means聚類算法
聚類算法是機器學習算法中的無監(jiān)督學習算法。事先不給定嵌套結(jié)果標簽,僅就所給的嵌套力輸入因素進行樣本聚類,聚類的類別結(jié)果就是預測或分析的嵌套結(jié)果標簽。若兩個語料樣本間距離越近,則相似性越大,越容易被劃分為一類。
這部分借助SPSS中的運算工具,先確定K-means聚類的類別為“2”,得到初始化的兩個聚類中心,通過不斷迭代更新聚類中心,直到達到最大的迭代次數(shù)或者目標函數(shù)小于相應的閾值,從而得到最終結(jié)果。
3.CART算法
CART(Classification and Regression Tree)屬于有監(jiān)督學習類的機器學習算法。本研究在Python語言環(huán)境中采用CART算法對影響因素分析語料庫中的指標因素進行處理。首先依賴SPSS工具對2092條語料進行隨機無放回的分層抽樣,其中,967條為“0”、497條為“1”作為訓練數(shù)據(jù)集,占全部數(shù)據(jù)集的70%,剩下30%語料作為測試數(shù)據(jù)集,用以尋找最優(yōu)參數(shù)。隨后依次抽離各影響因素,重復尋優(yōu),得到相對應的max_depth和最優(yōu)準確率指標,以最終獲取影響因素的重要性排名。
4.scikit-learn因素重要性分析工具
scikit-learn包中的inspection.permutation.importance工具可以直接調(diào)用。僅需對標注完成的標簽化語料庫進行直接操作,在算法中調(diào)用重要性分析工具對影響因素分析語料庫中的因素部分進行分析,即可直接得解。
囿于篇幅有限,處理過程不做贅述。三種方法基于的底層邏輯均是科學合理的,但得到了不同的重要性排名,體現(xiàn)出顯著的因子重要性差異。為了得到更全面、綜合的影響因素重要性排名,還應分別給它們進行賦值,將三次賦值累加,得到各嵌套因素的綜合重要性得分,基于此對嵌套因素的重要性進行綜合排名。具體的重要性得分賦分情況和最終的綜合重要性排名情況見表2。
表2 重要性得分賦分情況與綜合重要性排名
因素重要性分析一定程度上能夠解決二重有標三分句嵌套分析時規(guī)則間出現(xiàn)相互沖突問題,保證各影響因素的系統(tǒng)性及有效性。本文基于關(guān)聯(lián)標記嵌套力影響因素分析語料庫和信息量與K-means聚類集成模型、CART模型、scikit-learn因素重要性分析工具,得到嵌套因素的綜合重要性由重要到非重要的排名順序為:關(guān)聯(lián)標記所處分句的位次>關(guān)聯(lián)標記的概念語義距離>關(guān)聯(lián)標記的數(shù)量>(關(guān)聯(lián)標記的詞性特征、傳承關(guān)聯(lián)標記、關(guān)聯(lián)標記的音節(jié))>擴展的關(guān)聯(lián)標記出現(xiàn)的句序>關(guān)聯(lián)標記的確定性和選擇性>連用的關(guān)聯(lián)標記相互位置>關(guān)聯(lián)標記與主語的相對位置>關(guān)聯(lián)標記的特定性和自由性>關(guān)聯(lián)標記的一致性和對立性>關(guān)聯(lián)標記的已然性和未然性。
當然,目前論文提及的重要性分析方法建立在大數(shù)據(jù)應用的背景下,未來的發(fā)展進程中,數(shù)量龐大且高質(zhì)量的語料、高準確度的人工校核、穩(wěn)定高效的機器學習算法以及合理的定量化分析流程都會為影響因素的重要性研究帶來更可靠的結(jié)果。此外,對復句句法關(guān)聯(lián)模式產(chǎn)生影響的不僅有關(guān)聯(lián)標記的嵌套力,相鄰分句句法成分間的語里關(guān)系與變換方式、分句的語氣功能類型和結(jié)構(gòu)模式類型異同,甚至語篇要素,同樣是影響嵌套結(jié)果的重要關(guān)聯(lián)手段。未來研究還要注意:(1)語料選擇的包容性;(2)人工判定的準確性;(3)分析方法的科學合理性;(4)嵌套因素的完備性;等等。
注釋:
[1] 劉云、肖辛格:《中文信息處理發(fā)展簡史》,北京:科學出版社,2019年,第126頁。
[2] 吳鋒文:《漢語復句句法語義關(guān)系判定研究》,北京:科學出版社,2022年,第170頁。
[3] 邢福義:《漢語復句研究》,北京:商務(wù)印書館,2001年,第26頁。
[4] 馮勝利:《漢語的韻律、詞法與句法》,北京:北京大學出版社,1997年,第3頁。
[5] 劉云:《復句關(guān)系詞語離析度考察》,《語言教學與研究》2008年第6期,第15~21頁。
[6] J. Jonides, D. E. Dee, “Brain Mechanisms of Proactive Interference in Working Memory”,Neuroscience,1,2006,pp.181-193.
[7] 陸丙甫:《從賓語標記的分布看語言類型學的功能分析》,《當代語言學》2001年第4期,第253~263頁。