• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于ChatGPT的電信詐騙案件類型影響力評估

    2023-10-29 04:20:46裴炳森
    計算機與生活 2023年10期
    關鍵詞:反詐語料詐騙

    裴炳森,李 欣,吳 越

    中國人民公安大學 信息網(wǎng)絡安全學院,北京 100038

    隨著社會的不斷發(fā)展,科學技術的不斷進步,犯罪形式和犯罪手段也在不斷變化,在各類犯罪中,電信詐騙犯罪是發(fā)案最高、損失最大、群眾反映最強烈的突出犯罪。電信詐騙犯罪嚴重侵害人民群眾的財產(chǎn)安全,嚴重侵蝕了社會誠信根基。然而,當前對電信詐騙的反制措施往往是基于經(jīng)驗和案例進行分析的,存在一定的局限性,較為主觀和片面,并且缺乏自適應性,缺乏對案件因素的量化評估。針對多變的電信詐騙犯罪手段和不斷改進的作案方式,對不同案件類型進行綜合評估有助于及時全面了解各類犯罪手段的威脅程度和影響力,捕捉新型犯罪手段的出現(xiàn)和發(fā)展趨勢,將有限的資源重點投入到最具威脅和危害的領域,提高資源的利用效率,并用量化數(shù)據(jù)驅動反詐工作的決策,為反詐工作提供客觀科學的依據(jù),提高反詐工作的針對性和有效性。

    為了更好地利用文本內的非結構化數(shù)據(jù),通常選擇使用知識圖譜進行知識存儲,可由于電信詐騙領域的相關案件數(shù)據(jù)較少,如果使用傳統(tǒng)的深度學習模型進行知識抽取,會面臨數(shù)據(jù)不足等的問題,難以充分學習到領域內特定的知識,同時還存在很大的過擬合風險,導致在真實的場景中應用效果不佳。而且使用傳統(tǒng)的深度學習模型構建知識圖譜需要進行實體和關系的標注,然后在專業(yè)領域這類小樣本中,標注數(shù)據(jù)的獲取和準確性存在一定的困難。

    針對上述問題,本文提出以下解決方案:

    (1)本文通過使用ChatGPT根據(jù)電詐案例文本構建案件知識圖譜,以解決當前在電信詐騙領域因小樣本引發(fā)的構建知識圖譜困難等問題,使用ChatGPT構建知識圖譜不需要對數(shù)據(jù)進行標注和訓練模型,使用ChatGPT 強大的通用語言理解能力并結合問題模版對問答內容進行限制即可得到高質量的知識圖譜,從而達到使用ChatGPT 較低成本完成知識抽取與構建知識圖譜的目的,將其應用在電信詐騙領域,可以完成數(shù)據(jù)分析統(tǒng)計、類案推理、串并案分析等。

    (2)本文根據(jù)電信詐騙案件的案發(fā)時間、涉案金額、涉案事主人數(shù)三個因素,提出確定案件類型的影響因子的計算方法,以實現(xiàn)對不同案件類型的影響力評估,并根據(jù)各個類型案件的影響力針對性、科學性提出反詐措施與方案。與傳統(tǒng)的基于人工經(jīng)驗和規(guī)則的方式相比,計算影響因子的方法更加準確全面、綜合多種案件因素,不僅僅局限于單一的規(guī)則,而且各類案件的影響力評估數(shù)據(jù),給公安民警提供了一種更科學客觀的指標,能夠幫助實現(xiàn)對案件發(fā)案趨勢的把控,對人民群眾進行精準宣傳與防范,從根源打擊電信詐騙。

    1 相關工作

    1.1 大語言模型技術探究

    ChatGPT是由OpenAI設計、訓練和發(fā)布的一種語言模型。它以問答的形式完成各種任務,接受文本輸入,理解自然語言,并生成響應,模擬人類對話。在各個自然語言處理子任務中表現(xiàn)出色。相較于其他大型語言模型,ChatGPT擁有更豐富的知識體量,涵蓋了自然科學、社會科學、人文歷史等多個領域的知識。

    ChatGPT 是在GPT3.5[1]的基礎上經(jīng)過微調而來的,微調過程中引入了RLHF(reinforcement learning from human feedback)技術,通過將人類日常對話的語言習慣嵌入模型,并引入人類的價值偏好,使得模型輸出與人類意圖對齊。微調過程包括預訓練、監(jiān)督微調、設計獎勵模型和反饋優(yōu)化四個步驟[2]。

    由于ChatGPT 的功能強大且具有良好的交互效果,社會各個領域都在積極探索其應用,將其出色的對話生成能力融入各種應用場景中。桑基韜等人[3]根據(jù)ChatGPT 的對話對象和定位將其應用分為四個層次:數(shù)據(jù)生成器、知識挖掘工具、模型調度員和人機交互界面。在模型調度員層面,ChatGPT作為連接模型的中介或底層模型,與其他機器學習模型協(xié)同工作,以滿足用戶需求。這種應用主要集中在多模態(tài)領域,如微軟提出的Visual ChatGPT[4]、MM-ReAct[5]和HuggingGPT[6]等,這些模型通過讓視覺模型與ChatGPT協(xié)同工作來完成視覺和語音任務。

    除了ChatGPT 以外,許多類ChatGPT 的大模型也同樣在自然語言處理的各個方面展現(xiàn)了較好的效果。LLaMA[7]是一個從7 billion 到65 billion 參數(shù)的基礎語言模型集合,該模型在數(shù)以萬億計的token 上進行訓練,并表明有可能完全使用公開的數(shù)據(jù)集來訓練最先進的模型,而不需要求助于專有的和不可獲取的數(shù)據(jù)集。清華提出了一種基于自回歸空白填充的通用語言模型(general language model,GLM)[8],在整體基于Transformer 基礎上做出改動,其在一些任務上的表現(xiàn)優(yōu)于GPT3-175B。

    1.2 知識圖譜構建

    構建知識圖譜的目的是從各類結構化或非結構化數(shù)據(jù)中抽取出符合知識圖譜模式的知識,并以三元組形式表示(<實體,關系,實體>或<實體,屬性,屬性值>)。在這過程中,涉及實體抽取和關系抽取等技術,用于從非結構化文本中提取知識。通過知識抽取,可將信息轉化為可計算和理解的形式,為知識圖譜的構建和應用提供基礎和支持。

    知識圖譜的構建可采用自底向上和自頂向下兩種方式。自底向上方式基于已有知識庫,通過采集新事實將其添加到知識庫中,逐步擴展和更新知識圖譜。自頂向下方式從零開始構建新的知識圖譜,收集和整理相關領域的數(shù)據(jù),將其轉化為三元組形式并存儲為知識圖譜。

    實體抽取技術又稱命名實體識別,這一技術主要涉及到基于規(guī)則、基于統(tǒng)計機器學習、基于深度學習三種抽取方法。當前常常使用深度學習的方法[9-12]對文本中實體進行抽取,在很多實體識別抽取的任務上都取得了較好的結果。關系抽取技術主要是根據(jù)文本中上下文確定實體之間的關系,關系抽取任務是完成信息抽取任務的基礎,常見的方法是流水線學習和聯(lián)合學習。流水線學習[13-15]是指在實體抽取的基礎上完成關系抽取,聯(lián)合學習[16]是指實體和關系在同一模型中進行抽取的方法。然而現(xiàn)有的知識圖譜構建方法在針對小樣本數(shù)據(jù)的情況下,知識抽取模型的效果不佳,通常不能很好地適用專業(yè)領域。

    知識圖譜的構建存在一定困難,當前常見的抽取方法中,基于模式或規(guī)則的匹配方法較為依賴人工標注的語料,因此泛化性較低;基于機器學習的方法以數(shù)據(jù)為中心,構造數(shù)據(jù)特征,但是依舊依賴大量的人工設計,而且這種方法針對大量的離散特征只能使得模型得到局部最優(yōu)解,無法深挖數(shù)據(jù)中的隱藏信息;基于深度學習的方法是利用神經(jīng)網(wǎng)絡通過進行監(jiān)督學習訓練模型,提高模型對文本中實體、關系、事件的抽取準確率,但是這種訓練模型的方式針對特定領域需要進行模型的再次訓練和微調,較為浪費算力和時間,而且前文提到的構建電信詐騙領域的知識圖譜中面對的各個挑戰(zhàn),給深度學習的模型訓練和預測帶來了一定難度。

    1.3 現(xiàn)有反詐措施制定方法不足

    傳統(tǒng)的反詐措施通常依賴于人工經(jīng)驗和基于規(guī)則的系統(tǒng),但隨著詐騙手段和方式的不斷演變,這些方法已經(jīng)不足以滿足研判的需求。傳統(tǒng)方法對于新型詐騙手段和方式的識別能力較弱,無法及時更新數(shù)據(jù)以保持準確性和實時性。此外,傳統(tǒng)方法容易受到主觀偏見的影響和個人經(jīng)驗和案例的限制,只能考慮部分因素,無法全面客觀地分析詐騙行為,導致研判結果的片面性和不完整性。傳統(tǒng)方法和規(guī)則還缺乏自適應性,無法適應新型詐騙手段和方式的變化,需要手動更新和調整,增加了維護成本并降低了響應速度。

    除基于人工經(jīng)驗和案例規(guī)則的反詐措施之外,還存在一種利用國家反詐中心APP進行詐騙風險預警勸阻。然而,使用國家反詐中心APP 也存在一些問題。使用該程序需要用戶主動下載和使用,這對于特定人群存在限制和依賴性,無法全面覆蓋所有用戶和場景。國家反詐中心APP的預警勸阻功能也是基于預設規(guī)則和規(guī)定的,同樣可能存在主觀性、片面性和缺乏自適應性等問題。同時,國家反詐中心APP 的預警勸阻主要基于詐騙過程中的資金流動進行,雖然在應對電信詐騙方面起到了積極作用,但它本質上是一種響應性措施。因此,隨著詐騙手段和方式不斷演變和更新,僅依靠事后干預是不夠的。更有效的是分析案發(fā)趨勢,采取綜合性的預防措施,從源頭上防止詐騙行為的發(fā)生,降低公眾遭受電信詐騙風險。

    1.4 使用大語言模型進行圖譜構建的優(yōu)越性

    使用大語言模型進行數(shù)據(jù)預處理與使用深度學習的模型相比,不用制定較為復雜的時間相關詞語庫,也不用訓練模型對不同的時間表示方式進行理解,而是直接使用大模型強大的語義理解能力對時間信息進行處理,這樣既能保證準確率,同時又簡便了數(shù)據(jù)預處理流程。

    使用大語言模型完成抽取任務與使用深度學習模型相比,具有較為明顯的優(yōu)勢。其中最為明顯的一點就是直接使用大模型已經(jīng)訓練好的各項能力,在通用領域知識基礎上完成抽取任務,不需要使用標注數(shù)據(jù)進行模型訓練,并且整個使用過程也相對較為靈活,可以通過更改問題的模版實現(xiàn)對抽取任務的約束;其次,與使用訓練好的模型進行抽取相比,問答的這種形式為實體、事件、關系之間的聯(lián)合建模提供了一種非常自然的方法;再次,多輪問答的這一形式能夠展現(xiàn)抽取的邏輯與過程,而且隨著多輪問答進程,可以逐步獲得下一輪需要的實體;最后,使用大模型完成抽取任務與使用模型訓練從效果上看,最大的優(yōu)勢在于使用時,問題查詢對于想要識別的關系類別編碼了重要的先驗信息,這類信息能夠潛在地解決現(xiàn)有抽取任務模型中所不能解決的遠距離實體對、關系跨度重疊等問題。

    2 電信詐騙案件類型影響評估方法

    知識圖譜的構建過程,可以簡化為將非結構化的文本抽象成事實三元組的過程。針對現(xiàn)有方法存在的問題與不足,本文結合Li等人[16]把實體和關系聯(lián)合抽取的任務當作一個多輪問答問題進行處理的思想,使用ChatGPT 作為工具,抽取文本中的各類實體、關系、事件以及各類屬性屬性值等,并且在抽取中融入標簽,對開放領域的ChatGPT加以限制,從而達到讓其選擇正確標簽作為標注的目的。

    通過構建好的知識圖譜將不同類型的案件文本內容結構化,借助知識圖譜的形式存儲案件內容便于統(tǒng)計案發(fā)時間、涉案金額、涉案事主人數(shù)等評估案件影響的實體屬性,根據(jù)計算公式將不同案件類型的影響表現(xiàn)為抽象具體數(shù)值,以便于直觀分析不同案件類型的趨勢與特性。

    2.1 電信詐騙相關語料的獲取

    構建電信詐騙領域知識圖譜的基礎是獲取相關語料,本文構建的電信詐騙領域語料庫TFCs(telecom fraud corpus),包括電信詐騙案例(telecom fraud cases,TFC)以及反詐措施(anti-telecom fraud measures,ATCM)。圖1為電信詐騙語料庫數(shù)據(jù)結構展示。

    圖1 電信詐騙語料庫數(shù)據(jù)結構展示Fig.1 Data structure display of telecom fraud corpus

    TFC中的語料主要來源于兩方面:一方面是從裁判文書網(wǎng)中找到的電信詐騙有關的刑事犯罪判決書相關案例;另一方面是在公安一線工作中收集到的各類電詐案例。從公安一線中收集到的各類電詐案例主要來源于對基層所隊的實地調研,案例文本語料包含了問訊筆錄、簡要案件經(jīng)過、接出警記錄等諸多文書,且各類文書對其中涉及到的個人隱私信息,如家庭住址、銀行卡號、身份信息等均已進行脫敏處理。其中本文構建的電詐領域知識圖譜主要使用簡要案件經(jīng)過進行知識抽取。

    雖然裁判文書與公安一線案例兩類案件事實文書都包含了電信詐騙的典型案例信息,但是兩類文本的行文風格有很大不同,裁判文書中的文字內容偏向于格式化,而從公安一線收集到的電詐案例口語化較為嚴重,因此如果使用普通深度學習模型進行抽取任務,將面臨較大挑戰(zhàn)。

    電信詐騙典型案例語料總計1 680 條,其中來自裁判文書網(wǎng)中的語料和公安一線工作中的語料各840條,各類語料中案發(fā)時間從2020年1月至2023年2月。并且針對TFC中的各種電信詐騙案例語料,本文采用公安部刑偵局發(fā)布的網(wǎng)絡詐騙分類體系,將其分為仿冒身份類、購物類、利誘類、虛構險情類、日常消費類、釣魚木馬病毒類、其他新型違法類7 個大類,60 個具體手段。相應的反詐措施ATCM 也就是針對60個具體手段的防范方法以及被騙后的處置措施。圖2為語料庫內各類案件類型統(tǒng)計結果展示。

    圖2 語料庫內案件類型統(tǒng)計Fig.2 Case type statistics in corpus

    雖然使用ChatGPT 對文本語料進行知識抽取成本較低,不需要使用標注數(shù)據(jù)訓練模型,但是為了從客觀上驗證ChatGPT 抽取知識的能力,從電信詐騙案例語料庫中隨機選取了來自裁判文書網(wǎng)的文本語料100 篇,來自公安一線的案例文本數(shù)據(jù)100 篇,請公安專業(yè)民警、學警進行實體、關系、事件的人工標注,作為知識抽取的標準,以便在后續(xù)實驗中比較ChatGPT與深度學習模型的抽取效果。

    2.2 總體方法流程

    電信詐騙領域知識圖譜的構建及應用包括數(shù)據(jù)預處理、各類知識抽取技術、不同案件類型影響因子與針對性反詐措施的選取等。具體評估方法如圖3。

    圖3 電詐領域案件類型影響評估Fig.3 Assessment of case types'impact in field of telecommunications fraud

    首先,構建電信詐騙領域知識圖譜前需要對文本語料TFCs進行數(shù)據(jù)預處理,完成數(shù)據(jù)清洗,其目的主要是將文本中較為口語化的時間信息轉化為標準時間格式,以便后續(xù)對文本中的時間信息進行抽取。

    進行數(shù)據(jù)預處理后,首先確定實體類型和關系類型,并隨機抽取部分文本,使用不同的問答模版利用ChatGPT 借助問答的方式對文本語料根據(jù)實際需要進行知識抽取,通過比較不同模版的抽取效果,確定抽取的問答模版。最終使用確定的問答模版對全部文本語料完成實體抽取、關系抽取、事件抽取、時間抽取等知識抽取任務。完成知識抽取后,使用圖數(shù)據(jù)庫Neo4j,結合抽取結果,構建電信詐騙領域的知識圖譜。

    在這些工作的基礎上,根據(jù)使用ChatGPT 構建的電詐領域知識圖譜,提出結合案發(fā)時間、涉案金額、涉案事主人數(shù)三個因素,評估不同案件類型的影響因子,刻畫案發(fā)趨勢和發(fā)案特征,以便有針對性地提出反制措施和預防方法。

    2.3 ChatGPT在電詐領域抽取任務中的應用

    2.3.1 ChatGPT進行數(shù)據(jù)預處理

    由于收集到的部分電信詐騙典型案例語料文本口語化較為嚴重,直接對文本進行處理可能會導致效果較差,影響構建出的電信詐騙領域知識圖譜的質量,在構建圖譜前需要對文本數(shù)據(jù)進行預處理。

    本文根據(jù)構建案件知識圖譜的任務,主要是對文本中時間節(jié)點進行預處理,由于構建案件知識圖譜需要識別各類案發(fā)時間、轉賬時間等,而文本中時常存在著“第二天”“三天后”這樣的時間節(jié)點,因此需要對此類文本進行格式統(tǒng)一,使用ChatGPT 進行時間格式統(tǒng)一的模版為:“‘語料……’請把其中的所有時間信息替換成標準的年月信息,使時間信息更具體?!本唧w實現(xiàn)的結果展示如圖4。

    圖4 文本預處理結果展示Fig.4 Display of text preprocessing results

    2.3.2 ChatGPT進行知識抽取

    雖然ChatGPT 在通用領域具有類人的能力,但是在電信詐騙領域,直接進行知識抽取的效果不盡如人意,因此需要根據(jù)語料進行部分限制,以確保更好利用ChatGPT的能力,更準確地對語料中的實體、關系、事件、時間進行抽取。

    使用ChatGPT 完成抽取任務需要固定的模版從語料中抽取信息,但是模版的設計關系到抽取的質量,使用不同的模版ChatGPT 生成的答案也不盡相同,因為模版中包含的信息同樣能夠作為ChatGPT的一部分知識幫助完成信息抽取,所以應該將部分標簽融入問題的模版中,下面是幾種效果不同的問題模版:

    模版1“‘語料……’請將上面話語抽取成構建知識圖譜的信息。”

    模版2“‘語料……’請根據(jù)上面的文字,判斷事件類型屬于仿冒身份類、購物類、利誘類、虛構險情類、日常消費類、釣魚木馬病毒類、其他新型違法類的哪一類,并且抽取出文中涉及到的各類實體、實體之間的關系等,其中抽取出來的關系應當包括但不限于親戚關系、朋友關系、從屬關系、上下級關系、假冒關系、親密關系、同伙關系、資金流入關系、資金流出關系、利用關系、雇傭關系、客戶關系、關聯(lián)關系、詐騙關系?!?/p>

    模版3Q1:“‘語料……’請根據(jù)上面的文字回答下面的問題。這個文本講述的是電信詐騙還是反詐措施?”A1:“……”

    Q2:“這個文本中涉及到的電信詐騙案例屬于仿冒身份類、購物類、利誘類、虛構險情類、日常消費類、釣魚木馬病毒類、其他新型違法類中的哪一類案件?”A2:“……”

    Q3:“請簡要概括一下文本中的案件事實?”A3:“……”

    Q4:“請抽取出文本中的各個實體,實體的類型應該至少包括:案發(fā)時間、案發(fā)地點、受害者、詐騙方式、交易媒介、詐騙工具、詐騙犯、涉案金額、作案手段等”A4:“……”

    Q5:“請根據(jù)文本抽取出來實體之間的關系,并將頭實體、關系、尾實體以表格的形式表示出來,其中關系應當包括但不限于親戚關系、朋友關系、從屬關系、上下級關系、假冒關系、親密關系、同伙關系、資金流入關系、資金流出關系、利用關系、雇傭關系、客戶關系、關聯(lián)關系、詐騙關系”A5:“……”

    使用多輪問答的形式完成語料的各類抽取任務時,能夠較為明顯看出詳細的問題模版對抽取任務的準確率有較為明顯的提高,這是因為ChatGPT 在人工交互方面表現(xiàn)雖然優(yōu)秀,但是在利用其作為抽取任務的工具時卻需要ChatGPT 輸出固定格式的內容,因此使用固定的問題模版可以讓ChatGPT 在性能和輸出格式的準確性上達到最優(yōu)的平衡。使用不同問題模版進行抽取的效果比較詳見本文3.2節(jié)。

    2.3.3 電詐領域知識圖譜的存儲

    在使用ChatGPT 完成文本的抽取任務后,需要使用Neo4j數(shù)據(jù)庫保存抽取到的事件、實體、關系、時間,形成可視化的知識圖譜。Neo4j是一種基于圖的數(shù)據(jù)庫,它能夠使用圖形數(shù)據(jù)模型來存儲和處理數(shù)據(jù),并支持Cypher 語句進行知識圖譜的修改查詢操作。圖5為構建好的部分知識圖譜。

    圖5 構建好的部分知識圖譜Fig.5 Part of constructed knowledge graph

    2.4 案件類型影響因子評估方法

    由于人力、物力等方面的限制,反詐需要針對最為緊要、造成經(jīng)濟損失最大、危害范圍最廣的進行著重宣傳,提高人民群眾的防范意識,因此需要對不同類型案件對案發(fā)趨勢和發(fā)案特征進行研究。由于各類案件要素,如案發(fā)時間、涉案金額、涉案事主人數(shù)等能夠較好地刻畫發(fā)案特征,借助知識圖譜存儲結構化知識的形式可以對案件要素等實體進行快速統(tǒng)計分析。

    首先對案件要素通過相關分析法和因素分析法進行定性分析,即分析案件要素之間是否存在關系,案發(fā)時間、涉案金額、涉案事主數(shù)量三個因素如何體現(xiàn)同一案件類型的案件影響與發(fā)案特征。分析可得:涉案金額越多,證明此類案件詐騙手段較為奏效;涉案事主數(shù)量越多,證明此類詐騙方式對多數(shù)群眾較為通用;對案發(fā)時間這一因素來說,發(fā)案如果集中在某一特殊節(jié)點證明詐騙方式與特殊時間節(jié)點或特殊事件有關,如果沒有明顯時間特征可能是詐騙手段的成功率受時間影響較小。

    其次將各類案件要素對案發(fā)趨勢和發(fā)案特征的作用具象化,抽象為具體權重數(shù)值。借助電信詐騙知識圖譜,分析案件類型與案件的各類實體,統(tǒng)計涉案金額、涉案事主人數(shù)、案發(fā)時間等各種案件要素,并且邀請反詐專家和警務人員以打分的方式為案件要素對案件影響的貢獻大小進行合理的賦值,將案件要素對案件影響抽象為具體的權重。

    隨后根據(jù)抽象的各類案件要素權重數(shù)值進行分析擬合,研究權重變化的客觀規(guī)律,確定案件要素對案發(fā)趨勢發(fā)案特征的影響因子計算方法,并對擬合的函數(shù)和客觀事實進行一致性檢驗。

    對專家打分權重進行極大似然估計和歸一化操作進行擬合,得出擬合函數(shù)展示權重變化趨勢如下:

    其中,ω是某一類型案件的綜合影響因子,n代表此案件類型的所有案件,ω1是涉案事主人數(shù)分因子,N代表涉案人數(shù),單位是“十人”,ω2是涉案金額分因子,A代表涉案金額,單位是“百萬元”,ω3是案發(fā)時間分因子,Δti是指某一案件案發(fā)時間至指定時間的時間差,單位為“年”,指定時間一般選擇為半年,β、λ是計算影響因子的超參數(shù),一般設為1。

    通過分析可得影響因子計算函數(shù)擬合效果較好,能夠展示出基本的變化趨勢:當涉案金額與涉案事主人數(shù)越多時,影響因子越大,證明越應當被重視,可是當金額和事主人數(shù)達到一定程度時,影響因子逐漸增長緩慢,且恒小于1,這樣能在一定程度減弱異常數(shù)據(jù)對評估案件的影響;對案發(fā)時間這一因素來說,當案發(fā)時間越近時,影響因子越大,就某一具體案件類型而言,在半年時間范圍內,距離統(tǒng)計時間節(jié)點越近發(fā)生案件越多,影響因子越大,如果發(fā)生案件較多,且發(fā)案與時間關系不大,則其影響因子會收斂于平均值0.56,因為這一數(shù)值是影響因子計算公式在(0,0.5)這一區(qū)間的定積分平均值。

    3 實驗結果展示與分析

    計算ChatGPT 抽取到的結果和當前抽取效果較好的無監(jiān)督知識抽取模型的準確率、召回率、調和平均值F1,并對這些結果進行比較,分析結果。表1為數(shù)據(jù)集標注后的實體、關系數(shù)量統(tǒng)計展示。

    表1 數(shù)據(jù)集標注結果統(tǒng)計Table 1 Statistics of dataset labeling result

    3.1 評價標準

    在各類知識抽取過程中,被廣泛使用的評價指標有準確率、召回率以及調和平均值F1,知識抽取結果分類的正確與否共有四種組合,分別是:預測為正例的正樣本TP,預測為正例的負樣本FP,預測為負例的正樣本FN,預測為負例的負樣本TN,這四種關系能夠用混淆矩陣展示,表2為混淆矩陣展示。

    表2 混淆矩陣Table 2 Confusion matrix

    準確率是指在預測為正例的樣本中,正樣本所占比例,計算公式如下:

    召回率是指在正樣本中,預測為正例所占的比例,計算公式如下:

    F1 是指用來衡量二分類模型精度的一種方法,這個指標綜合了召回率和準確率,并且可以設置準確率和召回率所占的比重,以平衡當準確率和召回率沖突時的模型衡量方法,具體計算方法如下:

    3.2 ChatGPT抽取任務評估與不同模版選擇

    在前文中提到了使用ChatGPT 作為知識抽取工具時的3種不同問題模版,分別是:模版1粗略問答;模版2單輪詳細問答;模版3多輪詳細問答。雖然可以直觀感受出3 個模版的抽取效果,但是嚴謹起見,仍對不同模版的抽取效果進行了量化比較,具體結果見表3。

    表3 不同模板抽取結果統(tǒng)計Table 3 Statistics of different template extraction results 單位:%

    通過比較不同模版抽取文本內容的準確率、召回率以及調和平均值,能夠明顯看出,模版2、3 與模版1 相比,實體抽取F1 提升了超過14 個百分點,關系抽取F1 提升了超過48 個百分點,效果有顯著提升,這是因為在模版中增加了抽取的相關信息,給各類抽取任務提供了抽取范式,同時約束了抽取的結果,避免了同義詞不易歸一化的問題。關系抽取之所以能夠出現(xiàn)明顯提升,主要是因為對14 種關系類型進行了定義,在模版2、3 中對回答的內容進行限制。根據(jù)對模版2 抽取結果和模版3 抽取結果的比較,可以看出使用多輪問答的形式具有一定優(yōu)勢,主要原因是在多輪問答中前面問題的答案可以作為下一個問題回答的提示,強化了回答邏輯,因此在接下來的比較中,使用模版3 抽取知識的準確率進行比較。

    3.3 實體抽取結果展示

    因為電信詐騙領域專業(yè)性較強,標注數(shù)據(jù)較少,而且本文沒有使用標注數(shù)據(jù)訓練模型,所以比較模型主要選取部分無監(jiān)督模型和遠程監(jiān)督模型對文本進行知識抽取,以比較各類方法的抽取效果。但是針對一些較為常見的非小樣本任務,如人名識別、地點識別等,為進一步體現(xiàn)使用ChatGPT的先進性,使用較為成熟的實體抽取作為比較模型。

    3.3.1 實體抽取基線模型

    在實體抽取的子任務中,由于本文設計的是利用ChatGPT 完成抽取命名實體,文本中的命名實體主要包括詐騙犯、受害者、案發(fā)地點、涉案金額、交易媒介等,其中詐騙犯、受害者都是人名,案發(fā)地點是地名,因此可以使用較為成熟的中文人名、地名識別抽取模型作為對比模型,對ChatGPT而言,雖然抽取結果中展示了實體類型,即“詐騙犯:張某”這種數(shù)據(jù)類型,但是在計算識別準確率時,不對詐騙犯和受害者兩種類型進行區(qū)分,統(tǒng)一計算是否識別正確人名,而具體人名對應的是詐騙犯還是受害者可以通過關系抽取中的準確率得出。

    在比較抽取效果時,本文選擇了在命名實體識別中表現(xiàn)良好的模型,使用部分標注好的TFC 電信詐騙案例文本對已訓練好的模型進行微調,使各類模型在本文的數(shù)據(jù)集中能展現(xiàn)較好效果。參與比較的傳統(tǒng)深度學習模型具體包括:

    (1)Bi-LSTM-CRF模型[17]:此模型結合LSTM(long short-term memory networks)和CRF(conditional random fields)的優(yōu)點,既能夠學習到樣本到標注之間的映射關系,同時還注意到了標注之間的關系,這一模型通過開源數(shù)據(jù)集進行訓練,以預測文本中文字對應的標簽,再根據(jù)標簽提取出文本中實體,這一模型在諸多數(shù)據(jù)集中都取得了較好的效果,在很多命名實體識別的研究中,這一模型都被用作基線模型。

    (2)BERT-CRF模型[18]:此模型與Bi-LSTM-CRF原理類似,使用了BERT(bidirectional encoder representation from transformers)作為訓練CRF的發(fā)射矩陣,在命名實體識別的相關研究中,都有不俗的表現(xiàn)。

    (3)FGN(fusion glyph network)模型[19]:這一模型融合字形網(wǎng)絡用于中文命名實體識別,并通過融合機制添加額外的交互信息,使用漢字內部的信息輔助進行命名實體識別的任務,此模型在諸多命名實體識別數(shù)據(jù)集中都取得了很好的效果。

    (4)LEMON(lexicon memory)模型[20]:這一模型基于片段對中文命名實體進行識別,增加了基于字典的記憶,并將漢字和單詞的特征結合起來,更好地表示特征,此方法在公開數(shù)據(jù)集上也都取得了較好的效果。

    (5)MECT(multi-metadata embedding based crosstransformer)模型[21]:這一模型基于多元數(shù)據(jù),利用漢字的結構信息,更好地捕捉漢字的語義信息,來提高中文命名實體識別的性能。

    除了傳統(tǒng)的深度學習模型,還有許多類ChatGPT大語言模型,在一些任務中也表現(xiàn)出了較好的性能,因此本文也針對一些類ChatGPT 模型進行知識抽取的效果比較,對比的大語言模型包括:

    (1)華為盤古NLP大模型[22]:華為盤古的NLP大模型是超千億參數(shù)的中文預訓練大模型,并且其更注重針對中文語言的優(yōu)化,兼顧自然語言的理解與生成能力,在多項任務中表現(xiàn)優(yōu)秀。

    (2)阿里通義千問大模型:阿里的通義大模型具有強大的語言理解能力,并融合多模態(tài)知識,從而提供高效的生成能力。

    為了避免因不同問答模版產(chǎn)生的抽取效果差異,對大模型的問答均采用模版3,在模版中盡可能引導模型生成正確答案。

    3.3.2 結果展示

    使用對比模型和使用ChatGPT 作為工具抽取實體的效果如表4。

    表4 各類實體抽取方法結果展示Table 4 Display of results of various entity extraction methods 單位:%

    通過將ChatGPT 作為工具抽取實體的效果與較為成熟、效果較好的深度學習模型進行比較,發(fā)現(xiàn)效果近似,在公安一線電信詐騙案件中,ChatGPT 的抽取效果略好于使用深度學習模型進行抽取的效果,F(xiàn)1 的值高了1.67 個百分點,這可能是因為在公安一線中收集到的電信詐騙案例口語化嚴重,深度學習模型訓練數(shù)據(jù)接受的是固定格式的文本,書面用語較多,對口語化文本不能完全做到普適,但是ChatGPT的訓練數(shù)據(jù)較廣,不拘泥于表達方式,因此在收集到的一線案例文本中抽取結果沒有ChatGPT 好。其他如盤古、通義千問這類大語言模型在未經(jīng)訓練的情況下完成抽取任務雖然也有較好的表現(xiàn),但是效果和ChatGPT相比,仍存在一定不足:在裁判文書網(wǎng)案例中,華為盤古模型的效果比ChatGPT 差2.24 個百分點,阿里通義千問模型的效果比ChatGPT 差1.85個百分點;在一線實戰(zhàn)案例中,華為盤古模型的效果比ChatGPT 差3.59 個百分點,通義千問的效果比ChatGPT 差1.58 個百分點。因此就實體抽取任務來看,選擇ChatGPT進行抽取效果較好。

    3.4 關系抽取結果展示

    3.4.1 關系抽取基線模型

    (1)GraphRel 模型[23]:這一模型是一種端到端的關系提取模型,使用圖卷積網(wǎng)絡(graph convolutional networks,GCN)聯(lián)合學習命名實體和關系,其構建了一個線性從屬結構提取文本的順序特征和區(qū)域特征。

    (2)CopyRL 模型[24]:這一模型針對其他模型中沒有考慮句子中關系事實提取順序的問題,將強化學習應用到一個序列到序列的模型中,取得了較好的關系抽取效果。

    (3)CASREL模型[25]:即層疊式指針網(wǎng)絡(CASREL)模型,它主要解決重疊三元組問題,即同一句子中的多個關系三元組共享相同的實體。其引入了一種新的視角來重新審視關系三元組提取任務,并提出了一種新的級聯(lián)二進制標記框架(CASREL)。不將關系視為離散標簽,而是將關系建模為將主題映射到句子中的對象的函數(shù),實驗表明,此模型在關系抽取中也取得了較好的效果。

    為了減少訓練數(shù)據(jù)集對模型效果的影響,可以使用部分標注數(shù)據(jù)對模型進行微調,以適配除了傳統(tǒng)人工智能深度學習模型,本文還對華為盤古、阿里通義千問兩種大語言模型的關系抽取效果進行測試,并與ChatGPT的抽取效果進行比對。

    3.4.2 結果展示

    使用對比模型和使用ChatGPT 作為工具抽取關系的效果如表5。

    表5 各類關系抽取方法結果展示Table 5 Display of results of various relationship extraction methods 單位:%

    根據(jù)表5中數(shù)據(jù)進行分析,可以直觀看出大語言模型在關系抽取任務中效果好于深度學習模型,這主要是由于在使用大語言模型進行抽取時,問題模版中約束了可能出現(xiàn)的關系類型,另外由于小樣本的限制,即使使用部分標注數(shù)據(jù)對深度學習模型進行了微調,模型仍然無法在電信詐騙案例文本語料中表現(xiàn)完整的效果;就相同模型的抽取效果而言,對裁判文書網(wǎng)案例文本的抽取好于對一線實戰(zhàn)案例文本抽取的效果,主要是因為裁判文書網(wǎng)文本的語言較為規(guī)范,隱式關系較少;在大語言模型中,ChatGPT的抽取效果與其他兩種模型相比,F(xiàn)1 值均高出超過5個百分點。

    綜合各類深度學習模型、大語言模型、ChatGPT進行實體抽取和關系抽取的效果,可以得出使用ChatGPT構建知識圖譜的精度較高的結論,而且使用ChatGPT構建知識圖譜成本較低,優(yōu)越性明顯。

    3.5 影響因子評估

    在確定好各類案件類型的影響因子計算方式之后,需要證明其可行性和準確性。本文對七類電信詐騙的影響因子根據(jù)收集到的資料進行了計算,并繪制了影響因子變化折線圖,對2020 年至2023 年的不同詐騙類型案件以半年為單位時間,從2020 年1月起進行統(tǒng)計分析,金額影響因子和事主人數(shù)影響因子的參數(shù)β、λ均選取為1,統(tǒng)計各類影響因子并進行展示。圖6~圖9 分別展示了各類型案件各分影響因子和綜合影響因子的時間變化趨勢,圖中橫坐標為時間節(jié)點,2020.1 代表2020 年1 月1 日,2020.6代表2020年6月30日,縱坐標為影響因子大小。

    圖6 各類型案件案發(fā)時間影響因子隨時間變化趨勢Fig.6 Time-varying trend of time of occurrence of various types of cases

    圖7 各類型案件涉案金額影響因子隨時間變化趨勢Fig.7 Time-varying trend of amount involved in various types of cases

    圖8 各類型案件涉案事主人數(shù)影響因子隨時間變化趨勢Fig.8 Time-varying trend of the number of victims involved in various types of cases

    圖9 各類型案件綜合影響因子隨時間變化趨勢Fig.9 Time-varying trend of comprehensive impact factors of various types of cases

    根據(jù)影響因子的變化趨勢圖進行分析,可以準確了解電信詐騙各個詐騙手段的變化與發(fā)展。

    根據(jù)各類影響因子及其綜合分析,利誘類案件的案發(fā)時間影響因子集中在0.56 附近,這說明在廣泛樣本下,利誘類案件幾乎持續(xù)發(fā)生,而且利誘類的涉案金額和涉案事主人數(shù)影響因子持續(xù)保持極高的水平,均接近1。

    購物類案件的涉案金額和涉案事主人數(shù)影響因子呈現(xiàn)類似于弧形的形狀,在2020 年初和2022 年末呈現(xiàn)較高的影響因子,出現(xiàn)這類現(xiàn)象的主要原因是在2020 年初和2022 年末由于新冠疫情,出現(xiàn)大量虛假販賣口罩、防護服等防護措施的購物類詐騙案件,在其余時間購物類詐騙發(fā)生較少。

    仿冒身份類案件從涉案金額和涉案事主人數(shù)兩方面看,在2021年年中前,涉案金額和涉案事主相對較多,但是自2021年年中后,隨著公安民警的反詐宣傳,民眾對于此類詐騙方式套路的熟悉,防范意識的提高,此類詐騙手段較難奏效,因此涉案金額和涉案事主人數(shù)也同樣有所下降;從案發(fā)時間這一因素分析,可以發(fā)現(xiàn)此類案件的案發(fā)時間這一因素具有周期規(guī)律性,分析其內在原因為:“6.18”與“11.11”這兩個購物時間節(jié)點,是冒充為客服、快遞服務人員等購物相關身份的高發(fā)時期,由于“6.18”距離統(tǒng)計截止時間6月30日比“11.11”距離統(tǒng)計截止時間1月1日近,案件時間影響因子出現(xiàn)前半年比后半年高,但是都高于定積分平均值0.56的情況。

    虛構險情類、釣魚木馬類、日常消費類三種案件類型,由于案件樣本較少,根據(jù)案發(fā)時間的影響因子可以看出波動較大,數(shù)據(jù)隨機性較強。從涉案金額和涉案事主人數(shù)兩個因素分析,虛構險情類上當受騙的事主人數(shù)較多,結合實際分析,此類犯罪手段針對的多是老年人,利用老年人愛護孩子的心理實施詐騙,釣魚木馬類的涉案事主雖然人數(shù)較少,但是針對的大部分是公司高管、企業(yè)主等,因此涉案金額較多。

    根據(jù)影響因子分析,可以看出其他新型違法類在2021 年初時,在涉案金額和涉案事主人數(shù)兩方面出現(xiàn)了較為明顯的增長,而且案發(fā)時間影響因子也從原來的變化較大收斂在0.56 附近。究其原因,主要是因為自2021年起,裸聊詐騙案件頻發(fā),給人民群眾的財產(chǎn)安全帶來了極大的威脅。

    根據(jù)各類影響因子綜合分析,可以制定針對性的反詐措施,例如針對高發(fā)頻繁,給人民群眾帶來極大經(jīng)濟損失的利誘類案件,可以加大宣傳力度,做好反詐措施;針對老年人易上當受騙的虛構險情類詐騙方式,可以對其進行定點反詐宣傳,防患于未然;針對各類精英人士經(jīng)常中招的釣魚木馬類詐騙方式,可以通過對其宣傳常見木馬的傳播方式進行詐騙方式的根源阻斷;在出現(xiàn)緊俏資源短缺時,需要對人民群眾針對性地進行購物類詐騙的反詐宣傳,提醒群眾們購買緊俏物品時認準正式資質,不貪圖小便宜,謹防電信詐騙。綜合來看,需要針對當前案發(fā)較多,造成損失較大的利誘類與其他新型違法類電信詐騙進行常態(tài)化反詐宣傳,及時關注重點人群的資金流動與社交信息;針對其他詐騙類型,應當注意其發(fā)案的規(guī)律性,及時預計犯罪分子的犯罪手段,提出反制防范措施。

    4 總結與展望

    4.1 總結

    本文通過使用ChatGPT 的強大語言理解能力,處理電信詐騙案件的相關文本,完成數(shù)據(jù)預處理、電信詐騙領域知識圖譜構建等工作,并根據(jù)構建的電信詐騙領域案件圖譜,對各類詐騙方式進行發(fā)案時間、涉案金額、涉案事主人數(shù)等因素的綜合研判,以便做出針對性的反詐宣傳決策。

    本文提出的使用ChatGPT 進行數(shù)據(jù)預處理和知識抽取以完成知識圖譜的構建方法,與傳統(tǒng)的訓練深度學習模型完成構建任務相比,不需要標注訓練數(shù)據(jù),減少了因專業(yè)領域語料不足而訓練深度學習模型不夠理想的問題,而且對語料較少的電信詐騙領域而言,使用通用語言模型部署更為快速,不需要利用深度學習的方法對模型進行訓練,避免了耗費大量的時間和資源,為及時研判電信詐騙案件的趨勢,針對性提出反詐措施,做好群眾反詐工作提供了可能。而且使用ChatGPT 完成少樣本數(shù)量下的各類文字處理與理解工作給解決公安等特殊垂直領域需求提供了一種可能的解決方法。

    另外,本文還針對當前電信詐騙案件高發(fā)的形式,提出根據(jù)案發(fā)時間、涉案金額、涉案事主人數(shù)三個因素研判反詐策略的方法,提出影響因子以判斷不同案件類型的發(fā)案趨勢,根據(jù)影響因子可以針對性地提出反詐措施,以實現(xiàn)對資源的分配優(yōu)化,提高反詐工作效率,提高公眾對較為廣泛詐騙類型的認知和防范意識。

    4.2 展望

    本文同樣存在一些局限,在使用ChatGPT 完成數(shù)據(jù)預處理、構建知識圖譜的過程中,雖然使用了不同的模版進行嘗試,但是離完全利用通用語言模型的強大語言能力仍然存在一定距離;另一方面,使用ChatGPT仍然依賴于輸入的數(shù)據(jù),針對專業(yè)的電信詐騙文本領域而言,抽取知識的準確率依舊受其本身語料的質量、覆蓋范圍和相關性限制。而且使用ChatGPT完成知識抽取,生成的都是自由形式的自然語言,缺乏結構化的固定文本,即使對輸出格式在問題模版中做了要求,提取到的知識也仍存在部分冗余,需要再次進行清洗和處理。

    而且使用ChatGPT 處理文本還存在著一些原生性風險。由于訓練數(shù)據(jù)的限制以及實現(xiàn)ChatGPT 的細節(jié)并未公開,使用ChatGPT 處理文本會導致潛在偏見與傾向性。為了解決這類問題,可以在后續(xù)研究中建立多樣化的訓練數(shù)據(jù),引入人工干預和監(jiān)督機制,并加強審查機制,以確保根據(jù)案件文本內容生成更為準確的知識圖譜,避免因偏見對犯罪的判斷產(chǎn)生影響。另外,使用ChatGPT處理數(shù)據(jù)時,即使已經(jīng)對案例文本數(shù)據(jù)進行了脫密處理,但是仍然存在著數(shù)據(jù)泄露的風險與可能。在今后的研究中,可以在數(shù)據(jù)脫密處理以及模型本地部署等方面進行研究,以減少數(shù)據(jù)泄露的風險。

    除了在構建知識圖譜中存在局限性,在利用知識圖譜對電信詐騙不同類型案件進行分析研判時,本文方法也同樣存在一定的局限性,由于對案件的相關分析受限于語料的質量與數(shù)據(jù)的體量,導致分析影響因子變化趨勢僅能得出部分廣泛性結論,針對具體地點、具體時間節(jié)點的不同案件影響力分析仍存在不足,而且在得到案件影響力的變化趨勢之后,仍然需要進行人為分析,反詐決策的研判與分析仍存在一定主觀因素。因此在后續(xù)的研究中,可以增強分析數(shù)據(jù)的深度,對某一具體地點的案件文本進行分析處理,深入挖掘電信詐騙的犯罪手段變化趨勢,更具有針對性地提出電信詐騙防范預防措施;同時也可以擴大分析數(shù)據(jù)的廣度,發(fā)現(xiàn)更廣泛、更具有代表性的犯罪方式變化趨勢,盡早預測犯罪分子的犯罪手段,提前進行反制。除此之外,還可以對分析數(shù)據(jù)的方法進行完善,當前的分析仍是基于案件影響力的評估進行人工分析,在后續(xù)研究中,可以在案件影響力評估的基礎上自動分析案件變化趨勢,利用智能算法發(fā)現(xiàn)隱藏規(guī)律,更好地打擊犯罪。

    猜你喜歡
    反詐語料詐騙
    反詐公益廣告
    法人(2023年9期)2023-12-01 14:50:14
    “反詐”雞蛋 為何上熱搜
    “反詐宣講員被騙18萬元”更具警示性
    “反詐宣講員被騙”更具警示性
    人民周刊(2021年11期)2021-07-09 08:28:38
    基于語料調查的“連……都(也)……”出現(xiàn)的語義背景分析
    合同詐騙
    電信詐騙
    擦亮雙眼,謹防招生詐騙
    華語電影作為真實語料在翻譯教學中的應用
    《苗防備覽》中的湘西語料
    甘孜县| 睢宁县| 平果县| 麻城市| 资阳市| 都江堰市| 石屏县| 诸城市| 奈曼旗| 南江县| 西平县| 黔南| 邳州市| 台湾省| 香格里拉县| 永靖县| 抚顺县| 屏边| 信阳市| 稻城县| 郓城县| 普陀区| 铁岭市| 焦作市| 宾川县| 五大连池市| 庆安县| 抚州市| 勐海县| 建阳市| 马关县| 文成县| 垦利县| 湄潭县| 商洛市| 茶陵县| 红桥区| 和静县| 连山| 遵义市| 元阳县|