趙偉華
大數(shù)據(jù)(Big Data),也就是海量數(shù)據(jù),是傳統(tǒng)數(shù)據(jù)處理應(yīng)用軟件不足以處理的復(fù)雜數(shù)據(jù)集,這些數(shù)據(jù)集的數(shù)據(jù)規(guī)模通常在PB 級(jí)以上,需要特殊的數(shù)據(jù)處理技術(shù)進(jìn)行存儲(chǔ)和處理。紛繁復(fù)雜的大數(shù)據(jù)并不能直接被我們利用,只有通過特定的算法挖掘出數(shù)據(jù)之間的內(nèi)在關(guān)聯(lián)關(guān)系,才能夠利用這些數(shù)據(jù)呈現(xiàn)出來的規(guī)律,進(jìn)行分析和預(yù)測(cè)。因此,大數(shù)據(jù)分析挖掘技術(shù)逐漸成為了熱點(diǎn),聚類、分類、回歸分析、異常挖掘和趨勢(shì)分析、關(guān)聯(lián)規(guī)則、依賴規(guī)則、序列模式等大數(shù)據(jù)分析算法被應(yīng)用到各類場景中,大數(shù)據(jù)技術(shù)與人工智能技術(shù)互動(dòng)頻繁、相互交織,促進(jìn)了大數(shù)據(jù)處理技術(shù)進(jìn)一步發(fā)展。
在“大數(shù)據(jù)時(shí)代”的背景下,推薦系統(tǒng)能通過分析提取出用戶的歷史偏好數(shù)據(jù),并結(jié)合用戶之間的偏好關(guān)系以及項(xiàng)目與項(xiàng)目的相似程度,推測(cè)出目標(biāo)用戶可能喜歡的物品并將其推薦給用戶。
圖1 展示的是推薦平臺(tái)的基本構(gòu)成,整個(gè)系統(tǒng)主要分為四個(gè)部分,即數(shù)據(jù)層、業(yè)務(wù)層、基礎(chǔ)設(shè)施層、推薦終端等,具體如下:
圖1 推薦平臺(tái)的基本構(gòu)成
協(xié)同過濾(collaborative filtering)算法就是其中一種經(jīng)典且常用的推薦算法,它基于對(duì)用戶歷史行為數(shù)據(jù)的挖掘,發(fā)現(xiàn)用戶的喜好偏向,并預(yù)測(cè)用戶可能喜好的產(chǎn)品進(jìn)行推薦。目前應(yīng)用比較廣泛的協(xié)同過濾算法包括基于用戶的協(xié)同過濾算法(即,給用戶推薦和他興趣相似的其他用戶喜歡的產(chǎn)品)和基于物品的協(xié)同過濾算法(即,給用戶推薦和他之前喜歡的物品相似的物品)。
協(xié)同過濾推薦算法產(chǎn)生時(shí)間較早,在發(fā)展中技術(shù)趨于成熟,具有很強(qiáng)的適用性,因此被廣泛用于搜索領(lǐng)域,并且取得了顯著成效。協(xié)同過濾算法的具體應(yīng)用有智能推薦、商品推薦、新聞推薦、搜索引擎智能推薦等。顯然,協(xié)同過濾算法是底層大數(shù)據(jù)到個(gè)人化推薦應(yīng)用過程中的中間產(chǎn)物。
本文通過梳理協(xié)同過濾領(lǐng)域的發(fā)明專利申請(qǐng)和保護(hù)現(xiàn)狀,依托實(shí)際案例,對(duì)比他局審查方式,來解析審查政策調(diào)整對(duì)專利申請(qǐng)和產(chǎn)業(yè)發(fā)展的影響,明晰大數(shù)據(jù)、人工智能領(lǐng)域相關(guān)發(fā)明專利申請(qǐng)的客體審查標(biāo)準(zhǔn),并為引導(dǎo)大數(shù)據(jù)、人工智能領(lǐng)域的技術(shù)創(chuàng)新提供助推。
本文檢索數(shù)據(jù)來源于HimmPat 數(shù)據(jù)庫,對(duì)2021年12 月31 日前的全球?qū)@M(jìn)行檢索分析,對(duì)標(biāo)題、摘要或權(quán)利要求包含“推薦”、“建議”、“興趣”、“偏好”、“喜好”等關(guān)鍵詞及其英文表達(dá),以及說明書中包含“協(xié)同過濾”或“協(xié)調(diào)過濾”等關(guān)鍵詞及其英文表達(dá)的專利文獻(xiàn)進(jìn)行檢索,獲得全球?qū)@?,356 件。由于專利語言不同,以及公司存在分公司和子公司的情況,使得一個(gè)公司存在多種名稱,本文在做數(shù)據(jù)統(tǒng)計(jì)時(shí),將存在上述情況的申請(qǐng)人進(jìn)行合并,并在下文中使用了常見的中文名稱進(jìn)行表示。
1.全球?qū)@暾?qǐng)趨勢(shì)
協(xié)同過濾領(lǐng)域?qū)@暾?qǐng)量發(fā)展趨勢(shì)如圖2 所示。
圖2 協(xié)同過濾領(lǐng)域?qū)@暾?qǐng)量發(fā)展趨勢(shì)(單位:件)
結(jié)合圖中數(shù)據(jù)可以看出,該領(lǐng)域?qū)@拿妊科陂_始于2011 年,當(dāng)年的全球申請(qǐng)量不足兩百件,這與當(dāng)時(shí)的AI 技術(shù)處于起步階段、推薦系統(tǒng)初步成型等原因密不可分,經(jīng)過緩慢的發(fā)展,尤其隨著計(jì)算機(jī)技術(shù)和通信技術(shù)的快速發(fā)展和更新,協(xié)同過濾領(lǐng)域?qū)@暾?qǐng)量迎來了第一次飛躍,體現(xiàn)在2016 年到2019年實(shí)現(xiàn)了全球申請(qǐng)量翻一番,于2019 年突破了四百件的申請(qǐng)量。
這次飛躍與AI 技術(shù)快速發(fā)展、計(jì)算機(jī)視覺、語音識(shí)別技術(shù)突飛猛進(jìn),尤其國內(nèi)形勢(shì)此時(shí)受國家政策大力支持,市場規(guī)模不斷擴(kuò)大,產(chǎn)業(yè)鏈趨于完善等原因息息相關(guān)。雖然這個(gè)增長趨勢(shì)在2019-2020 年有短暫的減緩,推測(cè)可能與全球爆發(fā)新型冠狀病毒疫情相關(guān),但很快又于2021 年再次大幅度上升,并呈現(xiàn)繼續(xù)攀升的趨勢(shì),這樣的向好趨勢(shì)充分說明該領(lǐng)域無論在產(chǎn)業(yè)發(fā)展還是專利申請(qǐng)方面目前都處于新的爆發(fā)期。
從協(xié)同過濾的產(chǎn)生背景來看圖2 的數(shù)據(jù),可以得到,大數(shù)據(jù)、人工智能早期形成的基礎(chǔ)算法并不能直接用來分析現(xiàn)在的海量數(shù)據(jù),也無法直接在任何具體應(yīng)用場景中使用,需要根據(jù)應(yīng)用層的不同適用場景進(jìn)行優(yōu)化、調(diào)參,甚至重新構(gòu)建新的算法來服務(wù)于大數(shù)據(jù)、人工智能產(chǎn)業(yè)落地。而協(xié)同過濾算法解決方案能夠改進(jìn)硬件與算法之間的適配、優(yōu)化技術(shù)層算法在自然語言處理、計(jì)算機(jī)視覺、語音識(shí)別、預(yù)測(cè)分析、知識(shí)表示和推理等方面的處理效果。
通過上述分析可以得到如下結(jié)論,協(xié)同過濾領(lǐng)域?qū)@暾?qǐng)不僅與技術(shù)儲(chǔ)備、社會(huì)熱點(diǎn)有著較大的關(guān)系,并且與政策支持、政府導(dǎo)向也有著密切關(guān)聯(lián)。隨著社會(huì)發(fā)展、公眾需要,以及行業(yè)完善、技術(shù)迭代,預(yù)計(jì)未來很長一段時(shí)間該領(lǐng)域的專利申請(qǐng)量會(huì)保持快速增長的趨勢(shì)。
2.主要技術(shù)熱點(diǎn)分布
圖3 是協(xié)同過濾領(lǐng)域的主要技術(shù)熱點(diǎn)分布圖,在同時(shí)包括協(xié)同過濾相關(guān)的算法應(yīng)用及基礎(chǔ)算法的專利申請(qǐng)中,基礎(chǔ)算法的研究相關(guān)的專利申請(qǐng)量占到了較大比重,具體表現(xiàn)為,主要集中在數(shù)據(jù)結(jié)構(gòu)及存儲(chǔ)結(jié)構(gòu)方面的改進(jìn)、對(duì)數(shù)據(jù)結(jié)構(gòu)的各種分析處理方面的改進(jìn)等方面;而針對(duì)協(xié)同過濾算法應(yīng)用的研究,其主要集中在協(xié)同過濾在各類特定商業(yè)領(lǐng)域的應(yīng)用、在電子商務(wù)過程中的應(yīng)用、以及在管理過程中的應(yīng)用等方面。除此之外,熱點(diǎn)技術(shù)還涉及到了協(xié)同過濾算法與其它技術(shù)的融合(例如神經(jīng)網(wǎng)絡(luò)算法、遺傳算法等),以及協(xié)同過濾過程中的數(shù)據(jù)傳輸?shù)认嚓P(guān)技術(shù)。
圖3 協(xié)同過濾領(lǐng)域主要技術(shù)熱點(diǎn)分布圖(單位:項(xiàng))
形成這種現(xiàn)象的原因是,協(xié)同算法的改進(jìn)動(dòng)機(jī)是為了讓人工智能更廣泛地應(yīng)用于多個(gè)領(lǐng)域,因此,形成專利申請(qǐng)時(shí),申請(qǐng)人不愿意將數(shù)據(jù)處理僅限定到少數(shù)應(yīng)用場景中,認(rèn)為會(huì)限制其方案在后續(xù)的應(yīng)用,導(dǎo)致請(qǐng)求保護(hù)的方案與具體應(yīng)用場景并不屬于“緊耦合”的情形,進(jìn)而被認(rèn)為不屬于專利保護(hù)的客體。例如,對(duì)神經(jīng)網(wǎng)絡(luò)的壓縮或量化,申請(qǐng)人不愿意將其限定為處理圖像或語音的神經(jīng)網(wǎng)絡(luò),也難以在每個(gè)處理步驟中體現(xiàn)出與其應(yīng)用場景相關(guān)的改進(jìn)。
因此,在協(xié)同過濾技術(shù)當(dāng)前發(fā)展階段,創(chuàng)新主體將研發(fā)焦點(diǎn)主要聚焦在協(xié)同過濾基礎(chǔ)算法的改進(jìn)上,希望這樣的改進(jìn)型技術(shù)能夠適用于更多場合,能夠?qū)崿F(xiàn)更廣泛的應(yīng)用,預(yù)計(jì)在未來一段時(shí)間,這樣的熱點(diǎn)分布特點(diǎn)仍會(huì)持續(xù),協(xié)同過濾領(lǐng)域?qū)⒂瓉矶喾矫纨R頭并進(jìn)的發(fā)展態(tài)勢(shì)。
3.全球重點(diǎn)申請(qǐng)人
從圖4 呈現(xiàn)的協(xié)同過濾領(lǐng)域的全球排名前十的申請(qǐng)人及其專利申請(qǐng)量來看,該領(lǐng)域主要申請(qǐng)人的專利申請(qǐng)量總體都不高,并且數(shù)量上呈現(xiàn)比較平均的現(xiàn)象。從國內(nèi)外申請(qǐng)人分布來看,國內(nèi)申請(qǐng)人占據(jù)了主要地位,該領(lǐng)域的全球十大申請(qǐng)人中,國內(nèi)申請(qǐng)人占到了一半以上,說明該領(lǐng)域的專利權(quán)目前主要被國內(nèi)申請(qǐng)人掌握。從國內(nèi)申請(qǐng)人分布看,國內(nèi)各大高校占據(jù)的比重較大,說明高校在協(xié)同過濾領(lǐng)域投入的研發(fā)較多,研發(fā)的專利產(chǎn)出較多,但目前各大高校及技術(shù)公司在該領(lǐng)域的專利申請(qǐng)量總體分布均勻,還未形成明顯的技術(shù)壟斷。
圖4 協(xié)同過濾領(lǐng)域全球重點(diǎn)申請(qǐng)人
同時(shí),上圖也說明了當(dāng)前我國的高校和互聯(lián)網(wǎng)頭部企業(yè)已經(jīng)具備了一定的“領(lǐng)跑”能力,對(duì)于具體應(yīng)用場景中的特定算法開發(fā)已經(jīng)較為成熟,業(yè)界開始謀求從更高層次上改進(jìn)算法效率。很多高校和企業(yè)已經(jīng)開發(fā)出多模態(tài)神經(jīng)網(wǎng)絡(luò)模型,也就是說,一個(gè)神經(jīng)網(wǎng)絡(luò)模型可以集成各種分類器來識(shí)別不同模態(tài)的數(shù)據(jù)(文本、圖像、音視頻、時(shí)序數(shù)據(jù))等,并經(jīng)由一定變換和優(yōu)化即可適用于各種場景;也有一些企業(yè)重點(diǎn)研發(fā)通用模型的優(yōu)化(如減枝、量化)以及模型的自動(dòng)調(diào)優(yōu)等。
可以體會(huì)到,隨著高校和企業(yè)在大數(shù)據(jù)、人工智能領(lǐng)域的研發(fā)不斷深入,對(duì)通用模型的改進(jìn)越來越多,場景應(yīng)用中通用性要求也越來越高,協(xié)同過濾算法的改進(jìn)必將越來越多,發(fā)揮的作用也必將越來越大。
4.五局申請(qǐng)量對(duì)比
按申請(qǐng)局統(tǒng)計(jì)協(xié)同過濾領(lǐng)域的專利申請(qǐng)(如圖5所示),可以看到,中國在該領(lǐng)域的申請(qǐng)量遙遙領(lǐng)先,超過美、韓、日、歐四局的申請(qǐng)量總和,充分說明中國在該領(lǐng)域的專利市場占據(jù)主要地位,目前已經(jīng)形成了一定的專利儲(chǔ)備。
圖5 協(xié)同過濾領(lǐng)域五局申請(qǐng)量對(duì)比圖
形成上述數(shù)據(jù)呈現(xiàn)的主要原因可能是,我國近十年來非常重視和鼓勵(lì)電子商務(wù)、大數(shù)據(jù)、人工智能等技術(shù)的發(fā)展、應(yīng)用以及與其它領(lǐng)域和行業(yè)的深度融合,采取了多項(xiàng)多種鼓勵(lì)政策及支持手段,并且多次強(qiáng)調(diào)加強(qiáng)相關(guān)技術(shù)的知識(shí)產(chǎn)權(quán)保護(hù),而美局近年來對(duì)客體判斷標(biāo)準(zhǔn)處于較為震蕩的狀態(tài),歐局近年來在大數(shù)據(jù)、人工智能領(lǐng)域缺少政策扶持,從而在一定程度上影響了各創(chuàng)新主體在本領(lǐng)域的專利布局。
5.國內(nèi)審查結(jié)論統(tǒng)計(jì)分析
從圖6 協(xié)同過濾領(lǐng)域的國內(nèi)審查結(jié)論統(tǒng)計(jì)分析可以看出,涉及協(xié)同過濾技術(shù)的相關(guān)申請(qǐng)?jiān)趪鴥?nèi)復(fù)審程序的法律適用中,一半為創(chuàng)造性條款,另一半為涉及專利保護(hù)客體的條款,說明該領(lǐng)域中相當(dāng)數(shù)量的申請(qǐng)是因?yàn)橹黝}涉及專利保護(hù)客體問題而不能得到專利權(quán)。
圖6 協(xié)同過濾領(lǐng)域國內(nèi)審查結(jié)論統(tǒng)計(jì)圖
綜上所述,通過對(duì)協(xié)同過濾領(lǐng)域的全球?qū)@麛?shù)據(jù)統(tǒng)計(jì)分析可以發(fā)現(xiàn),該領(lǐng)域在近五年的發(fā)展非常迅速,專利申請(qǐng)量逐年攀升,而這些專利申請(qǐng)中,中國申請(qǐng)量是美日歐的總和,且國內(nèi)申請(qǐng)人占據(jù)主導(dǎo)地位。但協(xié)同過濾和數(shù)據(jù)清洗領(lǐng)域的專利授權(quán)率不高,明顯低于其他人工智能熱點(diǎn)領(lǐng)域,可見,中國對(duì)該領(lǐng)域的審查尺度偏嚴(yán)。
造成這種現(xiàn)象的主要原因可能是,由于中間層算法的解決方案,不像基礎(chǔ)層那樣,算法改進(jìn)與硬件結(jié)合的較為緊密,也不像應(yīng)用層那樣,算法特征與具體應(yīng)用場景緊耦合,因此,大量涉及中間層算法的專利申請(qǐng)被拒之客體高墻之外。
在2021 年8 月公布的《專利審查指南修改草案(征求意見)》第二部分第九章第6.1.2 中新增的涉及人工智能、大數(shù)據(jù)領(lǐng)域的客體審查規(guī)定為:
如果權(quán)利要求的解決方案涉及深度學(xué)習(xí)、分類、聚類等人工智能、大數(shù)據(jù)算法的改進(jìn),該算法與計(jì)算機(jī)系統(tǒng)的內(nèi)部結(jié)構(gòu)存在特定技術(shù)關(guān)聯(lián),能夠解決如何提升硬件運(yùn)算效率或執(zhí)行效果的技術(shù)問題,包括減少數(shù)據(jù)存儲(chǔ)量、減少數(shù)據(jù)傳輸量、提高硬件處理速度等,從而獲得了符合自然規(guī)律的計(jì)算機(jī)系統(tǒng)內(nèi)部性能改進(jìn)的技術(shù)效果,則該權(quán)利要求限定的解決方案屬于專利法第二條第二款所述的技術(shù)方案。
如果權(quán)利要求的解決方案處理的是具體應(yīng)用領(lǐng)域的大數(shù)據(jù),利用分類、聚類、回歸分析、神經(jīng)網(wǎng)絡(luò)等挖掘數(shù)據(jù)中符合自然規(guī)律的內(nèi)在關(guān)聯(lián)關(guān)系,據(jù)此解決如何提升具體應(yīng)用大數(shù)據(jù)分析可靠性或精確性的技術(shù)問題,并獲得相應(yīng)的技術(shù)效果,則該權(quán)利要求限定的解決方案屬于專利法第二條第二款所述的技術(shù)方案。
從上述規(guī)定可以看出,涉及分類、聚類、回歸分析等數(shù)據(jù)挖掘算法,作為方案的實(shí)現(xiàn)手段,其本身并不構(gòu)成技術(shù)手段,只有通過這些算法挖掘大數(shù)據(jù)中符合自然規(guī)律的內(nèi)在關(guān)聯(lián)關(guān)系,據(jù)此解決技術(shù)問題并獲得相應(yīng)的技術(shù)效果時(shí),這些挖掘算法才有可能構(gòu)成技術(shù)手段。
因此,雖然上述規(guī)定中記載了提升大數(shù)據(jù)分析可靠性或精確性有可能構(gòu)成技術(shù)問題,但是,需要結(jié)合權(quán)利要求記載的方案,具體判斷上述可靠性或精確性的提升是算法本身優(yōu)化帶來的,還是利用這些算法挖掘大數(shù)據(jù)中符合自然規(guī)律的內(nèi)在關(guān)聯(lián)關(guān)系而產(chǎn)生的。
下面通過兩個(gè)典型案例來進(jìn)一步解析如何適用上述審查規(guī)則。
1.案例一:動(dòng)態(tài)離群值偏倚減少系統(tǒng)和方法
【案情概述】
該申請(qǐng)涉及對(duì)數(shù)據(jù)的分析,其中離群元素被從分析開發(fā)中去除(或過濾掉)。分析可能與簡單統(tǒng)計(jì)量的計(jì)算或者在其開發(fā)中涉及使用數(shù)據(jù)的數(shù)學(xué)模型的更復(fù)雜操作有關(guān)。離群數(shù)據(jù)過濾的目的可以是執(zhí)行數(shù)據(jù)質(zhì)量和數(shù)據(jù)驗(yàn)證操作,或者計(jì)算能夠應(yīng)用于后續(xù)分析、回歸分析、時(shí)間序列分析中的代表性標(biāo)準(zhǔn)、統(tǒng)計(jì)量、數(shù)據(jù)群組或者用于數(shù)學(xué)模型開發(fā)的合格數(shù)據(jù)。
【權(quán)利要求】
1.一種計(jì)算機(jī)實(shí)現(xiàn)的方法,包括以下步驟:
由被專門編程的計(jì)算系統(tǒng)以電子方式接收至少一個(gè)誤差閾值標(biāo)準(zhǔn)以及數(shù)據(jù)集合;
由所述被專門編程的計(jì)算系統(tǒng)使用包括至少一個(gè)系數(shù)的模型執(zhí)行離群值偏倚減少的第一迭代,其中執(zhí)行離群值偏倚減少的第一迭代包括以下步驟:
通過將所述模型應(yīng)用于所述數(shù)據(jù)集合,確定預(yù)測(cè)值的集合;
比較所述預(yù)測(cè)值的集合與所述數(shù)據(jù)集合,以產(chǎn)生至少一個(gè)誤差值的集合;
從所述數(shù)據(jù)集合中去除作為數(shù)據(jù)離群值的一個(gè)或多個(gè)數(shù)據(jù)值以形成離群值過濾數(shù)據(jù)集合,其中該數(shù)據(jù)離群值是根據(jù)所述至少一個(gè)誤差值的集合以及所述至少一個(gè)誤差閾值標(biāo)準(zhǔn)確定的;以及
使用所述離群值過濾數(shù)據(jù)集合構(gòu)建包括至少一個(gè)經(jīng)更新的系數(shù)的經(jīng)更新的模型;以及
當(dāng)至少一個(gè)終止標(biāo)準(zhǔn)未得到滿足時(shí),由所述被專門編程的計(jì)算系統(tǒng)執(zhí)行離群值偏倚減少的第二迭代,其中執(zhí)行離群值偏倚減少的第二迭代包括通過將所述經(jīng)更新的模型應(yīng)用于所述數(shù)據(jù)集合來確定第二預(yù)測(cè)值的集合。
【各局審查意見對(duì)比】
歐洲專利局(以下簡稱歐局)審查意見認(rèn)為:該申請(qǐng)未限定“其中所述目標(biāo)標(biāo)量是用于工業(yè)設(shè)施的度量,所述度量與所述工業(yè)設(shè)施的生產(chǎn)、金融性能或排放有關(guān)”,權(quán)利要求1 的方法針對(duì)減少離群偏差,是統(tǒng)計(jì)領(lǐng)域的抽象數(shù)學(xué)問題,在計(jì)算機(jī)上指定的非技術(shù)方法的實(shí)現(xiàn),該方法是被認(rèn)為是顯而易見的,從而不具備創(chuàng)造性。
美國專利局(以下簡稱美局)審查意見認(rèn)為:該申請(qǐng)未限定“其中所述目標(biāo)標(biāo)量是用于工業(yè)設(shè)施的度量,所述度量與所述工業(yè)設(shè)施的生產(chǎn)、金融性能或排放有關(guān)”,減少離群偏差的方法是抽象思想,“收集信息,分析信息并顯示某些信息”的計(jì)算機(jī)功能不會(huì)對(duì)抽象概念增加有意義的限制。
日本特許廳(以下簡稱日局)審查意見認(rèn)為:具備創(chuàng)造性,并授予了專利權(quán)。
可以看到,歐局和日局并沒有質(zhì)疑該申請(qǐng)存在專利保護(hù)客體問題,直接進(jìn)行了創(chuàng)造性的審查,而美局則是針對(duì)本申請(qǐng)不屬于保護(hù)客體提出了審查意見,并作出了駁回結(jié)論。
中國國家知識(shí)產(chǎn)權(quán)局審查意見認(rèn)為:從該申請(qǐng)權(quán)利要求1 的解決方案來看,是一種依據(jù)自定義的模型來對(duì)數(shù)據(jù)集合中的數(shù)據(jù)進(jìn)行迭代處理的方法,其要解決的問題是如何提高數(shù)據(jù)集合的數(shù)據(jù)質(zhì)量,以及如何進(jìn)行數(shù)據(jù)驗(yàn)證操作。但是該申請(qǐng)的方案并沒有具體到某個(gè)應(yīng)用領(lǐng)域,其所限定的步驟/執(zhí)行步驟依然只是對(duì)數(shù)據(jù)進(jìn)行分析處理,并獲得相應(yīng)的結(jié)果;上述分析處理方式實(shí)質(zhì)上是一個(gè)沒有具體應(yīng)用領(lǐng)域的抽象的數(shù)學(xué)處理過程,所針對(duì)的數(shù)據(jù)也是無具體領(lǐng)域、無特定物理含義的抽象數(shù)據(jù)。從當(dāng)前采用的手段(基于模型進(jìn)行的抽象的數(shù)據(jù)處理)與以上要解決的問題(提高數(shù)據(jù)質(zhì)量、進(jìn)行數(shù)據(jù)驗(yàn)證操作)的關(guān)聯(lián)性來看,不受自然規(guī)律約束,由此也不會(huì)獲得符合自然規(guī)律的技術(shù)效果。
盡管申請(qǐng)人在權(quán)利要求1 中限定了目標(biāo)變量是用于工業(yè)設(shè)施的度量,所述度量與所述工業(yè)設(shè)施的生產(chǎn)、金融性能或排放有關(guān),但這個(gè)限定仍然不能使“目標(biāo)變量”成為具有具體物理含義的、構(gòu)成技術(shù)領(lǐng)域中具有確切技術(shù)含義的數(shù)據(jù)。綜上,當(dāng)前權(quán)利要求不屬于專利法第二條第二款所述的技術(shù)方案,不屬于專利保護(hù)的客體。
2.案例二:基于隨機(jī)森林修正的大數(shù)據(jù)下改進(jìn)協(xié)同過濾推薦方法
【案情概述】
該申請(qǐng)涉及數(shù)據(jù)挖掘領(lǐng)域,主要涉及電子商務(wù)中個(gè)性化推薦,具體是一種基于隨機(jī)森林修正的大數(shù)據(jù)下改進(jìn)協(xié)同過濾推薦方法,例如:商品推薦、音樂電影產(chǎn)品推薦等領(lǐng)域,可用于網(wǎng)上商城等電子商務(wù)領(lǐng)域。
目前的協(xié)同過濾算法存在很多缺點(diǎn):如,數(shù)據(jù)稀疏推薦精確度會(huì)受到很大影響,用戶活躍度、熱門物品對(duì)推薦質(zhì)量存在負(fù)面影響,造成精確度不高、多樣性不強(qiáng)等,特別是在大數(shù)據(jù)的情況下,數(shù)據(jù)的稀疏度會(huì)極大地放大這些缺陷。為此,該申請(qǐng)?zhí)峁┝艘环N基于隨機(jī)森林修正的大數(shù)據(jù)下改進(jìn)協(xié)同過濾推薦方法,通過用戶對(duì)每個(gè)物品的評(píng)分,提取用戶評(píng)分信息,根據(jù)用戶評(píng)分信息構(gòu)建用戶偏好隨機(jī)森林分類模型,根據(jù)分類結(jié)果,結(jié)合改進(jìn)協(xié)同過濾推薦得到的用戶的初步推薦列表,對(duì)評(píng)分進(jìn)行對(duì)應(yīng)的修正調(diào)整,對(duì)列表中的物品按評(píng)分降序進(jìn)行重新排序,形成最終的推薦列表,完成全部用戶的推薦。
【權(quán)利要求】
1.一種基于隨機(jī)森林修正的大數(shù)據(jù)下改進(jìn)協(xié)同過濾推薦方法,其特征在于,包括有如下步驟:
步驟1 數(shù)據(jù)錄入及參數(shù)設(shè)定:根據(jù)電子商務(wù)網(wǎng)站的記錄,提取用戶對(duì)每個(gè)物品的評(píng)分,設(shè)定用戶為ua,其中a 為當(dāng)前待推薦用戶標(biāo)記,協(xié)同過濾參數(shù)近鄰數(shù)k,k 為常數(shù),取值區(qū)間為2-20,隨機(jī)森林可調(diào)參數(shù)δ,δ 為固定常數(shù),提取用戶評(píng)分信息,評(píng)分信息標(biāo)記為ratings;
步驟2 建立當(dāng)前用戶特征向量集合:根據(jù)評(píng)分信息標(biāo)記ratings,得到當(dāng)前用戶ua 的特征向量集合Ti ={(xi,yi)},i ∈N+,特征向量Xi={Xi1,Xi2...Xim},yi ∈{0,1}是類標(biāo)簽;Xim 是用戶m 對(duì)物品i 的評(píng)分,i 為用戶ua 評(píng)分過的物品標(biāo)記,N+為物品總數(shù)量,m 為用戶總數(shù)量;
步驟3 構(gòu)建隨機(jī)森林分類模型:利用特征向量集合,為用戶ua 構(gòu)造用戶喜好隨機(jī)森林分類模型,得到用戶ua 喜好隨機(jī)森林分類模型;
步驟4 計(jì)算用戶間相似度并尋找用戶的k 個(gè)最近鄰居:對(duì)于用戶ua ∈U 且a ≠b,其中U 為用戶集合,b 為非當(dāng)前待推薦用戶的任一用戶標(biāo)簽,根據(jù)改進(jìn)后的相似度公式計(jì)算用戶間相似度sim(a,b),找到與用戶ua 相似度最高的k 個(gè)最近鄰居;
步驟5 計(jì)算改進(jìn)協(xié)同過濾算法預(yù)測(cè)評(píng)分:利用用戶間相似度及相似度最高的k 個(gè)最近鄰居,根據(jù)改進(jìn)協(xié)同過濾預(yù)測(cè)評(píng)分公式計(jì)算用戶ua 對(duì)于所有未評(píng)分物品p 的初步預(yù)測(cè)評(píng)分roq;
步驟6 得到初步推薦列表:找到所有預(yù)測(cè)評(píng)分中最高的Nitem 個(gè)項(xiàng)目,Nitem 為需要推薦商品的個(gè)數(shù),通常取常數(shù)10,依照評(píng)分進(jìn)行降序排序,構(gòu)成對(duì)用戶ua 的推薦列表l;
步驟7 使用隨機(jī)森林分類模型對(duì)初步推薦列表分類:使用隨機(jī)森林分類模型對(duì)得到的推薦列表l 中的物品進(jìn)行分類;
步驟8 結(jié)合兩種方法進(jìn)行修正得到最終推薦列表:根據(jù)分類結(jié)果,結(jié)合改進(jìn)協(xié)同過濾推薦得到的用戶ua 的初步推薦列表l,對(duì)評(píng)分進(jìn)行對(duì)應(yīng)的修正調(diào)整,對(duì)列表l 中的物品按評(píng)分降序進(jìn)行重排序,形成最終的推薦列表l′;
步驟9 進(jìn)行最終推薦:取最終推薦列表l′中的前Nitem 個(gè),對(duì)用戶ua 進(jìn)行推薦;
步驟10 判斷是否結(jié)束:檢測(cè)是否是最后一個(gè)用戶,即a 是否等于m;若不是,返回步驟2,對(duì)下一個(gè)用戶進(jìn)行推薦;若是,則完成全部用戶的推薦,推薦結(jié)束。
【疑惑與分歧】
對(duì)于該案是否構(gòu)成專利保護(hù)客體存在兩種截然不同的觀點(diǎn):
觀點(diǎn)1:該申請(qǐng)只提到了獲取電子商務(wù)網(wǎng)站的記錄,沒有明確體現(xiàn)出和具體的應(yīng)用領(lǐng)域的緊密結(jié)合,其考慮的是協(xié)同過濾推薦算法本身存在的問題,僅僅是停留在人的思維層面的對(duì)某個(gè)算法問題的認(rèn)識(shí)。評(píng)分?jǐn)?shù)據(jù)為用戶的主觀數(shù)據(jù),通過評(píng)分?jǐn)?shù)據(jù)信息推薦物品,實(shí)質(zhì)上是對(duì)物品推送準(zhǔn)則進(jìn)行了人為限定,根據(jù)人為制定的特定推送規(guī)則進(jìn)行推送,其并未采用遵循自然規(guī)律的技術(shù)手段。即,該觀點(diǎn)認(rèn)為該案不屬于專利保護(hù)的客體。
觀點(diǎn)2:某一用戶的評(píng)分值為主觀數(shù)據(jù),但多個(gè)用戶的評(píng)分值即為客觀數(shù)據(jù),且項(xiàng)目推薦本身即為一個(gè)領(lǐng)域,不需要進(jìn)行更具體的限定,由于用戶的特征向量集合由其他用戶對(duì)該用戶打過分的物品的評(píng)分值構(gòu)成,利用上述多個(gè)用戶的評(píng)分值進(jìn)行計(jì)算從而協(xié)同推薦,是采用客觀規(guī)律,給定條件得到既定結(jié)果,采用了符合自然規(guī)律的技術(shù)手段。即,該觀點(diǎn)認(rèn)為該案屬于專利保護(hù)的客體。
【案例分析】
該申請(qǐng)請(qǐng)求保護(hù)一種基于隨機(jī)森林修正的大數(shù)據(jù)下改進(jìn)協(xié)同過濾推薦方法,利用隨機(jī)森林算法來改進(jìn)協(xié)同過濾算法。
如前所述,如果一項(xiàng)解決方案僅僅是利用某個(gè)算法來優(yōu)化另一個(gè)算法,沒有應(yīng)用到具體領(lǐng)域以解決技術(shù)問題,那么這樣的解決方案仍屬于抽象算法本身,并非專利保護(hù)的客體。但是,該申請(qǐng)?jiān)诶秒S機(jī)森林方法改進(jìn)協(xié)同過濾算法的過程中,要解決的問題是改進(jìn)數(shù)據(jù)稀疏度對(duì)推薦精確度的不良影響。
為解決上述問題,該申請(qǐng)權(quán)利要求記載的方案中,從電子商務(wù)網(wǎng)站的記錄提取用戶對(duì)每個(gè)物品的評(píng)分,根據(jù)評(píng)分信息獲取用戶特征向量,根據(jù)用戶特征構(gòu)建用戶喜好隨機(jī)森林模型,結(jié)合改進(jìn)協(xié)同過濾推薦得到的用戶初步推薦列表,對(duì)評(píng)分進(jìn)行對(duì)應(yīng)的修正調(diào)整,對(duì)列表中的物品按評(píng)分進(jìn)行降序重排序形成最終的推薦列表??梢?,該申請(qǐng)的解決方案體現(xiàn)了隨機(jī)森林算法和協(xié)同過濾算法在購物網(wǎng)站通過用戶評(píng)分提取用戶偏好以進(jìn)行產(chǎn)品推薦的具體應(yīng)用場景,通過對(duì)評(píng)分進(jìn)行修正并通過對(duì)推薦重新排序,解決了數(shù)據(jù)稀疏影響推薦精度的技術(shù)問題,采用了遵循自然規(guī)律的技術(shù)手段,并獲得了相應(yīng)的技術(shù)效果。因此,該申請(qǐng)符合專利法第二條第二款的規(guī)定,屬于專利保護(hù)的客體。
該申請(qǐng)中,用戶個(gè)體的評(píng)分標(biāo)準(zhǔn)雖然是主觀評(píng)定的,但從電子商務(wù)網(wǎng)站的記錄中提取出的用戶評(píng)分是基于大數(shù)據(jù)規(guī)模下的群體行為數(shù)據(jù)。對(duì)大規(guī)模數(shù)據(jù)進(jìn)行采集,并挖掘出其中符合自然規(guī)律的內(nèi)在關(guān)聯(lián)關(guān)系,從而利用大數(shù)據(jù)反映出的用戶行為規(guī)律進(jìn)行個(gè)性化推薦,并非是對(duì)物品推送準(zhǔn)則進(jìn)行的人為限定。
但是,仍需注意的是,個(gè)性化推薦并非是技術(shù)領(lǐng)域,同時(shí),并非方案中處理的數(shù)據(jù)對(duì)象是客觀數(shù)據(jù)就可以使方案構(gòu)成技術(shù)方案,同理,處理客觀數(shù)據(jù)的手段并非就構(gòu)成技術(shù)手段。在判斷涉及協(xié)同過濾算法的相關(guān)發(fā)明專利申請(qǐng)是否構(gòu)成技術(shù)方案時(shí),應(yīng)把判斷的重點(diǎn)放在利用該協(xié)同過濾算法對(duì)某領(lǐng)域的大數(shù)據(jù)進(jìn)行分類時(shí),是否挖掘出數(shù)據(jù)之間符合自然規(guī)律的內(nèi)在關(guān)聯(lián)關(guān)系。
從協(xié)同過濾領(lǐng)域的專利申請(qǐng)數(shù)據(jù)統(tǒng)計(jì)分析可以發(fā)現(xiàn),該領(lǐng)域在近五年的發(fā)展非常迅速,專利申請(qǐng)量大幅度攀升,這些專利申請(qǐng)中,國內(nèi)申請(qǐng)人占據(jù)主導(dǎo)地位,申請(qǐng)覆蓋的領(lǐng)域主要集中在特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法、信息檢索,數(shù)據(jù)庫結(jié)構(gòu)或文件系統(tǒng)結(jié)構(gòu)的算法相關(guān)的領(lǐng)域以及新商業(yè)模式相關(guān)的應(yīng)用領(lǐng)域。
目前,對(duì)于改進(jìn)僅在于協(xié)同過濾算法本身的發(fā)明專利申請(qǐng),由于其不涉及具體應(yīng)用領(lǐng)域,或者與改進(jìn)計(jì)算機(jī)系統(tǒng)內(nèi)部性能無關(guān),因而有可能被排除在專利保護(hù)客體的范疇外。但是,協(xié)同過濾算法與一般大數(shù)據(jù)、人工智能的基礎(chǔ)算法不同,它是為了更好地利用大數(shù)據(jù)進(jìn)行推薦而產(chǎn)生并不斷改進(jìn)的,所處理的數(shù)據(jù)是海量的,必須利用相應(yīng)的AI 算法才能完成數(shù)據(jù)清洗、相似度計(jì)算、評(píng)分估計(jì)、推薦排序、推薦效果評(píng)估等過程,并且,對(duì)這些算法的改進(jìn)能夠提高大數(shù)據(jù)分析的效率和精度。在此基礎(chǔ)上,筆者認(rèn)為,協(xié)同過濾算法的改進(jìn)方案解決了在用戶/物品推薦過程中推薦精度或效率不高的問題,該算法基于對(duì)興趣類似的用戶群體的行為分析找到用戶本身屬性和被推薦物品之間的匹配程度,能夠反映用戶行為和商品屬性之間固有的關(guān)聯(lián)關(guān)系,能夠達(dá)到提高推薦準(zhǔn)確性的效果。
有鑒于此,筆者建議,可以嘗試以定向放開的方式,將大數(shù)據(jù)、人工智能涉及的中間層算法改進(jìn)的解決方案納入客體保護(hù)范疇,例如,進(jìn)一步明確:對(duì)于大數(shù)據(jù)、人工智能算法改進(jìn)的解決方案,如果該算法與海量數(shù)據(jù)的固有特征存在特定技術(shù)關(guān)聯(lián),通過構(gòu)建知識(shí)圖譜、劃分社區(qū)、協(xié)同過濾,能夠解決提升大數(shù)據(jù)清洗效率和利用效果的技術(shù)問題,例如包括提升數(shù)據(jù)特征的抽取能力、提高數(shù)據(jù)標(biāo)引的準(zhǔn)確性、提升特定數(shù)據(jù)結(jié)構(gòu)組織構(gòu)建的效率、提升數(shù)據(jù)模型仿真和評(píng)估效果、保證數(shù)據(jù)隱私和數(shù)據(jù)安全等,從而獲得相應(yīng)的技術(shù)效果,則該解決方案屬于專利法第二條第二款所述的技術(shù)方案,屬于專利保護(hù)的客體。
專家點(diǎn)評(píng)
個(gè)性化推薦目前是大數(shù)據(jù)的主要應(yīng)用場景之一。本文圍繞協(xié)同過濾推薦算法,通過梳理專利申請(qǐng)態(tài)勢(shì),對(duì)比各局審查結(jié)論的異同,結(jié)合該領(lǐng)域的典型案例,對(duì)協(xié)同過濾等人工智能、大數(shù)據(jù)熱點(diǎn)算法的創(chuàng)新成果如何能夠成為專利保護(hù)的客體,給出了當(dāng)前審查規(guī)則適用方式。此外,本文還結(jié)合大數(shù)據(jù)、人工智能領(lǐng)域中間層算法產(chǎn)生的原因、改進(jìn)的目的及特點(diǎn),給出了進(jìn)一步放開涉及協(xié)同過濾等中間層算法的客體保護(hù)的審查政策建議,有獨(dú)到見解。