陳瑤 徐磊 徐天騁
摘 要: 選取2011—2016年國內(nèi)外主流媒體關于跨國企業(yè)生產(chǎn)布局與研發(fā)中心選址的新聞報道為樣本,經(jīng)過篩選、分類、編碼后形成307篇新聞案例,建立新聞案例庫。運用LDA主題分析法,分別對制造業(yè)在中國的選址案例、工廠與研發(fā)中心案例、電子產(chǎn)品與汽車業(yè)案例進行主題挖掘,獲取影響其選址決策的關鍵因素。
關鍵詞: 制造業(yè);選址;新聞案例;LDA
中圖分類號: C 93
文獻標志碼: A
Abstract: In this paper, we collect news from domestic and foreign mainstream media on multinational corporations′ layout of production and location of R&D centers from 2011 to 2016 as samples. After screening, classification and coding, 307 news cases were formed and a case library of news was established. Through the method of LDA Topic Model, the news cases of manufacturing location in China, factory and R&D center location, electronics and the automotive industry are mined, and we obtain the key factors that affect the location decision.
Key words: manufacturing; location; news case; LDA
1 文獻綜述
1.1 制造業(yè)選址相關研究
對于制造企業(yè)而言,選址屬于最為重要的長期決策之一,研發(fā)中心或是工廠的選址是建立、運營、管理企業(yè)的開始。企業(yè)選址的正確與否往往會直接影響服務的方式、效率、質量和成本等,進而左右企業(yè)的利潤、市場份額和市場競爭力。而影響企業(yè)選址的因素錯綜復雜,國家區(qū)域政策、交通、環(huán)境等都會對企業(yè)選址決策產(chǎn)生影響,故企業(yè)的選址是很多企業(yè)都面臨的經(jīng)營管理中的一個重要問題,也是國內(nèi)外學者的重點研究方向。
任慧娟等通過盈虧分析法、因素評分法、重心法等方式來進行設施選址,并總結出了市場條件、原材料供應條件、交通運輸條件、動力、能源和水的供應條件、氣候條件、環(huán)境保護等6個影響制造業(yè)選址的因素;梁琦通過建立空間經(jīng)濟學模型,考察運輸成本、交流成本和地方稅收政策對企業(yè)工廠選址的共同作用;鄔珊華等基于雙層規(guī)劃模型對制造業(yè)選址布局優(yōu)化方法進行了研究,并以中國鋼鐵產(chǎn)業(yè)的選址為例證明其有效性。
1.2 LDA主題建模方法
LDA (Latent Dirichlet Allocation)主題模型由 David M Blei提出,屬于自然語言處理中主題挖掘的典型模型,是一個基于概率圖的三層貝葉斯概率生成模型。LDA 主題模型的主要思想是假設文檔集中的每個文檔均由多個主題混合而成,每個主題是固定詞表上多個詞匯的多項式分布,目的在于采用高效的概率推斷算法處理大規(guī)模數(shù)據(jù),從文本語料庫中抽取潛在的主題,提供一個量化研究主題的方法。該方法目前已經(jīng)被廣泛應用到各類主題發(fā)現(xiàn)中,如熱點挖掘、主題演化、趨勢預測等。
王樹義等提出用LDA識別主題對競爭企業(yè)新聞文本進行挖掘,可以及時感知重要的新聞動態(tài)。周娜等將LDA 模型運用到學術文獻的研究中,提取文獻研究主題,進而發(fā)現(xiàn)研究內(nèi)容與研究方法之間的關系。熊回香等以LDA為基礎,對微博用戶進行主題分析,較準確地描述了用戶的微博特征。
本文將LDA主題建模方法應用到制造業(yè)選址新聞文本挖掘中,通過對新聞文本主題的提取,來研究制造業(yè)企業(yè)建設工廠、研發(fā)中心選址的關鍵因素。
2 研究方法
2.1 數(shù)據(jù)收集
本文以“企業(yè)選址”“制造業(yè)選址”“研發(fā)中心選址”等為關鍵詞,針對近年來制造業(yè)選址類新聞,搜集了 2011—2016 年國內(nèi)外主流媒體集中報道的大量跨國企業(yè)生產(chǎn)布局與研發(fā)中心選址的新聞報道,同時通過一些現(xiàn)有的新聞采集系統(tǒng),如八爪魚、火車頭等網(wǎng)頁采集軟件,共獲得新聞案例307篇,包括多家知名跨國企業(yè)的180次生產(chǎn)決策、130 次研發(fā)決策的案例。
文章根據(jù)內(nèi)容將新聞案例分為3類,以固定格式編號,并采取utf-8編碼保存在案例庫中。分類如下:(1)制造業(yè)企業(yè)選址在中國的案例共計149 篇,其中選擇來中國建造工廠的共計 68 篇,研發(fā)中心共計 82 篇,其中博世-西門子家用電器有限公司在長沙同時建了新的研發(fā)中心和工廠,故各計一篇;(2)按企業(yè)建造目標的職能進行分類,涉及工廠建造的共計 180 篇,研發(fā)中心建造的共計 130 篇,因部分案例同時建造工廠和研發(fā)中心,故計數(shù)有重復;(3)按案例內(nèi)容所處的行業(yè)進行劃分,案例數(shù)過少的行業(yè)存在較強的不確定性,故對汽車行業(yè)89篇、電子產(chǎn)品行業(yè)84篇進行分析。
2.2 LDA主題挖掘
本文的整體研究思路如圖1所示:
新聞采集后,首先對文本進行預處理,去除與企業(yè)選址不相關的內(nèi)容,如新聞案例中的信息來源、作者信息、報道的時間、文中的圖片與數(shù)字等,然后對文本進行中文分詞、去除停用詞,使文本成為可供挖掘的對象,最后將處理好的文本輸入LDA模型,進行主題抽取。LDA主題建模問題的關鍵在于主題數(shù)的確定,本文通過人為調試主題數(shù)量,使之達到困惑度最低。同時,通過比較各主題的強度,來尋找新聞案例庫中制造業(yè)選址的關鍵因素。
3 實證分析
3.1 數(shù)據(jù)的描述性統(tǒng)計
3.1.1 案例的地區(qū)分布
如圖2所示,中國以接近4成的占比成為主要的工廠建設國,美國、東南亞各國以接近20%的占比緊隨其后。相對而言,印度、拉美、南美以及日韓各國的工廠建設案例則較少。這個結果不僅體現(xiàn)了中國世界工廠的傳統(tǒng)地位,同時也反映了東南亞以及印度因其較低的生產(chǎn)成本逐漸成為制造業(yè)企業(yè)工廠選址的新寵,而歐美作為工業(yè)強國仍占據(jù)一定地位。
3.1.2 案例的行業(yè)分布
如圖3所示,新聞案例庫中的企業(yè)涉及快速消費品制造業(yè)、機械/電氣設備制造、計算機/電子通信、汽車制造業(yè)、化工業(yè)、耐用消費品制造業(yè)、生物醫(yī)藥與醫(yī)療器械制造等 7大類行業(yè)。其中,汽車、電子通信行業(yè)較多。
3.2 LDA主題建模結果
將處理過的文本數(shù)據(jù)輸入LDA主題模型,本文使用python機器學習工具包scikit-learn中的LDA函數(shù)進行參數(shù)訓練。設定文檔–主題分布θ的參數(shù)α為0.1, 主題–詞分布的參數(shù)β為0.01, 迭代次數(shù)iter為1000,選擇Gibbs Sampling估計模型的后驗參數(shù)。本文首先將主題數(shù)設定為3~8,并對每一類中的特征詞分布概率進行分析。研究發(fā)現(xiàn),在中國選址的案例、建設工廠和研發(fā)中心的案例,如圖4所示,當主題數(shù)設為5時,模型的困惑度較低,特征詞擁有較高的概率分布,主題也有了較好的區(qū)分度,模型對于選址影響因素的主題涵蓋度較高。
3.3 結果分析
3.3.1 在中國選址的因素分析
將LDA主題模型運用于選址在中國的全部案例、工廠案例、研發(fā)案例這三種情況。從各分類的案例中提取出5個主題并計算其主題強度,以及與各主題相關的前10位特征詞。以表1為例,根據(jù)設定呈現(xiàn)了5個主題,每個主題有自己的主題強度,反映了該主題在該分類中的概率分布,主題強度越高權重越大,即更常被提及,可見在該表格中第4個主題的主題強度即概率分布最高。接下來,每個主題下羅列了10個與主題最為緊密相關的特征詞,LDA主題模型本身不會定義主題,需要通過特征詞進行歸納。
在中國進行投資的原因主要在于中國政府的支持程度,其分布概率超過21.9%,可見中國近年來不斷進行招商引資的舉措取得了較好的效果。同時,產(chǎn)業(yè)鏈布局、全球化戰(zhàn)略、中國的技術水平和廣闊的市場前景,也是企業(yè)選址中國的重要因素。除了制造業(yè)企業(yè)都非??粗刂袊氖袌鲂枨笠酝?,選擇來華建廠更看重的是上下游產(chǎn)業(yè)鏈的布局以及政府出臺的政策;而研發(fā)中心的建設則更多考量的是當?shù)氐目萍佳邪l(fā)水平以及科研院所的合作意向。
3.3.2 工廠與研發(fā)中心案例選址因素分析
在這一部分本文將LDA主題模型運用于制造業(yè)企業(yè)選擇建設工廠和研發(fā)中心的兩類案例中,尋找選址因素。
由表4可見,企業(yè)興建工廠最重視的因素是成本,分布概率超過26.4%,根據(jù)特征詞可以發(fā)現(xiàn)該主題主要包括勞動力成本和關稅。同時,當?shù)貥I(yè)務的需求以及占領市場的戰(zhàn)略也是企業(yè)納入考量范圍的因素,如果當?shù)厣舷掠喂溁A較為完備,則更有利于吸引工廠入駐。而研發(fā)中心更看重當?shù)氐募夹g水平以及人才的豐富程度,其分布概率都超過20%,高素質勞動力顯然更具有吸引力??傮w而言,工廠和研發(fā)中心選址的因素區(qū)分較明顯,與在中國進行選址的案例結論較為接近,也符合本文對于這兩者選址考慮因素的一般認識。
3.3.3 電子產(chǎn)品與汽車行業(yè)案例選址因素分析
據(jù)統(tǒng)計,案例的行業(yè)分布主要集中于電子產(chǎn)品和汽車制造兩個行業(yè),分別占總案例數(shù)的30%左右,而其余行業(yè)案例較少,故本文針對這兩個行業(yè)進行分析。
首先,依舊運用LDA主題模型尋找選址因素。與之前不同的是,實驗結果顯示當主題數(shù)設為6時,主題之間有更好的區(qū)分程度。
4 結論與不足
通過收集、分析知名制造企業(yè)的 307 項生產(chǎn)、研發(fā)決策的相關案例,對制造企業(yè)工廠選址和研發(fā)中心選址的影響因素有了比較清晰的了解。成本和市場需求依舊是工廠投資最為看重的因素,輔以政策上的支持以及供應鏈的完善能夠最有效地吸引制造業(yè)企業(yè)投資建廠。對于研發(fā)中心而言,先進的技術水平、優(yōu)秀的研發(fā)人才是企業(yè)最為看重的因素,輔以良好的市場前景和穩(wěn)定的投資環(huán)境將會有利于研發(fā)中心的落地。
本文的不足之處在于案例庫研究不可避免在樣本上有局限以及主觀性。首先,樣本量越大越有助于結果的真實可靠,而本文的案例庫構建主要基于百度、搜狐、新浪等新聞門戶網(wǎng)站并最終得到了307篇案例,樣本量不足。其次,本文的新聞案例主要集中在中國,國外的案例較少。
在后續(xù)研究中,本文將依托最新的自然語言處理技術,增加新聞案例庫的樣本量以及來源,提高文本分析的精確度,進一步挖掘新聞報道中潛在的價值信息。
參考文獻:
[1] 梁琦,丁樹,王如玉. 總部集聚和工廠選址[J]. 經(jīng)濟學(季刊), 2012, 11(3):1137-1166.
[2] 任慧娟. 服務業(yè)和制造業(yè)的設施選址方法[J]. 知識經(jīng)濟, 2012(8): 15-16.
[3] 阮光冊. 基于LDA的網(wǎng)絡評論主題發(fā)現(xiàn)研究[J]. 情報雜志, 2014(3).
[4] 楊星,李保利,金明舉. 基于LDA模型的研究領域熱點及趨勢分析[J]. 計算機技術與發(fā)展, 2012(10):66-69.
[5] BLEI D M, ANDREW Y N G, MICHAEL I J. Latent dirichlet allocation [J] . Journal of Machine Learning Research, 2003(3): 993-1022.
[6] BLEI D M, LAFFERTY J D. A correlated topic model of science[J]. Correction to Annals of Applied Statistics, 2007,1(1): 17-35.
[7] 曾利,李自力,譚躍. 進基于動態(tài)LDA的科研文獻主題演化分析[J]. 軟件, 2014(5):102-107.
[8] 王樹義,廖樺濤,吳查科.基于情感分類的競爭企業(yè)新聞文本主題挖掘[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2018,2(3):70-78.
[9] 周娜,李秀霞,高丹.基于LDA主題模型的"作者-內(nèi)容-方法"多重共現(xiàn)分析——以圖書情報學為例[J].情報理論與實踐, 2019(2):1-9.
[10] 熊回香,葉佳鑫.基于LDA主題模型的微博標簽生成研究[J].情報科學,2018,36(10):7-12.
[11] 楊海霞,高寶俊,孫含林.基于LDA挖掘計算機科學文獻的研究主題[J].現(xiàn)代圖書情報技術,2016(11):20-26.
[12] DING Y. Topic-based page rank on author cocitation networks[J]. Journal of the Association for Information Science and Technology, 2011, 62(3):449-466.
[13] 賀亮,李芳. 基于話題模型的科技文獻話題發(fā)現(xiàn)與趨勢分析[D]. 上海:上海交通大學, 2012.