• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    對(duì)青年的計(jì)算文本“遠(yuǎn)讀”
    ——數(shù)字時(shí)代基于降維的整體認(rèn)識(shí)論

    2022-05-28 05:51:38梁玉成馬昱堃
    青年探索 2022年3期
    關(guān)鍵詞:文本分析信息

    ■ 梁玉成 馬昱堃

    一、引言

    習(xí)近平總書記在慶祝中國(guó)共產(chǎn)黨成立100周大會(huì)上的重要講話中提到,“未來屬于青年,希望寄予青年”,對(duì)青年群體的研究具有舉足輕重的意義。一直以來,青年群體都會(huì)隨著時(shí)代變遷而呈現(xiàn)相應(yīng)的變化,每個(gè)時(shí)代的青年都有著獨(dú)特的歷史烙印。當(dāng)代青年主要是出生于改革開放以來的“80后”“90后”“00后”,經(jīng)濟(jì)的高速增長(zhǎng)、計(jì)劃生育政策的實(shí)施、教育資源的普及、互聯(lián)網(wǎng)的快速發(fā)展以及隨之而來的社會(huì)、市場(chǎng)和制度變遷都對(duì)他們產(chǎn)生重要影響[1]。他們對(duì)新事物的接受能力更強(qiáng),具有許多新的特點(diǎn)。

    互聯(lián)網(wǎng)對(duì)當(dāng)代青年的影響在深度與廣度上都在持續(xù)拓展。從數(shù)量上看,2020年我國(guó)未成年網(wǎng)民數(shù)量達(dá)到1.83億,規(guī)模持續(xù)增長(zhǎng),并且低齡化趨勢(shì)更加明顯[2]。當(dāng)代青年,尤其是被稱為“互聯(lián)網(wǎng)一代”的“90后”和“00后”群體,其社會(huì)心態(tài)、價(jià)值觀念、文化興趣都受到互聯(lián)網(wǎng)的影響和形塑,程度比其他任何世代都更加深刻。簡(jiǎn)言之,互聯(lián)網(wǎng)已經(jīng)成為青年群體社會(huì)化的主要場(chǎng)域[3]。

    與此同時(shí),數(shù)字時(shí)代互聯(lián)網(wǎng)環(huán)境也發(fā)生著深刻轉(zhuǎn)型,人人都可以成為傳播端點(diǎn)[4]。在社交媒體上,更大的流量能夠帶來更多的收益,為此,人們更傾向于發(fā)布和轉(zhuǎn)發(fā)夸大局部事實(shí)的、能博取更多關(guān)注的信息,其行為受情感的影響遠(yuǎn)大于理性[5-6],加強(qiáng)了觀點(diǎn)的分化與極化。于是,不同觀點(diǎn)之間越來越難以通約,人們所接觸到的任何事實(shí)不僅不再完整,更是呈現(xiàn)出日益碎片化甚至顆?;奶卣鳌?/p>

    在這種情況下,人們逐漸生活在“繭房化”的世界中,對(duì)同類觀點(diǎn)的認(rèn)同包裹著情緒,變得日漸強(qiáng)化,局部“事實(shí)”的放大導(dǎo)致了“整體事實(shí)”的消解?!罢w事實(shí)”體現(xiàn)著社會(huì)過程在整體視野下的動(dòng)態(tài)因果結(jié)構(gòu)與演變過程,而局部“事實(shí)”則只反映著社會(huì)過程中受特定觀念視角濾視后的一個(gè)局部[7]。新的數(shù)字時(shí)代的青年群體在這種互聯(lián)網(wǎng)環(huán)境中,被各種局部“事實(shí)”的認(rèn)知所裹挾,越來越難以從整體視角出發(fā)審視自己所生活的世界。

    青年研究方法在范式上需要對(duì)上述現(xiàn)象有所回應(yīng)。以往針對(duì)青年網(wǎng)絡(luò)觀念與行動(dòng)的研究大多基于觀察、訪談與內(nèi)容分析等質(zhì)性方法,從微觀和個(gè)案的角度近距離呈現(xiàn)青年畫像。然而,互聯(lián)網(wǎng)的內(nèi)容生產(chǎn)和傳播速度遠(yuǎn)遠(yuǎn)快于我們觀察它們的速度,近距離的視角無法從整體上反映多元觀念之間的關(guān)系,這需要我們超越微觀視角的局部性,轉(zhuǎn)而從更宏觀的視角遠(yuǎn)距離考察青年群體及他們活動(dòng)場(chǎng)域的時(shí)空演化。

    那么,青年研究方法在范式上如何回應(yīng)社會(huì)數(shù)字化轉(zhuǎn)型的時(shí)代要求?本文借用了數(shù)字人文中的“遠(yuǎn)讀”概念,提出計(jì)算文本分析方法范式。“遠(yuǎn)讀”通過文本到信息、信息到知識(shí)的兩重降維過程,將文本內(nèi)在的整體結(jié)構(gòu)以更清晰、更簡(jiǎn)化、更容易理解的方式呈現(xiàn)出來。青年研究借助“遠(yuǎn)讀”,能夠從海量的線上文本數(shù)據(jù)中發(fā)掘潛藏其中的宏觀結(jié)構(gòu),從而克服視野的局部性,向探求“整體事實(shí)”更進(jìn)一步。

    二、“遠(yuǎn)讀”的概念緣起、內(nèi)容與方法

    (一)“遠(yuǎn)讀”的概念緣起

    在人文研究領(lǐng)域,數(shù)字化轉(zhuǎn)型的一個(gè)后果是越來越多的作品以數(shù)字形式存儲(chǔ)在數(shù)據(jù)庫中[8],龐大的數(shù)據(jù)量讓它們顯然無法通過人工方式逐一分析。人文研究領(lǐng)域?qū)@一轉(zhuǎn)型的回應(yīng)即是“遠(yuǎn)讀”(Distant Reading)的提出。莫瑞蒂(Franco Moretti)最先介紹了這一概念,與“近讀”(Close Reading)相對(duì)應(yīng),“遠(yuǎn)讀”指的是“通過聚合和分析大量數(shù)據(jù)來理解文學(xué),而不是研讀特定的文本”[9]。

    與“近讀”通過對(duì)文本的主觀深度理解和細(xì)致解釋來把握其詳細(xì)內(nèi)容不同,“遠(yuǎn)讀”主要關(guān)注大量文本中的宏觀結(jié)構(gòu),例如使用可視化技術(shù)分析文本中涉及的社會(huì)關(guān)系、地理信息和時(shí)間線等信息,除此之外,還能研究作品之間的承接與相似[10]?;ヂ?lián)網(wǎng)上活躍的每一個(gè)用戶都以寫作者的身份參與著線上社會(huì)互動(dòng),因而本文將“遠(yuǎn)讀”引申為應(yīng)用計(jì)算文本分析技術(shù),從宏觀和整體的視角出發(fā)把握大量文本中的潛在結(jié)構(gòu)與關(guān)系。

    (二)“遠(yuǎn)讀”的內(nèi)容

    “遠(yuǎn)讀”的核心目標(biāo)是把握海量文本的宏觀結(jié)構(gòu),因而需要借助計(jì)算文本分析方法從文本中提取、整合與分析內(nèi)容。為了便于量化分析,首先需要明確與文本內(nèi)容有關(guān)的信息有哪些?;谝延形墨I(xiàn)[11-14],結(jié)合社會(huì)科學(xué)對(duì)文本信息的需求層次,本文將需要考慮的文本信息大致分成以下四類。(1)詞義信息。詞義信息體現(xiàn)了文本的內(nèi)容與包含的主題。(2)詞性信息。詞性對(duì)應(yīng)著詞語的類型與功能,既包括詞語的語言學(xué)特征,也包括社會(huì)科學(xué)對(duì)其賦予的理論維度。(3)關(guān)系信息。在詞義和詞性的基礎(chǔ)上,將句子和文檔作為整體,進(jìn)一步分析詞語之間的語義關(guān)系。(4)情境信息。表示產(chǎn)生文本的社會(huì)情境,例如作者身份、文本生成時(shí)間等。文本分析方法即是通過各類算法處理上述信息,將其結(jié)構(gòu)化為計(jì)算機(jī)能夠處理的數(shù)據(jù),之后以整體性的視角將它們之間的關(guān)系呈現(xiàn)出來,最終實(shí)現(xiàn)對(duì)文本的宏觀分析。

    (三)“遠(yuǎn)讀”的方法

    為了能夠上升到整體的視角,“遠(yuǎn)讀”需要借助計(jì)算文本分析方法實(shí)現(xiàn)文本信息的結(jié)構(gòu)化表示,將它們放置在向量空間中。近些年來,機(jī)器學(xué)習(xí)算法大幅提升了文本處理的性能,也從本質(zhì)上改變了文本表示的方法。根據(jù)是否通過機(jī)器學(xué)習(xí)算法對(duì)文本信息進(jìn)行壓縮,可以將計(jì)算文本分析方法大致分為顯式表示和隱式表示兩種,前者直接根據(jù)詞項(xiàng)定義特征項(xiàng)①在文本分析中,特征項(xiàng)可以被理解為算法處理的最基本單元,它可以是詞匯,也可以是短語。特征項(xiàng)確定后,還需要對(duì)每個(gè)特征項(xiàng)賦予一定的權(quán)重。它們可以是特征項(xiàng)的頻率,也可以基于頻率的計(jì)算結(jié)果。,是一種直觀的文本表示方法;后者則是通過機(jī)器學(xué)習(xí)算法對(duì)文本信息壓縮后的表示。從方法承接上來看,文本顯式表示通常是隱式表示的基礎(chǔ)。通常,在對(duì)文本進(jìn)行分析之前,還需要先對(duì)文本進(jìn)行預(yù)處理,包括清除停用詞(Stop Words)②停用詞通常指的是出現(xiàn)頻率非常高,但附帶的文本信息非常少的詞匯,包括助詞、介詞、連詞、語氣詞等,比如“的”“了”“the”等。、進(jìn)行特征工程,針對(duì)英文需要詞形規(guī)范化,針對(duì)中文文本需要分詞③詞形規(guī)范化是將單詞的單復(fù)數(shù)、時(shí)態(tài)等不同詞形還原為詞根。因?yàn)橛⑽膯卧~在文本中由空格隔開,所以可以直接將文本分解為詞項(xiàng)。但中文由于沒有詞匯分隔符,需要使用專門的工具分詞。這些概念的原理性表述可以參考文本分析的教材。。

    1.機(jī)器學(xué)習(xí)概念簡(jiǎn)述④本文主要介紹計(jì)算文本分析,因而僅對(duì)機(jī)器學(xué)習(xí)進(jìn)行概述,感興趣的讀者可以參考相關(guān)教材,如周志華著的《機(jī)器學(xué)習(xí)》做更多的了解。

    機(jī)器學(xué)習(xí)指的是利用一系列算法,從數(shù)據(jù)中挖掘模式關(guān)系,進(jìn)行分類、聚類或預(yù)測(cè)等任務(wù)。根據(jù)訓(xùn)練數(shù)據(jù)是否擁有目標(biāo)特征的信息,機(jī)器學(xué)習(xí)大致可以分為有監(jiān)督學(xué)習(xí)(Supervised Learning)和無監(jiān)督學(xué)習(xí)(Unsupervised Learning)。

    (1)有監(jiān)督學(xué)習(xí):分類、擬合與預(yù)測(cè)

    有監(jiān)督學(xué)習(xí)的目標(biāo)是挖掘變量之間的關(guān)系,在自變量與因變量取值已知的情況下,構(gòu)造模型對(duì)二者之間的關(guān)系進(jìn)行擬合。在有監(jiān)督學(xué)習(xí)中,通常需要將樣本數(shù)據(jù)隨機(jī)劃分為訓(xùn)練集和測(cè)試集,在訓(xùn)練集上訓(xùn)練模型,在測(cè)試集上檢驗(yàn)?zāi)P偷姆夯芰?。常見的算法包括決策樹、支持向量機(jī)和部分神經(jīng)網(wǎng)絡(luò)算法等。有監(jiān)督學(xué)習(xí)主要應(yīng)用于分類、擬合與預(yù)測(cè)等任務(wù)場(chǎng)景。

    (2)無監(jiān)督學(xué)習(xí):聚類與降維

    無監(jiān)督學(xué)習(xí)則是針對(duì)單一或多個(gè)變量,對(duì)樣本進(jìn)行潛在關(guān)系的劃分,常見任務(wù)包括聚類與降維。聚類的目標(biāo)是找出數(shù)據(jù)中的潛在子群體,例如k均值算法、高斯混合聚類等。聚類任務(wù)更重視對(duì)樣本空間的劃分,而降維則是找出數(shù)據(jù)中大量特征之間的潛在關(guān)系,從而讓數(shù)據(jù)以更清晰、更簡(jiǎn)化、更容易理解的方式呈現(xiàn)出來[15]。

    比較基礎(chǔ)的降維算法是主成分分析(Principal Component Analysis,PCA)。它的目標(biāo)是找到若干維度最大化地解釋數(shù)據(jù)方差。PCA能夠?qū)?shù)據(jù)視為一個(gè)整體,發(fā)現(xiàn)其潛在結(jié)構(gòu),但因?yàn)樗且环N線性變換,不一定能夠把握更復(fù)雜的信息。因此,后來又發(fā)展出了局部線性嵌入(Locally Linear Embedding,LLE)、t分布隨機(jī)近鄰嵌入(t-Distributed Stochastic Neighbor Embedding,t-SNE)等能夠處理非線性結(jié)構(gòu)的降維方法。這兩種方法都是通過將數(shù)據(jù)在高維空間中的局部特征在低維空間中重構(gòu)出來,從而實(shí)現(xiàn)降維的目的。LLE最大化地保持?jǐn)?shù)據(jù)在降維前后局部線性關(guān)系的不變性;t-SNE將樣本之間的距離視作概率分布,目標(biāo)是在低維空間中重建原始樣本之間的概率分布相似性。除此之外,還有自組織映射(Self-organizing Maps)和自編碼器(Autoencoder)等基于神經(jīng)網(wǎng)絡(luò)的降維方法。無監(jiān)督算法通過數(shù)據(jù)驅(qū)動(dòng),能夠幫助研究者排除自身的先驗(yàn)預(yù)設(shè),從數(shù)據(jù)當(dāng)中直接發(fā)現(xiàn)潛在的子群體與意義結(jié)構(gòu)。

    機(jī)器學(xué)習(xí)技術(shù)既是計(jì)算文本分析算法的環(huán)節(jié),也被用于對(duì)文本數(shù)據(jù)的分類與聚類:一方面,文本隱式表示需要借助機(jī)器學(xué)習(xí)將文本壓縮為低維向量;另一方面,機(jī)器學(xué)習(xí)可以對(duì)向量化后的文本進(jìn)行分類、聚類與降維任務(wù)。其中,降維與聚類能夠幫助我們擺脫預(yù)斷,直接從數(shù)據(jù)中找出潛在的模式。

    2.文本的顯式表示

    顯式文本表示較少考慮文本的生成情境?;谠~義信息的常用表示方法包括詞頻統(tǒng)計(jì)和詞頻—倒文檔頻率(Term Frequency-Inverse Document Frequency,TF-IDF)。這些表示方法大多都是將文檔視為一組詞語構(gòu)成的“詞袋”(Bag-of-Words,BOW),不考慮詞序信息,最終將文檔表示為一個(gè)向量,向量的每個(gè)維度都代表一個(gè)詞語在特定文檔中的詞頻信息。

    基于詞性信息的方法在詞義的基礎(chǔ)上引入理論維度,既包括詞語的語言學(xué)特征(如名詞、動(dòng)詞、形容詞等),也包括研究者從理論建構(gòu)需求出發(fā)引入的維度(如詞語的情緒特征、情感極性等)。以“語言探索與字詞計(jì)數(shù)”(Linguistic Inquiry and Word Count,LIWC)和WordScore方法為例,前者用來對(duì)文本進(jìn)行情感分析,后者最初用于針對(duì)政策文本的價(jià)值評(píng)價(jià)。

    LIWC在心理學(xué)中較為常用,它將詞語區(qū)分為幾個(gè)維度,例如語言學(xué)維度、心理學(xué)維度、認(rèn)知維度,最終輸出文本當(dāng)中不同詞語的百分比[16]。WordScore先對(duì)每篇參考文檔賦予一個(gè)權(quán)重,表示文檔在特定政策領(lǐng)域的定位。之后將文本看作詞袋,通過詞頻計(jì)算詞語對(duì)該權(quán)值的相對(duì)貢獻(xiàn),得到每個(gè)詞語的詞權(quán)值。利用得到的詞權(quán)值計(jì)算目標(biāo)文檔的政策傾向[17]。在LIWC方法中,詞語被事先分配了類型和情感信息,而在WordScore中,詞語的理論意義是在分析過程中計(jì)算得來的。

    對(duì)關(guān)系信息的挖掘中,較為簡(jiǎn)單的方法是通過詞語的共現(xiàn)(Co-occurrence)程度繪制語義網(wǎng),這是一種基于詞頻的呈現(xiàn)方法。“n元語法”(N-gram)模型能夠在一定程度上捕捉近距離的詞序信息。它假定每一個(gè)詞的出現(xiàn)概率都由前n-1個(gè)詞決定,用一個(gè)長(zhǎng)度為n的窗口,從句首到句尾逐詞移動(dòng),將句子切分為一系列詞語序列,把這些詞語序列看做短語,當(dāng)n=1時(shí)即為詞項(xiàng)構(gòu)成的序列。除此之外還有基于語言學(xué)的句法分析,可以進(jìn)一步分為短語結(jié)構(gòu)分析(Constituent Parsing)和依存關(guān)系分析(Dependency Parsing)。前者首先根據(jù)句子中的詞性特征,將句子切分成一組短語,后者的目標(biāo)是自動(dòng)分析出詞匯之間的語義依存關(guān)系,這兩者可以相互轉(zhuǎn)換[13]。以句法分析為基礎(chǔ)開發(fā)出了命名實(shí)體識(shí)別(Named Entity Recognition)和關(guān)系抽?。≧elationship Extraction)技術(shù),這是構(gòu)造知識(shí)圖譜的基礎(chǔ)。命名實(shí)體即事物的名稱,包括人物、組織、地名等,它們通常是知識(shí)圖譜的節(jié)點(diǎn),而它們之間的關(guān)系通常通過謂詞界定。

    3.文本的降維隱式表示

    顯式文本表示方法面臨著數(shù)據(jù)稀疏、性能受限的制約,并且較少考慮到文本的產(chǎn)生情境,所以只能處理一些較為基礎(chǔ)的任務(wù)。隱式表示方法以它們?yōu)榛A(chǔ),結(jié)合機(jī)器學(xué)習(xí),進(jìn)一步延伸了對(duì)文本信息的挖掘深度,并能夠吸收文本中的語義關(guān)系信息,部分方法還能與社會(huì)情境相結(jié)合。文本隱式表示借助降維,能夠涵蓋和整合更多的語義關(guān)系信息①這種表示方法是文本分布式表示的一類。分布式表示假定上下文相似的詞語,意義也相似。。通??梢苑譃閮深悾何谋靖拍畋硎竞臀谋旧疃缺硎?。前者主要以各類主題模型為代表,后者則是神經(jīng)網(wǎng)絡(luò)方法在文本分析中的應(yīng)用[13]。

    主題模型(Topic Model)克服了顯式文本表示難以捕捉一詞多義的局限。將文檔視為“詞袋”是一種直接衡量“文檔—詞項(xiàng)”關(guān)系的方法,主題模型在二者之間引入主題作為中介,刻畫“文檔—主題—詞項(xiàng)”關(guān)系。這一關(guān)系假定文檔中的詞語按以下過程逐個(gè)產(chǎn)生:先以一定的主題概率分布選取主題,再以這一主題中的詞語概率分布選擇特定詞。雖然主題模型不考慮詞序信息,但會(huì)基于詞語的共現(xiàn)關(guān)系將其分配到特定的主題中。

    早期的主題模型是潛在語義分析(Latent Semantic Analysis,LSA),LSA將文檔表示為一組由詞語構(gòu)成的隱式概念(即主題)。先通過基于詞頻統(tǒng)計(jì)的方法將若干文檔表示成“詞項(xiàng)—文檔”矩陣,再通過奇異值分解(Singular Value Decomposition,SVD),將“詞項(xiàng)—文檔”矩陣分解為“詞項(xiàng)—主題”矩陣和“主題—文檔”矩陣,因而,LSA可以被看作是一種通過降維表示文本的技術(shù)。

    由于LSA受限于奇異值分解的計(jì)算復(fù)雜度,后來的學(xué)者將概率統(tǒng)計(jì)思想引入主題模型,將“詞項(xiàng)—主題”和“主題—文檔”之間的關(guān)系用概率分布刻畫,利用最大似然估計(jì),開發(fā)出概率潛在語義分析(Probabilistic Latent Semantic Analysis,PLSA)方法。而現(xiàn)在經(jīng)常使用的潛在狄利克雷分配(Latent Dirichlet allocation,LDA)則是在PLSA的基礎(chǔ)上更換概率分布函數(shù)并用貝葉斯估計(jì)取代最大似然估計(jì)發(fā)展而來的[13]。

    LDA是一種無監(jiān)督降維技術(shù),后來又發(fā)展出了一些有監(jiān)督學(xué)習(xí)方法,如有監(jiān)督LDA[18]和有標(biāo)記LDA[19]。除此之外,還有能夠?qū)⑽谋厩榫臣{入分析的結(jié)構(gòu)主題模型(Structural Topic Model)[20],它最初用來分析問卷中的開放式回答,能夠?qū)⒆髡咝畔?、文本發(fā)布時(shí)間等情境信息的先驗(yàn)分布納入“文檔—主題—詞項(xiàng)”關(guān)系進(jìn)行計(jì)算。

    文本嵌入引入了人工神經(jīng)網(wǎng)絡(luò)算法,是一種隱式的語義關(guān)系表達(dá)。它將大量文本中蘊(yùn)含的語義關(guān)系,通過神經(jīng)網(wǎng)絡(luò)映射在向量空間中,表現(xiàn)為向量之間的幾何關(guān)系。比較基礎(chǔ)的文本嵌入即是詞嵌入(Word Embedding),通常也被稱為詞向量(Word2Vec)。這一模型的原始目的在于建立詞語與其上下文之間的關(guān)系,達(dá)到給定其中一個(gè)來預(yù)測(cè)另一個(gè)的目標(biāo),詞向量是這一過程的副產(chǎn)品。通過上下文預(yù)測(cè)目標(biāo)詞語的算法為CBOW(Continuous Bag-of-Words),通過詞語預(yù)測(cè)目標(biāo)上下文的算法為Skip-Gram[21]。借助向量運(yùn)算(如向量減法、余弦相似度等),將向量投影至特定的語義維度,就能將詞語的語義關(guān)系抽取出來。在詞向量的基礎(chǔ)上,進(jìn)一步發(fā)展出了句向量、文檔向量以及其他深度神經(jīng)網(wǎng)絡(luò)等方法,限于篇幅本文不再一一介紹①自然語言處理技術(shù)一直以工程應(yīng)用為導(dǎo)向,目前仍然處在快速發(fā)展過程中,新的方法層出不窮。本文所選取的方法已經(jīng)被應(yīng)用于社會(huì)科學(xué),并取得了一定進(jìn)展。。

    以上兩種表示方法雖然路徑不同,但目標(biāo)都是將文本中的信息整合起來:前者將大量文本轉(zhuǎn)化為有限的主題,從而將文檔表示為主題分布,后者將文本壓縮表示為稠密向量。它們也可以被看作是文本到向量的降維手段。一旦將文本向量化,就能進(jìn)一步應(yīng)用前文提及的機(jī)器學(xué)習(xí)算法執(zhí)行分類、聚類與降維的任務(wù),從而挖掘文本背后的結(jié)構(gòu)。

    三、“遠(yuǎn)讀”的路徑

    “遠(yuǎn)讀”幫助研究者跳出微觀,從宏觀的視角看待研究對(duì)象,大致可以分為六條路徑,分別是編碼與分類、情感分析、降維分析、主題抽取、分化與極化以及文化測(cè)量,它們分布在對(duì)計(jì)算文本分析方法的工具性應(yīng)用和理論性應(yīng)用的連續(xù)譜上,彼此之間存在串行、并行與交叉,需要結(jié)合研究目標(biāo)綜合考慮不同層次的文本信息,并使用較為適用的文本分析方法。

    圖1 “遠(yuǎn)讀”路徑分類

    1.編碼與分類

    對(duì)文本的分析是質(zhì)性研究中關(guān)鍵的一環(huán),學(xué)者們認(rèn)為量化文本分析技術(shù)能夠回應(yīng)質(zhì)性研究中代表性與可復(fù)現(xiàn)性不足的問題。因而,部分學(xué)者開始嘗試將傳統(tǒng)的質(zhì)性研究與量化方法相結(jié)合。例如,對(duì)質(zhì)性研究者來說,可以將文本分析技術(shù)作為大量文本數(shù)據(jù)預(yù)處理或初步探查的手段[22],有助于研究者克服理論預(yù)設(shè)對(duì)資料解讀視角的制約[23]。機(jī)器學(xué)習(xí)發(fā)展使得從文本中提取結(jié)構(gòu)化信息變得更加方便。學(xué)者們大多通過監(jiān)督學(xué)習(xí)方法對(duì)文本進(jìn)行分類。例如,有學(xué)者通過有監(jiān)督機(jī)器學(xué)習(xí)對(duì)領(lǐng)導(dǎo)留言板的文本內(nèi)容進(jìn)行歸類,分析政府回應(yīng)的話語模式類型。他們首先將文本向量化,然后從總體數(shù)據(jù)中隨機(jī)抽取出部分樣本構(gòu)成訓(xùn)練集,對(duì)其進(jìn)行人工編碼,之后根據(jù)機(jī)器學(xué)習(xí)對(duì)其余四萬多條文本進(jìn)行分類[24]。尼爾森(Nelson)等人系統(tǒng)性地測(cè)試了監(jiān)督學(xué)習(xí)算法在文檔編碼過程中的效度,并將之與基于字典的編碼和非監(jiān)督學(xué)習(xí)相比較,結(jié)果表明監(jiān)督學(xué)習(xí)算法在文本分類中表現(xiàn)最好[25]。

    2.情感分析

    情感分析的目的是對(duì)文本進(jìn)行情感歸類。從分析粒度來看,情感分析可以分為文檔級(jí)、句子級(jí)、詞語級(jí)和屬性級(jí)(Aspect-level)[13],前三種從字面意思即可理解分析目標(biāo),而屬性級(jí)情感分析則是從文本中進(jìn)一步抽象出語言表達(dá)的分析維度,呈現(xiàn)文本在各個(gè)分析方面的態(tài)度傾向。從方法取向上,情感分析可以分為機(jī)器學(xué)習(xí)路徑與詞典匹配路徑[26]。機(jī)器學(xué)習(xí)取向的方法將情感分析看作是通常的文本分類任務(wù);基于詞典的方法則需要預(yù)制情感詞表,按情感傾向?qū)⒃~語分類,或標(biāo)記出詞語的情緒類型。之后通過一系列算法,將文本中的詞語與詞典中進(jìn)行匹配,從而計(jì)算文本的情感傾向。

    例如,有學(xué)者使用基于詞典的情感分析方法,針對(duì)研究問題編制了特定的情感詞典,對(duì)四百多個(gè)半結(jié)構(gòu)化的生活滿意度訪談文本進(jìn)行情感檢測(cè)[27]。而在青年研究中應(yīng)用情感分析的例子較多。學(xué)者們通常使用基于詞典的情感分析軟件分析青年對(duì)待社會(huì)現(xiàn)象和具體事件的態(tài)度[28-30],部分學(xué)者還借助了平臺(tái)公司開發(fā)的人工智能API[31]。

    3.降維分析

    降維是一種簡(jiǎn)化數(shù)據(jù)的手段。從技術(shù)上看,在機(jī)器學(xué)習(xí)中,訓(xùn)練數(shù)據(jù)的特征數(shù)量非常龐大,需要大量的計(jì)算開銷,如果訓(xùn)練任務(wù)僅僅需要數(shù)據(jù)在一個(gè)低維空間的分布信息,那么對(duì)數(shù)據(jù)降維能夠降低模型訓(xùn)練的成本,優(yōu)化訓(xùn)練效果。從社會(huì)科學(xué)的角度看,降維的一大用途是將若干個(gè)彼此之間相關(guān)性較高的變量用一個(gè)潛變量代替,或是降低回歸模型的多重共線性。PCA仍是當(dāng)前學(xué)術(shù)界主要使用的技術(shù),但降維方法也產(chǎn)生了許多新的發(fā)展,能夠處理更加復(fù)雜的數(shù)據(jù)結(jié)構(gòu)[15]。

    從以上兩個(gè)方面來說,降維在“遠(yuǎn)讀”中具有更加重要的意義。首先,降維思想內(nèi)在地包含于計(jì)算文本分析的方法實(shí)踐中,例如LSA和PCA均使用了奇異值分解,Word2Vec與利用神經(jīng)網(wǎng)絡(luò)的自編碼器降維原理也具有相似性。其次,社交媒體時(shí)代互聯(lián)網(wǎng)上有著大量的文本數(shù)據(jù),為了從巨量的數(shù)據(jù)中排除隨機(jī)擾動(dòng)和無關(guān)緊要的細(xì)節(jié),找出主要的結(jié)構(gòu)和潛在的子群體,探求“整體事實(shí)”,就必須用到降維。接下來將要介紹的三條路徑都在不同程度上體現(xiàn)著降維思想。通過降維,文本的內(nèi)在關(guān)系得以直觀地呈現(xiàn)出來[32]。

    4.主題抽取

    文本分析方法的一個(gè)重要用途就是從文本中抽取主題,從而分析文本的內(nèi)容。傳統(tǒng)分析方法通常通過與詞頻統(tǒng)計(jì)相關(guān)的方法衡量文本主題。例如通過語義網(wǎng)分析《人民日?qǐng)?bào)》“五四”紀(jì)念話語的變遷[33],以及廣深兩地“雙創(chuàng)”政策的主題[34]。這種方法雖然直觀,但難以捕捉一詞多義,并且分析難度會(huì)隨著文本規(guī)模增長(zhǎng)而變大。以LDA為代表的主題模型可以挖掘出文檔中的潛在主題,成為近些年來社會(huì)科學(xué)中廣泛使用的方法。

    例如,有學(xué)者收集了新浪微博中與勞工話題有關(guān)的文本,使用LDA將其區(qū)分成10個(gè)主題,分析了這些話題比例從2012到2014年的變遷趨勢(shì)[35]。與之類似,還有研究根據(jù)關(guān)注度、閱讀量、討論度和與青年日常生活關(guān)系的緊密程度選取了三個(gè)微博話題,通過LDA分別對(duì)這些話題進(jìn)行分析,聚焦當(dāng)代青年較為典型的需求[36]。還有學(xué)者使用LDA分析了農(nóng)村、農(nóng)業(yè)和農(nóng)民相關(guān)的主題在每年政府工作報(bào)告中的比例,借此構(gòu)造了中央政府對(duì)農(nóng)村工作的注意力指數(shù)[37]。LDA在主題抽取中應(yīng)用廣泛,它屬于無監(jiān)督學(xué)習(xí),需要結(jié)合混亂度(Perplexity)和一致性(Coherence)等指標(biāo)衡量模型質(zhì)量,給出的結(jié)果依然需要結(jié)合理論進(jìn)行解讀。

    5.分化與極化

    由于能夠?qū)⑽谋居成涞较蛄靠臻g,從而量化它們之間的關(guān)系,因而文本分析的一項(xiàng)重要應(yīng)用就是觀念的分化與極化測(cè)量。文本包含著不同的主題,針對(duì)同一情境下的文本,使用顯式文本表示、主題模型或文本嵌入方法,將文本中的信息轉(zhuǎn)化為向量,就能夠衡量不同文本在內(nèi)容上的差異,從而通過聚類與降維技術(shù)量化分析觀念的分化與極化。

    例如,有學(xué)者使用詞頻比對(duì)分析美國(guó)政治極化,他們從國(guó)會(huì)記錄中識(shí)別出表示政治傾向的短語,將它們與谷歌書籍?dāng)?shù)據(jù)庫中的數(shù)據(jù)比對(duì),發(fā)現(xiàn)極化用語在書籍語料庫中出現(xiàn)頻率的上升趨勢(shì)領(lǐng)先于國(guó)會(huì)演講[38]。近些年機(jī)器學(xué)習(xí)方法也被應(yīng)用于分析分化與極化,例如將美國(guó)議員在推特上發(fā)布的文本表示為“n元語法”,利用隨機(jī)森林算法衡量議員的政治傾向[39]。還有學(xué)者將結(jié)構(gòu)主題模型應(yīng)用于討論氣候變化的文本,分析了接受利益贊助是否會(huì)影響這些文本的態(tài)度[40]。還有學(xué)者使用“全球事件、語調(diào)與語言數(shù)據(jù)庫”(Global Database of Events,Language and Tone,GDELT)收集了西方國(guó)家媒體報(bào)道的文本數(shù)據(jù),通過將句子向量化,使用無監(jiān)督學(xué)習(xí)降維與聚類,從而分析西方媒體涉華言論的主題分化[41]。

    6.文化測(cè)量

    近些年,以主題模型和文本嵌入為代表的分析方法,在文化測(cè)量領(lǐng)域取得了重要進(jìn)展。它們通過降維將文本放置在一個(gè)向量空間中,能夠?qū)ξ幕瘓D式(Cultural Schema)和文化框架(Cultural Frames)進(jìn)行測(cè)量。博柏利(Boutyline)和索特(Soter)指出,在認(rèn)知科學(xué)和社會(huì)學(xué)中,基于海量文本數(shù)據(jù)訓(xùn)練得到的詞向量模型可以成功測(cè)量文化圖式[42],詞向量可以捕捉到文本中蘊(yùn)含的偏見[43]。在向量空間中幾何距離相近的詞向量,其上下文內(nèi)容相似,也共享著近似的含義。詞向量可以將文化意義關(guān)系映射為向量空間中的幾何關(guān)系,例如,“King-Man+Woman”對(duì)應(yīng)的詞向量計(jì)算結(jié)果,與“Queen”距離非常接近[44]。

    佳格(Garg)等人使用谷歌新聞和圖書大數(shù)據(jù)訓(xùn)練詞向量,研究了一百年來美國(guó)性別偏見的變遷[45]。他們分別計(jì)算男性/女性身份代詞向量與特定職業(yè)名詞向量之間的距離之差,這一差值隨時(shí)間的變化與關(guān)于職業(yè)參與的人口統(tǒng)計(jì)特征相吻合,也即,不同職業(yè)中的性別比例反映在性別身份代詞與職業(yè)名詞在向量空間中的距離中。除了利用相似度,還有學(xué)者利用向量減法挖掘文化維度。他們利用表示階層、性別、道德等文化維度的反義詞對(duì),計(jì)算出它們?cè)谙蛄靠臻g中的單位向量,比較了這些維度彼此之間的距離,并將其他詞語(例如職業(yè)名稱)投影到這些維度,代表它們?cè)谖幕S度的定位[46]。

    主題模型也被用來測(cè)量文化。它的算法基于文檔中詞語的共現(xiàn)情況將其歸入不同主題。迪馬吉奧(DiMaggio)指出,主題模型應(yīng)用于文化分析有三個(gè)優(yōu)勢(shì)。首先是其結(jié)果的可解釋性。它的結(jié)果在文化社會(huì)學(xué)中常常被看作是文化框架。其次,主題模型能夠借助上下文捕捉一詞多義,同一個(gè)詞語可以穿插出現(xiàn)在不同的主題中。第三,主題模型能夠從單一的文本中捕捉蘊(yùn)藏于其中的不同觀點(diǎn)或表達(dá)風(fēng)格。這些都說明主題模型能夠捕捉到文化概念之間的復(fù)雜關(guān)系[23]。有學(xué)者使用主題模型研究了美國(guó)聯(lián)邦公開市場(chǎng)委員會(huì)(The Federal Open Market Committee,F(xiàn)OMC)為何會(huì)低估2007~2008年間的金融風(fēng)險(xiǎn)。他們使用主題模型分析了FOMC在2000~2008年間的會(huì)議記錄,說明其如何將宏觀經(jīng)濟(jì)學(xué)作為主要框架,將關(guān)于金融市場(chǎng)的異常信息邊緣化和正常化,從而忽視金融風(fēng)險(xiǎn)[47]。

    四、“遠(yuǎn)讀”青年的降維認(rèn)識(shí)論

    (一)“遠(yuǎn)讀”青年中的降維思想

    縱觀“遠(yuǎn)讀”的方法與上文提到的應(yīng)用案例,不難發(fā)現(xiàn)這一范式的核心目的在于,從紛繁復(fù)雜的文本細(xì)節(jié)中抽離出來,跳出局部?jī)?nèi)容,轉(zhuǎn)而上升到一個(gè)整體的結(jié)構(gòu)層面理解大量文本。不論是從最基礎(chǔ)的詞頻統(tǒng)計(jì),還是到更加復(fù)雜的主題模型與文本嵌入技術(shù),都是跳出單一文本,轉(zhuǎn)而從整體關(guān)系的視角出發(fā),將它們放在同一個(gè)向量空間中觀察。

    例如,TF-IDF不僅考慮某個(gè)詞語在單個(gè)文本中的重要性,還會(huì)納入它在一組文檔中的相對(duì)重要性,從而間接地體現(xiàn)出文本之間的關(guān)系。主題模型和文本嵌入不僅能提供一種整體性的視野,還進(jìn)一步壓縮了文本信息,用更少的維度表示它們。主題模型將在大量詞語與大量文檔之間引入主題維度組成的隱空間,用少量主題可以刻畫大量的詞語與文檔之間的關(guān)系。文本嵌入則是利用神經(jīng)網(wǎng)絡(luò)算法,將詞語之間的關(guān)系用高維向量表示在一個(gè)向量空間中。

    總之,“遠(yuǎn)讀”是一種整體性、關(guān)系性的視角,重要的不是對(duì)某個(gè)局部進(jìn)行細(xì)致的考察,但也不是完全不考慮文本的細(xì)節(jié),而是將這些細(xì)節(jié)納入到一種局部不可見的宏觀結(jié)構(gòu)中,通過計(jì)算文本分析方法,揭開隱藏在大量文本中的整體結(jié)構(gòu)。因此,主題模型與文本嵌入可以被視為一種文本降維技術(shù),都是將信息聚合在更小的維度來表示大量信息。從這個(gè)意義上說,這是“遠(yuǎn)讀”中的第一重降維,是文本到信息的降維。

    然而,將大量文本映射到向量空間中還不能讓它們之間的關(guān)系直接顯現(xiàn)出來。通過主題模型和文本嵌入方法得到的文本表示結(jié)果通常都大于三個(gè)維度,例如詞嵌入結(jié)果通常都是100維以上的向量,再加上神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程是一個(gè)“黑箱”,我們很難理解每個(gè)維度代表什么信息。這時(shí)需要第二重降維,也就是信息到知識(shí)的降維。

    第一重降維重在文本表示,將文本放置到向量空間中,將文本之間的關(guān)系表示為向量相似度或距離的關(guān)系,第二重降維重在知識(shí)提取,目的在于從這層關(guān)系中挖掘關(guān)系、發(fā)現(xiàn)模式、歸納知識(shí)、描述現(xiàn)實(shí),這需要使用上文提到的降維技術(shù)。經(jīng)過第二重降維,文本的結(jié)構(gòu)能夠以更加簡(jiǎn)明的方式呈現(xiàn)出來。

    圖2 兩重降維示意①大多數(shù)實(shí)際情況下,維數(shù)都會(huì)更多,為方便說明,使用3維和2維作為示意。

    (二)“遠(yuǎn)讀”青年的認(rèn)識(shí)過程

    從互聯(lián)網(wǎng)誕生到現(xiàn)在,人類社會(huì)先后經(jīng)歷了物品數(shù)字化、社會(huì)個(gè)體生活的數(shù)字化乃至人的整體數(shù)字化[48]。人們?cè)谏缃幻襟w上的行為痕跡與表達(dá)內(nèi)容都以數(shù)據(jù)的形式存儲(chǔ)在服務(wù)器中,它們從產(chǎn)生到存儲(chǔ)和管理的整個(gè)過程都離不開算法。

    算法對(duì)數(shù)據(jù)具有調(diào)遣和規(guī)范的作用,它將數(shù)據(jù)標(biāo)準(zhǔn)化,以人為設(shè)計(jì)的目的呈現(xiàn)出來。因而,人們?cè)跀?shù)字空間的互動(dòng)與算法對(duì)數(shù)字的干預(yù)過程緊密耦合在一起,算法成為了技術(shù)化的社會(huì)規(guī)則[48]。一旦將內(nèi)容生產(chǎn)出來并轉(zhuǎn)化為數(shù)字,它們就不再受到生產(chǎn)者的控制,轉(zhuǎn)而成為信息流的一部分。在這個(gè)過程中,人們自身的行動(dòng)后果成為了將來行動(dòng)的外在條件,反過來對(duì)行動(dòng)者造成影響,強(qiáng)化了社會(huì)的反身性。

    在前社交媒體時(shí)代,完整的社會(huì)事實(shí)分發(fā)過程由專業(yè)化的媒體機(jī)構(gòu)實(shí)現(xiàn)。媒體通過報(bào)紙雜志、廣播電視和門戶網(wǎng)站等媒介,將信息從中心信源經(jīng)由各級(jí)媒體機(jī)構(gòu)垂直向下分發(fā),最終到達(dá)目標(biāo)受眾,整個(gè)過程呈現(xiàn)“樹狀單中心化”的結(jié)構(gòu)。社交媒體時(shí)代,信息傳播與線上社會(huì)互動(dòng)之間的邊界模糊化了,信息傳播轉(zhuǎn)化為一種社交行為,資訊流動(dòng)與社會(huì)互動(dòng)密切交織在一起。為了獲得更大的關(guān)注量,人們更傾向于發(fā)布和轉(zhuǎn)發(fā)夸大局部“事實(shí)”的、能博取更多關(guān)注的信息,其行為受情感的影響程度遠(yuǎn)大于理性。這個(gè)過程造就了一批意見領(lǐng)袖,從而使得信息傳播呈現(xiàn)“網(wǎng)狀泛中心化”的結(jié)構(gòu)。

    專業(yè)化媒體機(jī)構(gòu)不僅能夠決定分發(fā)什么信息,還能在很大程度上保證信息逐級(jí)傳遞的過程中不會(huì)失真。但在社交媒體中,信息內(nèi)容的變異受網(wǎng)絡(luò)結(jié)構(gòu)和信息傳播速度的影響而呈現(xiàn)指數(shù)性特征,任何人在傳播信息時(shí)都能夠以自己的方式施以主觀解釋,從而使原始內(nèi)容發(fā)生多次變異。于是,完整的社會(huì)事實(shí)徹底溶解和消散在社交網(wǎng)絡(luò)中,人們所看到的“事實(shí)”不僅被碎片化了,更是被顆粒化了,從而轉(zhuǎn)化為一種“元事實(shí)”。如果說人們通過碎片還能夠?qū)⑹聦?shí)重建出來,那么顆?;氖聦?shí)則損失了大量原始信息,以至于以通常的方式重構(gòu)它們變得非常困難。針對(duì)這些現(xiàn)象,本文認(rèn)為“遠(yuǎn)讀”青年具有以下三個(gè)方面的意義。

    表1 社交媒體興起前后信息傳播形式的比較

    1.“遠(yuǎn)讀”有助于把握網(wǎng)絡(luò)青年的觀念內(nèi)容、理解其線上行動(dòng)

    不同于線下交談的即時(shí)性,互聯(lián)網(wǎng)社交媒體具有脫域特征[49]。人際交流在大多數(shù)時(shí)間都是異步的,人們彼此之間并不需要即時(shí)回應(yīng)對(duì)方的行動(dòng)。此外,深度嵌入互聯(lián)網(wǎng)使當(dāng)代青年更少受到自己身邊事物的影響,在虛擬空間中形成了獨(dú)特的線上社群,產(chǎn)生了復(fù)雜的觀念與文化,并反作用于線下生活。

    互聯(lián)網(wǎng)延長(zhǎng)了人際關(guān)系,也加速了信息流通,每個(gè)人都成為了內(nèi)容的生產(chǎn)者和消費(fèi)者[50],文本則是內(nèi)容的主要形式。從某種意義來說,這意味著社交媒體上,人人都是寫作者,人際關(guān)系正是通過“寫作”得以建立與維系。有學(xué)者認(rèn)為,互聯(lián)網(wǎng)上的文本不僅是一種表達(dá)或記述,還可以是一種“語言行動(dòng)”;語言甚至可以不再依賴于行動(dòng)者的持續(xù)介入,自身成為了一種行動(dòng)主體[51]。

    因此,“遠(yuǎn)讀”所讀不僅是內(nèi)容,還是行動(dòng)背后的意義。社交媒體上的文本不僅代表著人們?cè)诎l(fā)布與閱讀什么內(nèi)容,還反映著人們?nèi)绾涡袆?dòng),以及支持這些行動(dòng)的觀念體系。通過“遠(yuǎn)讀”,我們能夠更好地從宏觀層面把握網(wǎng)絡(luò)空間中青年的觀念。

    2.借助降維技術(shù),“遠(yuǎn)讀”以整體視角鳥瞰網(wǎng)絡(luò)青年的觀念結(jié)構(gòu)

    互聯(lián)網(wǎng)社交媒體讓完整的社會(huì)事實(shí)在網(wǎng)狀泛中心化的結(jié)構(gòu)中消散開來,每個(gè)人只能接觸到顆?;男畔?。這些信息常常以片面和極端的形式呈現(xiàn),加劇了人群的分隔。由于失去了把握信息顆粒之間關(guān)系的能力,人們得到的信息就算彼此矛盾,也難以辨別,不同觀念混合在一起。因而,僅靠傳統(tǒng)的“近讀”無法還原事實(shí)原貌,我們需要通過“遠(yuǎn)讀”呈現(xiàn)出顆粒之間的關(guān)系,把它們放到一個(gè)更宏觀的整體視野中去檢視它們、比較它們。計(jì)算文本分析方法將文本放置在一個(gè)高維的向量空間中,使得我們能夠通過算法分析它們的群聚關(guān)系,從而通過數(shù)據(jù)驅(qū)動(dòng)找出它們之間的情感關(guān)聯(lián)、主題關(guān)聯(lián),并通過聚類算法挖掘其背后的潛在群體。

    降維技術(shù)能夠從文本數(shù)據(jù)眾多信息中將觀念的潛在關(guān)鍵結(jié)構(gòu)提取出來。例如,PCA能夠合并數(shù)據(jù)中存在潛在相關(guān)性的維度,用更少的維度解釋更多的信息,實(shí)現(xiàn)對(duì)文本數(shù)據(jù)的壓縮,找出數(shù)據(jù)中的主干結(jié)構(gòu);LLE基于流形學(xué)習(xí)(Manifold Learning)理論將高維數(shù)據(jù)在低維空間中重構(gòu)出來,不改變數(shù)據(jù)空間中樣本之間的局部關(guān)系。降維技術(shù)會(huì)省略一些在整體層面無關(guān)緊要的信息,通過這種方式,我們能夠從錯(cuò)綜復(fù)雜的關(guān)系中去掉不重要的擾動(dòng)成分,讓關(guān)鍵整體框架浮現(xiàn)出來。

    3.降維“遠(yuǎn)讀”的認(rèn)識(shí)方法提供重建“整體事實(shí)”、搭建溝通橋梁的可能

    在快速變化的線上社交網(wǎng)絡(luò)中,局部“事實(shí)”被放大和極端化,人們?cè)诰植坎粩嘁宰陨淼闹饔^理解重構(gòu)著這些“事實(shí)”,“信息繭房”更加促使人與人之間的觀念變得割裂。青年群體非常容易因?yàn)橹荒芸吹狡娴男畔?,認(rèn)為“眼見為實(shí)”。然而,由于社交媒體中的信息爆炸,他們時(shí)常需要在各種不同的觀點(diǎn)與態(tài)度間搖擺。

    “遠(yuǎn)讀”通過將視角拉遠(yuǎn),以整體性的視角看待各類觀念,將不同觀念投射在更易被理解的低維子空間中,將它們之間的關(guān)系重構(gòu)出來,從宏觀層面審視這些關(guān)系,以重建“整體事實(shí)”。人們之所以會(huì)被不同觀念分隔開來,一定程度上是因?yàn)榕c觀念相似的人交往更加頻繁,群體內(nèi)部具有觀念強(qiáng)化的傾向。“遠(yuǎn)讀”內(nèi)在地將不同觀念放置在同一個(gè)整體空間,呈現(xiàn)出觀念的多元化以及它們之間的距離,并能夠動(dòng)態(tài)呈現(xiàn)觀念分化程度的時(shí)間特征。這有助于人們理解自己在觀念空間中所處的坐標(biāo),并意識(shí)到自身觀念的局部性,從而為搭建溝通橋梁創(chuàng)造條件。

    五、討論與展望

    當(dāng)前社會(huì)的數(shù)字化轉(zhuǎn)型深刻改變了青年的社會(huì)化場(chǎng)域,僅靠傳統(tǒng)的青年研究方法難以回應(yīng)這一轉(zhuǎn)型。本文引申了數(shù)字人文中“遠(yuǎn)讀”的概念,認(rèn)為計(jì)算文本分析方法能夠回應(yīng)這一轉(zhuǎn)型,并簡(jiǎn)要介紹了這些方法的種類和應(yīng)用路徑。

    借助這些方法,我們能夠以更清晰、更簡(jiǎn)化、更容易理解的方式從整體視角把握青年群體和他們的活動(dòng)場(chǎng)域。方法是回答研究問題的手段,計(jì)算文本分析方法并不是要替代傳統(tǒng)的定性與定量研究,正如在數(shù)字人文中,“遠(yuǎn)讀”與“近讀”也存在結(jié)合可能一樣[10],這兩種方法互補(bǔ)能夠更好地促進(jìn)我們對(duì)當(dāng)代青年的理解。

    這些方法以大規(guī)模文本數(shù)據(jù)作為處理對(duì)象,經(jīng)常需要在互聯(lián)網(wǎng)上收集文本數(shù)據(jù),雖然這些數(shù)據(jù)的規(guī)模較大,但仍然需要考慮數(shù)據(jù)收集和分析過程的科學(xué)性、嚴(yán)謹(jǐn)性、規(guī)范性和倫理問題。在應(yīng)用方法的過程中,本文認(rèn)為需要注意三個(gè)要點(diǎn),分別是文本數(shù)據(jù)的代表性、分析方法的適用性以及數(shù)據(jù)收集過程中的倫理問題。

    (1)文本數(shù)據(jù)的代表性。大規(guī)模文本數(shù)據(jù)的來源包括網(wǎng)頁爬蟲、大量的深度訪談資料、報(bào)紙雜志文本以及政策文本等。正如在問卷調(diào)查之前需要考慮樣本的代表性,分析文本數(shù)據(jù)時(shí),也需要考慮到其能否代表研究對(duì)象。

    例如,通過互聯(lián)網(wǎng)獲取的文本可能代表不了不經(jīng)常上網(wǎng)的人群;此外,人們往往基于不同的目的使用網(wǎng)站或社交媒體。不同平臺(tái)的互動(dòng)規(guī)則、粘性用戶群體也不同,依靠單一的媒體數(shù)據(jù),即便是總體數(shù)據(jù),也不一定代表目標(biāo)群體。有學(xué)者指出,特定的社交媒體甚至?xí)a(chǎn)生“媒介意識(shí)形態(tài)”,進(jìn)一步塑造人們的線上互動(dòng)[52]。同一個(gè)人可能會(huì)把自己的線上身份分散在多個(gè)不同的平臺(tái)上,這導(dǎo)致在觀點(diǎn)挖掘和文化研究中很難合并出一個(gè)總體的研究對(duì)象。最后,社交平臺(tái)也在一定程度上存在著輿論操縱的現(xiàn)象。平臺(tái)并不僅展示用戶活動(dòng)的數(shù)據(jù),還會(huì)干涉這些數(shù)據(jù)的生產(chǎn)過程,從而導(dǎo)致數(shù)據(jù)偏差[53-54]。

    然而,代表性問題取決于研究對(duì)象的界定,如果研究對(duì)象并不是特定的人群,也不需要考慮結(jié)論的泛化,僅僅是為了探究文化發(fā)展規(guī)模與類型,或是進(jìn)行樣本內(nèi)比較,那么代表性問題仍然能夠得到解決。另外,雖然數(shù)據(jù)的生產(chǎn)過程可能發(fā)生變化,但這對(duì)于長(zhǎng)期的數(shù)據(jù)收集來說影響更大[55],對(duì)短期數(shù)據(jù)的分析仍然具有科學(xué)意義。有學(xué)者在研究中也指出,人為干預(yù)也可能對(duì)研究結(jié)果的影響有限[56]。

    (2)分析方法的適用性。文本分析方法都是與特定場(chǎng)景相聯(lián)系的。社會(huì)學(xué)家將這些方法移植到自己的研究領(lǐng)域,可能會(huì)突破這些方法的既有假設(shè)。

    例如,弗里格斯坦(Fligstein)等人雖然使用主題模型分析了FOMC的會(huì)議記錄,但也指出主題模型的開發(fā)初衷是為了分析靜態(tài)文本,主題已經(jīng)預(yù)先確定。而會(huì)議記錄則會(huì)在對(duì)話中不斷變化[47]。詞向量模型如果需要捕捉到文化觀念,則對(duì)訓(xùn)練語料庫的規(guī)模有一定要求[42]。此外,在對(duì)文本應(yīng)用降維技術(shù)時(shí),也需要檢查降維結(jié)果是否能夠抽取出最關(guān)鍵的信息[46]。

    因此,在使用特定文本分析方法之前,也需要考慮其最初要解決的問題處在怎樣的特定場(chǎng)景中,并將這些方法上的假設(shè)與當(dāng)前研究進(jìn)行比較,從而選擇適用的方法。本文所介紹的方法只涵蓋了部分方法領(lǐng)域,并且這些方法還處在快速發(fā)展中,需要我們不斷對(duì)前沿方向保持關(guān)注。

    (3)數(shù)據(jù)收集中的倫理。雖然以公開數(shù)據(jù)作為研究素材不違反社交平臺(tái)的用戶條款,但是作為數(shù)據(jù)生產(chǎn)者的用戶仍然關(guān)心自己在無意間被當(dāng)成研究對(duì)象,尤其是少數(shù)群體[57-58]。

    社交媒體上的文本數(shù)據(jù)通常產(chǎn)生于特定的互聯(lián)網(wǎng)情境,在其中,人們的交流方式與日常生活中存在一定差異。人們?cè)诨ヂ?lián)網(wǎng)上發(fā)表意見、與人交流時(shí)大多是面向特定的社群,而不是面向整個(gè)互聯(lián)網(wǎng),尤其不是面向互聯(lián)網(wǎng)之外更廣泛的公共空間[57]。由于互聯(lián)網(wǎng)的半開放性和匿名性,人們反而會(huì)與陌生人交流一些更具私密性的內(nèi)容。因此,正如訪談時(shí)需要保護(hù)受訪者的隱私一樣,利用線上文本數(shù)據(jù)同樣需要關(guān)注研究對(duì)象的隱私問題[59]。青年群體對(duì)隱私問題的重視程度更高,也更容易受到隱私泄露的傷害,對(duì)此我們需要更加重視研究過程中涉及到的倫理因素。

    本文主要探討了計(jì)算文本分析方法用于互聯(lián)網(wǎng)文本的路徑與對(duì)青年研究的意義,雖然互聯(lián)網(wǎng)上的內(nèi)容形式以文本為主,但近些年來音視頻及圖像的興起也提供了更多的研究素材。音視頻及圖像經(jīng)常與文本相互參照,共同表達(dá)信息與情感。本文將這些文本和與之伴隨、與文本內(nèi)容關(guān)聯(lián)的音頻、圖像和視頻合并稱為“富文本”①“富文本”格式(Rich Text Format,RTF)原本是一個(gè)技術(shù)概念,是一種包含字體、段落等格式信息的文檔格式,本文引申了這一概念。。

    在社會(huì)科學(xué)中,以這些數(shù)據(jù)作為素材的研究還不多。雖然文本仍然還是主流的信息載體,但圖像與音視頻通常包含著更多的情感細(xì)節(jié),尤其是當(dāng)前各類長(zhǎng)、短視頻平臺(tái)的流行,音視頻已經(jīng)成為互聯(lián)網(wǎng)上的主要內(nèi)容載體之一,這些都提供了更多的研究素材。

    已經(jīng)有學(xué)者將深度學(xué)習(xí)算法用于識(shí)別社交媒體上發(fā)布的線下集體行動(dòng)事件。他們使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)進(jìn)行文本和圖片的分類任務(wù),描述了新浪微博2010~2017年集體行動(dòng)事件的數(shù)量趨勢(shì),并將這些事件分為11種類型[56]。還有學(xué)者將流行歌曲轉(zhuǎn)化為音樂特征向量,通過計(jì)算余弦相似度衡量歌曲之間的關(guān)系。他們發(fā)現(xiàn),流行歌曲的成功不僅與作品自身屬性(如歌手和流派)有關(guān),還取決于它與同類型作品之間的關(guān)系,即能夠權(quán)衡好與同類之間相似與相異程度的歌曲更容易獲得成功[60]。這些研究部分地說明社會(huì)科學(xué)已經(jīng)開始關(guān)注“富文本”分析。

    本文認(rèn)為,通過“遠(yuǎn)讀”當(dāng)前社交媒體上的豐富內(nèi)容,我們對(duì)“整體事實(shí)”的理解能夠更進(jìn)一步。雖然從理論上說,“整體事實(shí)”處在永恒變化當(dāng)中,由于我們始終身處社會(huì)之內(nèi),從而永遠(yuǎn)無法透過最整體的視角看待自身以獲得最完整的“整體事實(shí)”。然而,這并不是說我們要放棄對(duì)“整體事實(shí)”的追求,實(shí)際上,這一概念背后所體現(xiàn)的是一種對(duì)待事實(shí)的謙遜態(tài)度,提醒著我們不斷采取各種方法手段向它逼近,而不是將局部的認(rèn)識(shí)當(dāng)成世界的全部。

    猜你喜歡
    文本分析信息
    隱蔽失效適航要求符合性驗(yàn)證分析
    在808DA上文本顯示的改善
    電力系統(tǒng)不平衡分析
    電子制作(2018年18期)2018-11-14 01:48:24
    基于doc2vec和TF-IDF的相似文本識(shí)別
    電子制作(2018年18期)2018-11-14 01:48:06
    訂閱信息
    中華手工(2017年2期)2017-06-06 23:00:31
    電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢(shì)分析
    文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
    展會(huì)信息
    如何快速走進(jìn)文本
    健康信息
    祝您健康(1987年3期)1987-12-30 09:52:32
    精品国产乱码久久久久久小说| a 毛片基地| 亚洲av福利一区| 欧美亚洲 丝袜 人妻 在线| videosex国产| 新久久久久国产一级毛片| 免费黄色在线免费观看| 大香蕉97超碰在线| 大码成人一级视频| 日韩伦理黄色片| av网站免费在线观看视频| 欧美激情国产日韩精品一区| 欧美人与善性xxx| 欧美97在线视频| 欧美丝袜亚洲另类| 人妻系列 视频| 成人无遮挡网站| 精品一区二区三区视频在线| 熟妇人妻不卡中文字幕| 一区二区日韩欧美中文字幕 | 久久精品久久精品一区二区三区| 国产 精品1| 香蕉精品网在线| 丝瓜视频免费看黄片| 99久久精品一区二区三区| 久久精品国产亚洲av涩爱| 欧美最新免费一区二区三区| 大陆偷拍与自拍| av网站免费在线观看视频| 五月伊人婷婷丁香| 久久影院123| 午夜91福利影院| 亚洲欧美日韩另类电影网站| 熟妇人妻不卡中文字幕| 久久av网站| 尾随美女入室| 91久久精品电影网| 搡女人真爽免费视频火全软件| 一本—道久久a久久精品蜜桃钙片| 搡老乐熟女国产| av国产精品久久久久影院| 校园人妻丝袜中文字幕| 熟女人妻精品中文字幕| 亚洲少妇的诱惑av| 免费看光身美女| 日本-黄色视频高清免费观看| 国产午夜精品久久久久久一区二区三区| 人人妻人人澡人人看| √禁漫天堂资源中文www| 成年人午夜在线观看视频| 国产一区有黄有色的免费视频| 久久久久久久久久人人人人人人| 国产成人91sexporn| 一二三四中文在线观看免费高清| 久久精品国产a三级三级三级| 一个人看视频在线观看www免费| 国产 一区精品| av一本久久久久| 国产黄色视频一区二区在线观看| 亚洲不卡免费看| 久久人人爽人人片av| 好男人视频免费观看在线| 成人黄色视频免费在线看| 亚洲欧美清纯卡通| 久久影院123| 99九九线精品视频在线观看视频| 日日爽夜夜爽网站| 欧美日韩国产mv在线观看视频| 高清欧美精品videossex| 一级毛片 在线播放| 永久网站在线| 亚洲第一av免费看| 在线观看www视频免费| 最近2019中文字幕mv第一页| 又粗又硬又长又爽又黄的视频| 日本与韩国留学比较| 成年人免费黄色播放视频| 精品人妻在线不人妻| 成人综合一区亚洲| av黄色大香蕉| 99热这里只有精品一区| 青春草国产在线视频| 成年av动漫网址| 黄色欧美视频在线观看| 黑丝袜美女国产一区| 全区人妻精品视频| 免费高清在线观看日韩| 插逼视频在线观看| 性高湖久久久久久久久免费观看| 亚洲av欧美aⅴ国产| 欧美bdsm另类| 国产成人freesex在线| 免费人成在线观看视频色| 看十八女毛片水多多多| 蜜臀久久99精品久久宅男| 18禁裸乳无遮挡动漫免费视频| 国产男人的电影天堂91| 91精品伊人久久大香线蕉| 我要看黄色一级片免费的| 国产一级毛片在线| 免费看不卡的av| 寂寞人妻少妇视频99o| 午夜福利网站1000一区二区三区| 久久久久久久久大av| 丰满迷人的少妇在线观看| 国产精品嫩草影院av在线观看| 国产欧美日韩一区二区三区在线 | 日本午夜av视频| 精品一区二区免费观看| 国产av一区二区精品久久| av免费在线看不卡| 午夜av观看不卡| 26uuu在线亚洲综合色| 91国产中文字幕| 只有这里有精品99| 免费人妻精品一区二区三区视频| 寂寞人妻少妇视频99o| 国产亚洲av片在线观看秒播厂| 特大巨黑吊av在线直播| 亚洲欧美色中文字幕在线| 欧美人与善性xxx| 美女大奶头黄色视频| 日本vs欧美在线观看视频| 日本猛色少妇xxxxx猛交久久| 久久久国产一区二区| 能在线免费看毛片的网站| 中文字幕精品免费在线观看视频 | 午夜视频国产福利| 岛国毛片在线播放| 老熟女久久久| 欧美亚洲日本最大视频资源| 日本黄色片子视频| 亚洲av不卡在线观看| 高清毛片免费看| 成人国产麻豆网| 亚洲欧美成人综合另类久久久| 爱豆传媒免费全集在线观看| 成人影院久久| 美女xxoo啪啪120秒动态图| 国产精品免费大片| 欧美97在线视频| 国产在线一区二区三区精| 丝袜喷水一区| 亚洲精品国产av蜜桃| 欧美亚洲日本最大视频资源| 亚洲精华国产精华液的使用体验| 国产黄色免费在线视频| 亚洲av电影在线观看一区二区三区| 51国产日韩欧美| 国产淫语在线视频| 亚洲av欧美aⅴ国产| 午夜激情久久久久久久| 免费观看的影片在线观看| 国产爽快片一区二区三区| 一本一本久久a久久精品综合妖精 国产伦在线观看视频一区 | 亚洲欧美日韩另类电影网站| kizo精华| av免费在线看不卡| 嘟嘟电影网在线观看| 一级二级三级毛片免费看| www.av在线官网国产| 22中文网久久字幕| 极品人妻少妇av视频| 9色porny在线观看| 国产成人aa在线观看| 99久久人妻综合| 亚洲成色77777| 一区二区av电影网| 视频中文字幕在线观看| 热99国产精品久久久久久7| av女优亚洲男人天堂| 999精品在线视频| 亚洲国产精品999| 亚洲一区二区三区欧美精品| 国产成人91sexporn| 啦啦啦中文免费视频观看日本| 蜜桃国产av成人99| 亚洲,欧美,日韩| 久久久国产精品麻豆| 夜夜看夜夜爽夜夜摸| 伦理电影免费视频| 欧美人与性动交α欧美精品济南到 | 亚洲国产色片| 老司机影院成人| 亚洲精品久久午夜乱码| 美女福利国产在线| 一区二区三区乱码不卡18| 国产成人免费无遮挡视频| 91国产中文字幕| 人人妻人人澡人人爽人人夜夜| 成年人免费黄色播放视频| 最近2019中文字幕mv第一页| 制服人妻中文乱码| 欧美性感艳星| 日日摸夜夜添夜夜爱| 久久久久人妻精品一区果冻| 97超视频在线观看视频| 国产 一区精品| 亚洲精品,欧美精品| 狠狠婷婷综合久久久久久88av| av在线老鸭窝| 亚洲欧美日韩另类电影网站| 亚洲欧美日韩另类电影网站| 美女国产高潮福利片在线看| 最后的刺客免费高清国语| xxxhd国产人妻xxx| 黑人欧美特级aaaaaa片| 中国国产av一级| 精品少妇久久久久久888优播| 亚洲成人一二三区av| 久久亚洲国产成人精品v| 精品国产乱码久久久久久小说| 2021少妇久久久久久久久久久| 国产午夜精品一二区理论片| 亚洲综合色惰| 超碰97精品在线观看| 国产高清不卡午夜福利| 亚洲情色 制服丝袜| 久久精品国产鲁丝片午夜精品| 伊人亚洲综合成人网| 亚洲,一卡二卡三卡| 日本欧美视频一区| 一区二区av电影网| 欧美3d第一页| 午夜免费男女啪啪视频观看| 亚洲天堂av无毛| 亚洲欧美清纯卡通| 不卡视频在线观看欧美| 男女高潮啪啪啪动态图| 天天影视国产精品| 大香蕉久久成人网| 色婷婷久久久亚洲欧美| 尾随美女入室| 免费久久久久久久精品成人欧美视频 | 丰满迷人的少妇在线观看| 高清在线视频一区二区三区| 欧美日韩在线观看h| 一本久久精品| 免费大片黄手机在线观看| 日韩三级伦理在线观看| 九九爱精品视频在线观看| 人成视频在线观看免费观看| 最后的刺客免费高清国语| 在线播放无遮挡| www.色视频.com| 国产黄色视频一区二区在线观看| 日本免费在线观看一区| 一二三四中文在线观看免费高清| a级片在线免费高清观看视频| 亚洲怡红院男人天堂| 97精品久久久久久久久久精品| 夫妻性生交免费视频一级片| 一级毛片电影观看| 亚洲第一av免费看| 美女国产视频在线观看| 超碰97精品在线观看| 三级国产精品欧美在线观看| 美女内射精品一级片tv| 高清视频免费观看一区二区| 免费av中文字幕在线| 国产爽快片一区二区三区| 91午夜精品亚洲一区二区三区| 91精品伊人久久大香线蕉| 少妇的逼水好多| 亚洲欧洲国产日韩| 麻豆乱淫一区二区| 在线看a的网站| 国产成人精品在线电影| 免费大片18禁| 赤兔流量卡办理| 99久久中文字幕三级久久日本| 一边摸一边做爽爽视频免费| 三级国产精品欧美在线观看| 人妻人人澡人人爽人人| 伊人久久精品亚洲午夜| 成人漫画全彩无遮挡| 久久久a久久爽久久v久久| 一区在线观看完整版| 中国三级夫妇交换| 一区在线观看完整版| 亚洲av福利一区| 插阴视频在线观看视频| 性色av一级| 国产亚洲欧美精品永久| 午夜激情av网站| 亚洲欧美一区二区三区国产| 丰满饥渴人妻一区二区三| 久久久欧美国产精品| 欧美精品一区二区大全| 国产精品偷伦视频观看了| 国产一区二区三区av在线| 国产一区二区在线观看av| 午夜av观看不卡| 一级a做视频免费观看| 亚洲高清免费不卡视频| 国产免费视频播放在线视频| h视频一区二区三区| 久久久午夜欧美精品| 国模一区二区三区四区视频| 赤兔流量卡办理| 99热网站在线观看| 午夜激情av网站| 考比视频在线观看| 欧美精品一区二区免费开放| 人妻人人澡人人爽人人| 欧美人与善性xxx| 一本色道久久久久久精品综合| 国产亚洲一区二区精品| videosex国产| av一本久久久久| 欧美激情 高清一区二区三区| 午夜视频国产福利| 91aial.com中文字幕在线观看| 亚洲精品久久午夜乱码| 亚洲av在线观看美女高潮| 国产熟女欧美一区二区| 2018国产大陆天天弄谢| 女的被弄到高潮叫床怎么办| 满18在线观看网站| 日韩成人av中文字幕在线观看| 又黄又爽又刺激的免费视频.| 日本av免费视频播放| 国内精品宾馆在线| 午夜福利,免费看| 菩萨蛮人人尽说江南好唐韦庄| 韩国av在线不卡| 免费av不卡在线播放| 97在线视频观看| 蜜桃久久精品国产亚洲av| 91午夜精品亚洲一区二区三区| 免费观看性生交大片5| 午夜福利视频在线观看免费| 欧美日韩在线观看h| 丝袜脚勾引网站| 久久国产精品大桥未久av| 伦理电影免费视频| 久久精品国产a三级三级三级| 亚洲激情五月婷婷啪啪| 国语对白做爰xxxⅹ性视频网站| 亚洲久久久国产精品| 欧美精品国产亚洲| 18禁动态无遮挡网站| 一级,二级,三级黄色视频| 一级毛片我不卡| 伦精品一区二区三区| 又粗又硬又长又爽又黄的视频| 性色av一级| 99精国产麻豆久久婷婷| 国产欧美另类精品又又久久亚洲欧美| 久久久久网色| 伦理电影大哥的女人| 少妇丰满av| a 毛片基地| 日韩熟女老妇一区二区性免费视频| 伦理电影免费视频| 乱码一卡2卡4卡精品| av免费观看日本| 亚洲国产精品成人久久小说| 久久久久久久久久久免费av| 男女国产视频网站| 欧美日韩亚洲高清精品| 99视频精品全部免费 在线| 在线观看三级黄色| 国产老妇伦熟女老妇高清| 国产成人freesex在线| 一本色道久久久久久精品综合| 香蕉精品网在线| 国产av精品麻豆| 一边亲一边摸免费视频| 中文字幕免费在线视频6| 高清黄色对白视频在线免费看| 人人澡人人妻人| av黄色大香蕉| 黄片无遮挡物在线观看| 五月天丁香电影| av专区在线播放| 欧美日韩在线观看h| 国产精品久久久久久av不卡| 99久久精品一区二区三区| 亚洲熟女精品中文字幕| 久久 成人 亚洲| 免费少妇av软件| 汤姆久久久久久久影院中文字幕| 国产av国产精品国产| 一级毛片aaaaaa免费看小| av免费观看日本| 在线 av 中文字幕| 看免费成人av毛片| 精品午夜福利在线看| 九色亚洲精品在线播放| 伊人久久精品亚洲午夜| 国产欧美另类精品又又久久亚洲欧美| 日韩一区二区三区影片| 亚洲人成77777在线视频| 国产亚洲最大av| 亚洲精品一区蜜桃| 亚洲国产精品一区二区三区在线| 美女xxoo啪啪120秒动态图| 极品少妇高潮喷水抽搐| 91国产中文字幕| 欧美日韩av久久| 老司机影院毛片| 欧美日韩视频精品一区| 一边亲一边摸免费视频| 久久久久久久久久久丰满| 少妇被粗大猛烈的视频| 国产精品久久久久久精品古装| 日日摸夜夜添夜夜添av毛片| 亚洲美女视频黄频| 婷婷色av中文字幕| 国产精品国产三级专区第一集| 国内精品宾馆在线| 国产精品一区二区在线观看99| 午夜久久久在线观看| 国产高清三级在线| 亚洲美女黄色视频免费看| 欧美日韩国产mv在线观看视频| 精品一区二区三卡| 日韩一本色道免费dvd| 久久99热这里只频精品6学生| 精品亚洲乱码少妇综合久久| 亚洲av中文av极速乱| 国产免费视频播放在线视频| 国产高清三级在线| 国产精品偷伦视频观看了| 热re99久久国产66热| 80岁老熟妇乱子伦牲交| 伊人亚洲综合成人网| 欧美日韩国产mv在线观看视频| 一级毛片黄色毛片免费观看视频| 九色亚洲精品在线播放| 蜜臀久久99精品久久宅男| 人妻系列 视频| 婷婷色综合大香蕉| 国产亚洲av片在线观看秒播厂| 大片电影免费在线观看免费| 国产不卡av网站在线观看| 国产成人av激情在线播放 | 黄片无遮挡物在线观看| 黑人巨大精品欧美一区二区蜜桃 | 99久久精品国产国产毛片| 三级国产精品欧美在线观看| 国产视频内射| 精品国产乱码久久久久久小说| videos熟女内射| 午夜激情久久久久久久| 麻豆成人av视频| 亚洲成人手机| 亚洲国产精品一区二区三区在线| 国产乱来视频区| 精品国产乱码久久久久久小说| 精品亚洲成国产av| 国产精品三级大全| 一个人看视频在线观看www免费| 嫩草影院入口| 欧美精品人与动牲交sv欧美| 欧美3d第一页| 一级毛片 在线播放| 日韩一区二区视频免费看| 国产综合精华液| 女性生殖器流出的白浆| 男人爽女人下面视频在线观看| 亚洲精品日韩在线中文字幕| 亚洲国产成人一精品久久久| 黑人高潮一二区| 国产成人午夜福利电影在线观看| 一级毛片电影观看| 在线观看免费视频网站a站| 黑人高潮一二区| 亚洲国产欧美在线一区| 飞空精品影院首页| 亚洲av中文av极速乱| 亚洲av免费高清在线观看| 国产白丝娇喘喷水9色精品| 亚洲av免费高清在线观看| 久久久久久久久久成人| 久久ye,这里只有精品| 日韩欧美一区视频在线观看| 亚洲av福利一区| 丝袜喷水一区| 美女国产视频在线观看| 久久精品国产a三级三级三级| 国产一区二区在线观看av| 国产淫语在线视频| 午夜免费鲁丝| av.在线天堂| 一边摸一边做爽爽视频免费| 亚洲美女视频黄频| 秋霞伦理黄片| 天美传媒精品一区二区| 大陆偷拍与自拍| 欧美日韩av久久| 如日韩欧美国产精品一区二区三区 | 老女人水多毛片| 男女边吃奶边做爰视频| 岛国毛片在线播放| 久久久久网色| 亚洲天堂av无毛| 一个人免费看片子| 丰满迷人的少妇在线观看| 夫妻性生交免费视频一级片| 51国产日韩欧美| 免费播放大片免费观看视频在线观看| 青春草视频在线免费观看| 九色成人免费人妻av| 精品一品国产午夜福利视频| 国产亚洲午夜精品一区二区久久| 日本欧美视频一区| 久久人人爽人人爽人人片va| 日韩视频在线欧美| 中文天堂在线官网| 观看av在线不卡| 晚上一个人看的免费电影| 欧美人与性动交α欧美精品济南到 | 成人午夜精彩视频在线观看| 丰满乱子伦码专区| 尾随美女入室| 美女xxoo啪啪120秒动态图| 国产在线视频一区二区| 亚洲欧美日韩卡通动漫| 国产毛片在线视频| 久久精品人人爽人人爽视色| 亚洲精品日韩在线中文字幕| 99热全是精品| 在线观看免费日韩欧美大片 | 欧美日韩综合久久久久久| 中文字幕av电影在线播放| 黄色一级大片看看| av在线播放精品| 亚洲国产日韩一区二区| 亚洲精品av麻豆狂野| 伦精品一区二区三区| 视频中文字幕在线观看| 伦理电影大哥的女人| 国产免费一区二区三区四区乱码| 制服丝袜香蕉在线| 下体分泌物呈黄色| 边亲边吃奶的免费视频| 久久99热6这里只有精品| 国产极品粉嫩免费观看在线 | 国产精品久久久久久久电影| 国产精品一区www在线观看| 91午夜精品亚洲一区二区三区| 一边摸一边做爽爽视频免费| 只有这里有精品99| 国产69精品久久久久777片| 五月伊人婷婷丁香| 国产乱人偷精品视频| 2018国产大陆天天弄谢| 国产毛片在线视频| 亚洲,一卡二卡三卡| 全区人妻精品视频| a 毛片基地| 国产精品成人在线| 亚洲av不卡在线观看| 99久久中文字幕三级久久日本| 国产色婷婷99| 亚洲欧洲日产国产| 国产又色又爽无遮挡免| 国产高清国产精品国产三级| 伊人久久精品亚洲午夜| 一区二区三区乱码不卡18| 美女大奶头黄色视频| 热re99久久精品国产66热6| 人人妻人人澡人人看| 久久久久久久亚洲中文字幕| 五月玫瑰六月丁香| 中国美白少妇内射xxxbb| 一二三四中文在线观看免费高清| 国产精品久久久久久久电影| 日韩 亚洲 欧美在线| 国产精品成人在线| 内地一区二区视频在线| 国产一区亚洲一区在线观看| 久热这里只有精品99| 一级二级三级毛片免费看| 日韩熟女老妇一区二区性免费视频| 最近手机中文字幕大全| 欧美精品人与动牲交sv欧美| 天堂俺去俺来也www色官网| 久久精品国产自在天天线| 亚洲图色成人| 国产国拍精品亚洲av在线观看| 亚洲国产毛片av蜜桃av| 国产亚洲最大av| 日韩,欧美,国产一区二区三区| 一区二区三区免费毛片| 日本黄大片高清| 少妇人妻精品综合一区二区| 少妇被粗大猛烈的视频| 91成人精品电影| a级毛片免费高清观看在线播放| 日韩在线高清观看一区二区三区| 久久青草综合色| 久久久久久久久久人人人人人人| 国产片特级美女逼逼视频| 国产午夜精品久久久久久一区二区三区| 晚上一个人看的免费电影| 亚洲av男天堂| 美女中出高潮动态图| 成人18禁高潮啪啪吃奶动态图 | 亚洲精品成人av观看孕妇| 日韩一本色道免费dvd| 丰满饥渴人妻一区二区三| 精品国产乱码久久久久久小说| 国产亚洲精品第一综合不卡 | 观看美女的网站| 夫妻性生交免费视频一级片| 国产片特级美女逼逼视频| 免费人妻精品一区二区三区视频| 婷婷成人精品国产| 日韩不卡一区二区三区视频在线| 国产精品麻豆人妻色哟哟久久| 国产高清国产精品国产三级| 国产欧美亚洲国产|