卷積神經(jīng)網(wǎng)絡(luò)情感分析范文
時(shí)間:2024-04-12 15:48:45
導(dǎo)語(yǔ):如何才能寫(xiě)好一篇卷積神經(jīng)網(wǎng)絡(luò)情感分析,這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。
篇1
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);語(yǔ)言模型;分析
1 卷積神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型
CNN語(yǔ)言模型基本結(jié)構(gòu)包括輸入層、卷積層、池化層及后續(xù)的分類(lèi)層。輸入層是表示語(yǔ)言的矩陣,該矩陣可以是通過(guò)Google word2vec或GloVe預(yù)訓(xùn)練得到的詞嵌入表示,也可以是從原始數(shù)據(jù)重新訓(xùn)練的語(yǔ)言的向量表示。輸入層之后是通過(guò)線性濾波器對(duì)輸入矩陣進(jìn)行卷積操作的卷積層。在NLP問(wèn)題中,輸入矩陣總是帶有固定順序的結(jié)構(gòu),因?yàn)榫仃嚨拿恳恍卸急硎倦x散的符號(hào),例如單詞或者詞組等。因此,使用等寬的濾波器是非常合理的設(shè)置。在這種設(shè)置下,僅需要考慮濾波器的高度既可以實(shí)現(xiàn)不同尺寸的濾波器做卷積操作。由此可知,在處理NLP問(wèn)題時(shí),卷積神經(jīng)網(wǎng)絡(luò)的濾波器尺寸一般都是指濾波器的高度。
然后,將卷積層輸出的特征映射輸入池化層,通過(guò)池化函數(shù)為特征映射進(jìn)行降維并且減少了待估計(jì)參數(shù)規(guī)模。一般的,CNN池化操作采用1-max池化函數(shù)。該函數(shù)能夠?qū)⑤斎氲奶卣饔成浣y(tǒng)一生成維度相同的新映射。通過(guò)池化操作,可以將卷積層生成的特征連接成更抽象的高級(jí)特征,所得到的高級(jí)特征尺寸與輸入的句子不再存在直接關(guān)系。
最后,將得到的高級(jí)特征輸入softmax分類(lèi)層進(jìn)行分類(lèi)操作。在softmax層,可以選擇應(yīng)用dropout策略作為正則化手段,該方法是隨機(jī)地將向量中的一些值設(shè)置為0。另外還可以選擇增加l2范數(shù)約束,l2范數(shù)約束是指當(dāng)它超過(guò)該值時(shí),將向量的l2范數(shù)縮放到指定閾值。在訓(xùn)練期間,要最小化的目標(biāo)是分類(lèi)的交叉熵?fù)p失,要估計(jì)的參數(shù)包括濾波器的權(quán)重向量,激活函數(shù)中的偏置項(xiàng)以及softmax函數(shù)的權(quán)重向量。
2 卷積神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型應(yīng)用分析
CNN語(yǔ)言模型已經(jīng)廣泛應(yīng)用于諸如文本分類(lèi),關(guān)系挖掘以及個(gè)性化推薦等NLP任務(wù),下面將對(duì)這些應(yīng)用進(jìn)行具體的介紹與分析。
2.1 CNN在文本分類(lèi)中的應(yīng)用分析
kim提出了利用CNN進(jìn)行句子分類(lèi)的方法。該方法涉及了較小規(guī)模的參數(shù),并采用靜態(tài)通道的CNN實(shí)現(xiàn)了效果很優(yōu)異的句子分類(lèi)方法。通過(guò)對(duì)輸入向量的調(diào)整,進(jìn)一步提高了性能實(shí)現(xiàn)了包括情感極性分析以及話題分類(lèi)的任務(wù)。在其基礎(chǔ)上為輸入的詞嵌入設(shè)計(jì)了兩種通道,一種是靜態(tài)通道,另一種是動(dòng)態(tài)通道。在卷積層每一個(gè)濾波器都通過(guò)靜態(tài)與動(dòng)態(tài)兩種通道進(jìn)行計(jì)算,然后將計(jì)算結(jié)果進(jìn)行拼接。在池化層采用dropout正則化策略,并對(duì)權(quán)值向量進(jìn)行l(wèi)2約束。最后將該算法應(yīng)用于MR、SST-1與SST-2、Subj、TREC、CR以及MPQA等數(shù)據(jù)集。MR數(shù)據(jù)集為電影評(píng)論數(shù)據(jù)集,內(nèi)容為一句話的電影評(píng)論,其分類(lèi)包括積極情感極性與消極情感極性?xún)深?lèi)。SST-1與SST-2數(shù)據(jù)集為斯坦福情感樹(shù)庫(kù)是MR數(shù)據(jù)集的擴(kuò)展,但該數(shù)據(jù)集已經(jīng)劃分好了訓(xùn)練集、驗(yàn)證集及測(cè)試集并給出了細(xì)粒度的標(biāo)記,標(biāo)記包括非常積極、積極、中性、消極、非常消極等情感極性。Subj數(shù)據(jù)集為主觀性數(shù)據(jù)集,其分類(lèi)任務(wù)是將句子分為主觀句與客觀句兩類(lèi)。TREC數(shù)據(jù)集為問(wèn)題數(shù)據(jù)集,其分類(lèi)任務(wù)是將所有問(wèn)題分為六類(lèi),例如關(guān)于數(shù)字、人物或位置等信息的問(wèn)題。CR數(shù)據(jù)集為評(píng)論數(shù)據(jù)集,包括客戶(hù)對(duì)MP3、照相機(jī)等數(shù)碼產(chǎn)品的評(píng)論,其分類(lèi)任務(wù)是將其分為積極評(píng)價(jià)與消極評(píng)價(jià)兩類(lèi)。MPQA數(shù)據(jù)集是意見(jiàn)極性檢測(cè)任務(wù)數(shù)據(jù)集。通過(guò)實(shí)驗(yàn)證明,該方法在這幾個(gè)典型數(shù)據(jù)集上都能取得非常優(yōu)異的效果。
2.2 CNN在關(guān)系挖掘中的應(yīng)用分析
Shen等人提出了一種新的潛在語(yǔ)義模型,以詞序列作為輸入,利用卷積-池化結(jié)構(gòu)為搜索查詢(xún)和Web文檔學(xué)習(xí)低維語(yǔ)義向量表示。為了在網(wǎng)絡(luò)查詢(xún)或網(wǎng)絡(luò)文本中捕捉上下文結(jié)構(gòu),通過(guò)輸入單詞序列上下文時(shí)間窗口中的每個(gè)單詞來(lái)獲取詞匯級(jí)的n-gram語(yǔ)法特征,將這些特征聚合成句子級(jí)特征向量。最后,應(yīng)用非線性變換來(lái)提取高級(jí)語(yǔ)義信息以生成用于全文字符串的連續(xù)向量表示。該模型的不同之處在于,輸入層與卷積層之間加入了word-n-gram層與letter-trigram層,它們能夠?qū)⑤斎氲脑~序列轉(zhuǎn)變?yōu)閘etter-trigram表示向量。在卷積層通過(guò)上下文特征窗口發(fā)現(xiàn)相鄰單詞的位置特征,并變現(xiàn)為n-gram形式。然后通過(guò)max池化將word-n-gram特征合并為句子級(jí)的高級(jí)特征。在池化層之后增加了語(yǔ)義層來(lái)提取更高級(jí)的語(yǔ)義表示向量。
2.3 CNN在個(gè)性化推薦中的應(yīng)用分析
Weston等人提出了一種能夠利用標(biāo)簽(hashtag)有監(jiān)督的學(xué)習(xí)網(wǎng)絡(luò)帖子短文本特征表示的卷e嵌入模型(Convolutional Embedding Model)。該方法利用提出的CNN模型在55億詞的大數(shù)據(jù)文本上通過(guò)預(yù)標(biāo)注的100,000標(biāo)簽進(jìn)行訓(xùn)練。該方法除了標(biāo)簽預(yù)測(cè)任務(wù)本身能取得好的效果外,學(xué)習(xí)到的特征對(duì)于其它的文本表示任務(wù)也能起到非常有效的作用。該模型與其它的詞嵌入模型類(lèi)似,輸入層為表示文本的矩陣,但是,在用查找表表示輸入文本的同時(shí)將標(biāo)簽也使用查找表來(lái)表示。對(duì)于給定的文檔利用10萬(wàn)條最頻繁出現(xiàn)的標(biāo)簽通過(guò)評(píng)分函數(shù)對(duì)任何給定的主題標(biāo)簽進(jìn)行排序。
其中,econv(w)表示CNN的輸入文檔,elt(t)是候選標(biāo)簽t的詞嵌入表示。因此,通過(guò)對(duì)分?jǐn)?shù)f(w,t)進(jìn)行排序可以獲取所有候選主題標(biāo)簽中排序第一的話題進(jìn)行推薦。實(shí)驗(yàn)數(shù)據(jù)集采用了兩個(gè)大規(guī)模語(yǔ)料集,均來(lái)自流行的社交網(wǎng)絡(luò)文本并帶有標(biāo)簽。第一個(gè)數(shù)據(jù)集稱(chēng)作people數(shù)據(jù)集,包括搜集自社交網(wǎng)絡(luò)的2億1000萬(wàn)條文本,共含有55億單詞。第二個(gè)數(shù)據(jù)集被稱(chēng)作pages,包括3530萬(wàn)條社交網(wǎng)絡(luò)文本,共含有16億單詞,內(nèi)容包括企業(yè)、名人、品牌或產(chǎn)品。
3 結(jié)束語(yǔ)
卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于語(yǔ)言模型已經(jīng)取得了非常大的發(fā)展,對(duì)于自然語(yǔ)言處理中的各項(xiàng)任務(wù)均取得了優(yōu)異的結(jié)果。本文通過(guò)對(duì)幾項(xiàng)典型工作的分析,探討了不同卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)在不同任務(wù)中的表現(xiàn)。通過(guò)綜合分析可以得出以下結(jié)論。首先,CNN的輸入采用原始數(shù)據(jù)訓(xùn)練的向量表示一般效果會(huì)優(yōu)于預(yù)訓(xùn)練的詞嵌入表示;其次,在卷積層濾波器的尺寸一般采用寬度與輸入矩陣寬度相等的設(shè)置;最后,為了優(yōu)化結(jié)果可以采用dropout正則化處理。
篇2
關(guān)鍵詞:人工智能;云計(jì)算;大數(shù)據(jù)
最近火熱的美劇《西部世界》里傳遞出很多關(guān)于人工智能的信息,在圍繞如何突破機(jī)器極限,形成自主意識(shí)方面,提出了富有科幻現(xiàn)實(shí)色彩的方法-冥想程序, 將意識(shí)形成描繪成了“走迷宮”的過(guò)程,同時(shí)在道德層面又一次將“人工智能是否能成為有別于人類(lèi)的另一個(gè)物種”的問(wèn)題呈現(xiàn)在廣大觀眾面前。
“人工智能”(AI)這一概念最早由馬文?明斯基和約翰?麥卡錫于1956年的“達(dá)特茅斯會(huì)議”上共同提出。1960年,麥卡錫在美國(guó)斯坦福大學(xué)建立了世界上第一個(gè)人工智能實(shí)驗(yàn)室。經(jīng)過(guò)近幾年互聯(lián)網(wǎng)的飛速發(fā)展,AI對(duì)企業(yè)甚至是行業(yè)產(chǎn)生了巨大而又深遠(yuǎn)的影響。機(jī)器學(xué)習(xí),尤其是深度學(xué)習(xí)技術(shù)成為人工智能發(fā)展的核心。越來(lái)越多的硬件供應(yīng)商專(zhuān)為深度學(xué)習(xí)和人工智能定制設(shè)計(jì)芯片。如IBM的人腦模擬芯片SyNAPSE(Systems of Neuromorphic Adaptive Plastic Scalable Electronics,自適應(yīng)塑料可伸縮電子神經(jīng)形態(tài)系統(tǒng))芯片,含有100萬(wàn)個(gè)可編程神經(jīng)元,2.56億個(gè)可編程突觸,每消耗一焦耳的能量,可進(jìn)行460億突觸運(yùn)算。
云計(jì)算和大數(shù)據(jù)作為人工智能的基礎(chǔ), 在工業(yè)制造等眾多場(chǎng)景中得到了廣泛應(yīng)用,比如很多工廠都在傳送帶上加裝了傳感器,將壓力、溫度、噪音和其他一些參數(shù)實(shí)時(shí)傳到云端,將工廠真正連上網(wǎng)絡(luò),然后利用人工智能的算法對(duì)這些數(shù)據(jù)進(jìn)行比對(duì),由此提前為工廠提供預(yù)警和遠(yuǎn)程檢測(cè)服務(wù)。這種將生產(chǎn)流程及產(chǎn)品通過(guò)物聯(lián)網(wǎng)連接到云端,然后利用算法進(jìn)行大數(shù)據(jù)分析的模式,將在更多的行業(yè)被廣泛應(yīng)用。
目前人工智能主要有10個(gè)應(yīng)用子領(lǐng)域,分別是機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué)、智能機(jī)器人、虛擬個(gè)人助理、自然語(yǔ)音處理、實(shí)時(shí)語(yǔ)言翻譯、情感感知計(jì)算、手勢(shì)控制、推薦引擎及協(xié)同過(guò)濾、視頻內(nèi)容自動(dòng)識(shí)別。各方向處于不同的發(fā)展階段,發(fā)展程度有高有低。但驅(qū)動(dòng)發(fā)展的先決條件主要體現(xiàn)在感知能力、理解能力、學(xué)習(xí)能力、交互能力四個(gè)方面。
1 感知能力
目前人工智能的感知主要通過(guò)物聯(lián)網(wǎng)來(lái)實(shí)現(xiàn),它提供了計(jì)算機(jī)感知和控制物理世界的接口與手段,能夠采集數(shù)據(jù)、記憶,分析、傳送數(shù)據(jù),進(jìn)行交互、控制等。比如攝像頭和相機(jī)記錄了關(guān)于世界的大量圖像和視頻,麥克風(fēng)記錄了語(yǔ)音和聲音,各種傳感器將它們感受到的世界數(shù)字化。這些傳感器就如同人類(lèi)的五官,是智能系統(tǒng)的數(shù)據(jù)輸入,是感知世界的方式。
2 理解能力
智能系統(tǒng)不同于人腦,沒(méi)有數(shù)以千億的神經(jīng)元,對(duì)事物問(wèn)題的理解在現(xiàn)階段還很大程度上依賴(lài)于處理器的計(jì)算分析能力。近年來(lái),基于GPU(圖形處理器)的大規(guī)模并行計(jì)算異軍突起,擁有遠(yuǎn)超CPU的并行計(jì)算能力。從處理器的計(jì)算方式來(lái)看,CPU計(jì)算使用基于x86指令集的串行架構(gòu),適合盡可能快的完成一個(gè)計(jì)算任務(wù)。而GPU誕生之初是為了處理3D圖像中的上百萬(wàn)個(gè)像素圖像,擁有更多的內(nèi)核去處理更多的計(jì)算任務(wù)。因此GPU具備了執(zhí)行大規(guī)模并行計(jì)算的能力。云計(jì)算的出現(xiàn)、GPU的大規(guī)模應(yīng)用使得集中化數(shù)據(jù)計(jì)算處理能力變得空前強(qiáng)大。
3 學(xué)習(xí)能力
學(xué)習(xí)能力的培養(yǎng)類(lèi)似人類(lèi)需要教材和訓(xùn)練。據(jù)統(tǒng)計(jì),2015年全球產(chǎn)生的數(shù)據(jù)總量達(dá)到了十年前的20多倍,大數(shù)據(jù)的發(fā)展為人工智能的學(xué)習(xí)和發(fā)展提供了非常好的基礎(chǔ)。機(jī)器學(xué)習(xí)是人工智能的基礎(chǔ),而大數(shù)據(jù)和以往的經(jīng)驗(yàn)就是人工智能學(xué)習(xí)的書(shū)本,以此優(yōu)化計(jì)算機(jī)的處理性能。不可忽視的是近年來(lái)科技巨頭為了提前布局AI生態(tài),紛紛開(kāi)源平臺(tái)工具,極大地豐富了機(jī)器訓(xùn)練的素材和手段。如谷歌了新的機(jī)器學(xué)習(xí)平臺(tái)TensorFlow,所有用戶(hù)都能夠利用這一強(qiáng)大的機(jī)器學(xué)習(xí)平臺(tái)進(jìn)行研究,被稱(chēng)為人工智能界的Android。IBM宣布通過(guò)Apache軟件基金會(huì)免費(fèi)為外部程序員提供System ML人工智能工具的源代碼。微軟則開(kāi)源了分布式機(jī)器學(xué)習(xí)工具包DMTK,能夠在較小的集群上以較高的效率完成大規(guī)模數(shù)據(jù)模型的訓(xùn)練,并于2016年7月推出了開(kāi)源Project Malmo項(xiàng)目,用于人工智能訓(xùn)練。
4 交互能力