秒懂生成式AI—大語言模型是如何生成內(nèi)容的？

2023年09月21日 12:08:51 來源：微信公眾號AIGC開放社區(qū)

　　本文來自于微信公眾號 AIGC開放社區(qū)(ID:AIGCOPEN)，作者:AIGC開放社區(qū)。

　　備受關(guān)注的大語言模型，核心是自然語言的理解與文本內(nèi)容的生成，對于此，你是否好奇過它們究竟是如何理解自然語言并生成內(nèi)容的，其工作原理又是什么呢?

　　要想了解這個，我們就不得不先跳出大語言模型的領(lǐng)域，來到機器翻譯這里。傳統(tǒng)的機器翻譯方式，還是采用RNN 循環(huán)神經(jīng)網(wǎng)絡(luò)。

　　循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是一種遞歸神經(jīng)網(wǎng)絡(luò)，以序列數(shù)據(jù)為輸入，在序列的演進方向進行遞歸且所有節(jié)點(循環(huán)單元)按鏈式連接。

　　釋義來源:文心一言

　　就“我畫一幅畫”這句話而言，它會先將其拆分為“我”、“畫”、“一幅”、“畫”四個詞，然后遞進式一個詞一個詞對這句話進行理解翻譯，像是:

　　然后輸出:I have drawn a picture.

　　這種方式簡單直接，但因為 RNN 自身的線性結(jié)構(gòu)導(dǎo)致其無法對海量文本進行并行處理，運行緩慢，另外還會有“讀到后面忘了前面”，使 RNN 在處理長序列時會出現(xiàn)梯度消失或爆炸的狀況。

　　直到2017年，Google Brain 和 Groogle Research 合作發(fā)布了一篇名為《Attention Is All You Need》的論文，該論文為機器翻譯處理提供了一個嶄新的方式，同時起了一個與《變形金剛》相同的名字——Transformer。

　　Transformer 是一種神經(jīng)網(wǎng)絡(luò)，它通過跟蹤序列數(shù)據(jù)中的關(guān)系來學習上下文并因此學習含義。該模型在2017年由 Google 提出，是迄今為止發(fā)明的最新和最強大的模型類別之一。

　　釋義來源:文心一言

　　Transformer 能對海量文本進行并行處理，因為它使用的是一種特殊的機制，稱為自注意力(self-attention)機制。就像我們在進行長閱讀時，大腦會依靠注意力選擇重點詞進行關(guān)聯(lián)，從而“略讀”后對文章更好的理解，該機制的作用就是賦予AI這項能力。

　　self-attention 是一種注意力機制，它通過對輸入序列進行線性變換，得到一個注意力權(quán)重分布，然后根據(jù)這個分布加權(quán)輸入序列中的每個元素，得到最終的輸出。

　　釋義來源:文心一言

　　同樣還是“請注意垃圾分類”這句話，同樣是被分成“我”、“畫”、“一幅”、“畫”四個詞，在 Transformer 中它們會經(jīng)歷輸入、編碼器(encoder)、解碼器(decoder)、輸出四個階段。

　　具體來看，當句子拆解后輸入到編碼器(encoder)中，編碼器會先對每個詞的生成一個初始表征，可簡單理解為對每個詞的初始判斷，比如“畫”是名詞，也可以是動詞。

　　然后，利用自注意力(self-attention)機制計算詞與詞之間的關(guān)聯(lián)程度，可以理解為進行打分，比方第一個“畫”與“我”的關(guān)聯(lián)程度高就給打6分，第二個“畫”與“一幅”的關(guān)聯(lián)也高打8分，“我”與“一幅”沒什么關(guān)聯(lián)就打-2分。

　　接著，根據(jù)打分對先前生成的初始表征進行加工，第一個“畫”與“我”的關(guān)聯(lián)程度高，那就可以降低表征中對名詞詞性的判斷，提升動詞詞性的判斷;第二個“畫”與“一幅”的關(guān)聯(lián)程度高，那就可以降低表征中對動詞詞性的判斷，提升名詞詞性的判斷。

　　最后，將加工過的表征輸入到解碼器(decoder)，解碼器(decoder)再根據(jù)對每個詞的了解結(jié)合上下文，再輸出翻譯。在這期間，每個詞與詞之間都可以同時進行，大大提高了處理速率。

　　可這樣的 Transformer 和大語言模型有什么關(guān)系呢?

　　大語言模型本就是指使用大量文本數(shù)據(jù)訓(xùn)練的深度學習模型，而 Transformer 正好能為大量文本數(shù)據(jù)訓(xùn)練提供足夠的動力。另外，在加工過的表征輸入到解碼器(decoder)后，能依靠這些表征推斷下一個詞出現(xiàn)的概率，然后從左到右逐字生成內(nèi)容，在這個過程中還會不斷結(jié)合先前已生成的這個詞共同推斷。