ChatGPT和生成式人工智能在數(shù)字化轉(zhuǎn)型中的意義

2023年05月12日 16:59:30 cres 作者：Seth 來源：51CTO

　　開發(fā)ChatGPT的OpenAI公司在網(wǎng)站展示了摩根士丹利進(jìn)行的一個(gè)案例研究。其主題是“摩根士丹利財(cái)富管理部署GPT-4來組織其龐大的知識(shí)庫。”該案例研究援引摩根士丹利分析、數(shù)據(jù)與創(chuàng)新主管Jeff McMillan的話說，“該模型將為一個(gè)面向內(nèi)部的聊天機(jī)器人提供動(dòng)力，該機(jī)器人將對(duì)財(cái)富管理內(nèi)容進(jìn)行全面搜索，并有效地解鎖摩根士丹利財(cái)富管理的累積知識(shí)”。

　　McMillan進(jìn)一步強(qiáng)調(diào)說：“采用GPT-4，你基本上立刻就擁有了財(cái)富管理領(lǐng)域最博學(xué)的人的知識(shí)……可以把它想象成我們的首席投資策略師、首席全球經(jīng)濟(jì)學(xué)家、全球股票策略師，以及全球其他每一位分析師，并且每天都在待命。我們相信，這對(duì)我們公司來說是一種變革能力。”

　　這是知識(shí)管理的終極目標(biāo)——將企業(yè)的知識(shí)和專長體現(xiàn)在與客戶交互的系統(tǒng)、過程和工具中的能力。

　　那么真的達(dá)到這個(gè)目標(biāo)了嗎?生成式人工智能是知識(shí)訪問、檢索和應(yīng)用的答案嗎?在宣布戰(zhàn)勝信息混亂之前，考慮一些基本元素和注意事項(xiàng)是很重要的。

　　首先，生成式人工智能可以克服知識(shí)管理挑戰(zhàn)的認(rèn)知背后有一個(gè)假設(shè)，即知識(shí)以明確的、記錄的形式存在。然而，在大多數(shù)企業(yè)中，知識(shí)被鎖定在員工的頭腦中，如果以數(shù)字形式存儲(chǔ)，它就會(huì)分散在部門、技術(shù)和存儲(chǔ)庫的生態(tài)系統(tǒng)中的孤島中。OpenAI公司在其網(wǎng)站進(jìn)一步指出，摩根士丹利每年發(fā)表數(shù)千篇論文，其內(nèi)容涉及資本市場、資產(chǎn)類別、行業(yè)分析和全球經(jīng)濟(jì)區(qū)域……這些知識(shí)財(cái)富為摩根士丹利公司創(chuàng)建了一個(gè)獨(dú)特的內(nèi)部內(nèi)容庫，可以使用GPT-4進(jìn)行處理和解析，同時(shí)也可以進(jìn)行內(nèi)部控制。摩根士丹利擁有的知識(shí)可以構(gòu)成使用ChatGPT大型語言模型的基礎(chǔ)。如果企業(yè)內(nèi)容和知識(shí)資源不可獲取，質(zhì)量很差，或者與客戶和員工的需求不一致，ChatGPT將無法訪問響應(yīng)這些需求的特定知識(shí)。

　　第二，生成式人工智能創(chuàng)造內(nèi)容。它不是一個(gè)檢索機(jī)制。那么原始知識(shí)庫是如何使用的呢?這是一個(gè)棘手的領(lǐng)域。ChatGPT正在尋找內(nèi)容和概念關(guān)系中的模式，以便它可以根據(jù)提示預(yù)測應(yīng)該顯示哪些文本。提示符是一種信號(hào)，就像搜索詞是一種信號(hào)一樣。搜索引擎不僅根據(jù)術(shù)語，而且還根據(jù)與查詢場景相關(guān)的其他信號(hào)(例如，行業(yè)或搜索者的角色)預(yù)測應(yīng)該顯示哪些信息。可以在提示中以事實(shí)或文檔的形式向ChatGPT提供場景，也可以通過指向作為響應(yīng)基礎(chǔ)的特定信息以編程方式提供場景。

　　大型語言模型——同義詞庫

　　大型語言模型是包含在信息體中的術(shù)語、概念和關(guān)系的數(shù)學(xué)表示。大型語言模型的強(qiáng)大之處在于它們能夠理解用戶的意圖——無論請(qǐng)求是如何表達(dá)的，用戶都在尋找什么內(nèi)容，以及預(yù)測最有可能響應(yīng)用戶意圖的單詞模式。該模型“理解”用戶的請(qǐng)求，并對(duì)應(yīng)該返回的內(nèi)容做出預(yù)測。搜索引擎也會(huì)根據(jù)用戶的查詢做出預(yù)測，盡管是通過不同的機(jī)制。搜索引擎可以用于生成人工智能場景中的檢索。使用語義搜索或神經(jīng)搜索引擎檢索內(nèi)容，并使用大型語言模型為用戶格式化響應(yīng)。

　　同義詞庫將非首選術(shù)語映射為首選術(shù)語(例如，“SOW”和“Statement of Work”映射為“Proposal”，即標(biāo)記文檔的首選術(shù)語)。把大型語言模型的一個(gè)方面看作是“同義詞庫”，但不僅僅是單詞，而且是短語和概念。用戶可以用許多不同的方式提出相同的問題。這種意圖分類并不新鮮，它是將短語變化解析為特定動(dòng)作的聊天機(jī)器人的基礎(chǔ)。語言模型是意圖解析和分類功能的基礎(chǔ)。

　　大型語言模型還能理解提示符后面的單詞模式。這就是啟用ChatGPT會(huì)話流暢性的方式。使它們對(duì)企業(yè)具有實(shí)用性的關(guān)鍵是根據(jù)特定的內(nèi)容或知識(shí)體來調(diào)整模型(摩根士丹利在實(shí)施ChatGPT時(shí)就是這樣做的)，并吸收企業(yè)獨(dú)有的術(shù)語。

　　有許多帶有示例代碼的教程說明了如何使用具有特定內(nèi)容的大型語言模型。例如，其視頻引導(dǎo)開發(fā)人員完成使用語言模型(如GPT-4)并將聊天機(jī)器人指向特定知識(shí)和內(nèi)容的過程。

　　面向企業(yè)的知識(shí)專用機(jī)器人

　　在回顧了這些教程之后，有一些觀察結(jié)果：

　　定制的、特定于知識(shí)的聊天機(jī)器人可以使用大型語言模型來理解用戶的要求，然后從指定的知識(shí)來源返回結(jié)果。開發(fā)人員指出，需要將內(nèi)容“分塊”成“語義上有意義”的部分。為回答特定問題而設(shè)計(jì)的組件化內(nèi)容需要完整且符合場景。重要的是要注意，知識(shí)通常不存在于這種狀態(tài)。要進(jìn)行組件化，必須將大型文檔和文本主體分解成塊。例如，用戶手冊可以按章、節(jié)、段和句子分成若干部分。在技術(shù)文檔領(lǐng)域，這已經(jīng)做到了——DITA (達(dá)爾文信息類分類架構(gòu))等標(biāo)準(zhǔn)使用了基于主題的方法，非常適合回答問題。

　　開發(fā)人員談?wù)?ldquo;語義”以及語義的重要性。這是什么意思?語義學(xué)是關(guān)于意義的。語義豐富的內(nèi)容用元數(shù)據(jù)標(biāo)記，元數(shù)據(jù)有助于精確檢索所需的信息和信息的場景。例如，如果用戶使用特定型號(hào)的路由器，并且該路由器發(fā)出錯(cuò)誤代碼，那么當(dāng)請(qǐng)求支持機(jī)器人幫助時(shí)，可以檢索標(biāo)有這些標(biāo)識(shí)符的內(nèi)容。這個(gè)過程在聊天機(jī)器人領(lǐng)域也被稱為“插播”。

　　自定義內(nèi)容被攝取到所謂的“向量空間”中，這是另一種信息數(shù)學(xué)模型，它將文檔放在多維空間中(這是一種數(shù)學(xué)構(gòu)造)，允許對(duì)類似的文檔進(jìn)行聚類和檢索。這被稱為“嵌入”。嵌入可以包含元數(shù)據(jù)和標(biāo)識(shí)符(例如參考源)，這些元數(shù)據(jù)和標(biāo)識(shí)符有助于記錄向用戶提供特定答案的原因。這對(duì)于法律責(zé)任和監(jiān)管目的以及向用戶提供正確、最權(quán)威信息的保證都很重要。

　　訓(xùn)練人工智能的定義

　　關(guān)于“訓(xùn)練”有幾個(gè)觀點(diǎn)。ChatGPT和大型語言模型在大量內(nèi)容上進(jìn)行了訓(xùn)練，使它們能夠理解用戶的查詢，并以格式良好且具有會(huì)話性的最佳答案進(jìn)行響應(yīng)。訓(xùn)練該工具的一種方法是在提示符中包含內(nèi)容，“根據(jù)以下信息回答這個(gè)問題……”

　　但在這里有兩個(gè)問題：

　　首先，ChatGPT在其提示符中只能處理一定數(shù)量的內(nèi)容，這種提問方式將非常有限�？梢詫�(nèi)容攝取到工具中，這將支持額外的訓(xùn)練。然而，將內(nèi)容添加到ChatGPT中也會(huì)將該內(nèi)容合并到公共模型中。因此，企業(yè)的知識(shí)產(chǎn)權(quán)將受到損害。這種風(fēng)險(xiǎn)導(dǎo)致許多企業(yè)禁止使用ChatGPT和其他因無意中上傳企業(yè)機(jī)密而丟失知識(shí)產(chǎn)權(quán)的人工智能工具。

　　另外，還有另一種訓(xùn)練內(nèi)容的方法。大型語言模型可以使用企業(yè)特定知識(shí)作為訓(xùn)練語料庫的一部分，但這需要提供一個(gè)防火墻后面的版本。幸運(yùn)的是，大型語言模型正在迅速實(shí)現(xiàn)商品化，有些甚至可以在筆記本電腦上本地運(yùn)行。這種類型的訓(xùn)練在計(jì)算上也很昂貴。另一種機(jī)制是使用大型語言模型來解釋用戶的目標(biāo)(他們的意圖)，然后使用向量嵌入以編程方式提供來自特定數(shù)據(jù)或內(nèi)容源的場景。

　　然后，語言模型對(duì)響應(yīng)進(jìn)行處理和格式化，使其具有對(duì)話性和完整性。通過這種方式，知識(shí)與大型語言模型分開，使企業(yè)的商業(yè)秘密和知識(shí)產(chǎn)權(quán)不會(huì)受到損害。

　　所有這些因素都表明需要知識(shí)管理和知識(shí)架構(gòu)，將信息組織成組件，以便用戶可以獲得特定問題的答案。大型語言模型和ChatGPT的革命性本質(zhì)可以提供所需的會(huì)話流暢性，以近乎人類的互動(dòng)水平來支持積極的客戶體驗(yàn)。關(guān)鍵因素是獲得企業(yè)中結(jié)構(gòu)良好的知識(shí)。ChatGPT看起來很神奇，但它是基于信息的統(tǒng)計(jì)處理和模式預(yù)測。如果正確地組織和整合信息，將會(huì)成為企業(yè)數(shù)字化轉(zhuǎn)型的重要組成部分。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信