中國品牌,讓東南亞感受“消費升級”小紅書本地“坐抖望團”CrowdStrike“全球滅霸響指”事件后續(xù),德國 10% 企業(yè)更換安全供應(yīng)商導(dǎo)致 1TB 數(shù)據(jù)泄露后,迪士尼宣布棄用 Slack 平臺合合信息啟信產(chǎn)業(yè)大腦攜手市北新區(qū)打造“一企一畫像”平臺,加速數(shù)字化轉(zhuǎn)型重慶:力爭今年智能網(wǎng)聯(lián)新能源汽車產(chǎn)量突破 100 萬輛,到 2027 年建成萬億級產(chǎn)業(yè)集群微信iOS最新版上線:iPhone用戶可在朋友圈發(fā)實況照片了蘋果有線耳機或?qū)⑼.a(chǎn)沖上熱搜!閑魚相關(guān)搜索量暴漲384%2024 vivo開發(fā)者大會官宣:OriginOS 5/自研藍河系統(tǒng)2降臨真·AI程序員來了,阿里云「通義靈碼」全面進化,全流程開發(fā)僅用幾分鐘東方甄選烤腸全網(wǎng)銷量及銷售額領(lǐng)先鴻蒙PC要來了 界面很漂亮!余承東:目前華為PC將是最后一批搭載Windows上半年中國AR/VR出貨23.3萬臺,同比下滑了 29.1%IDC:2024 上半年中國 AR / VR 頭顯出貨 23.3 萬臺,同比下滑 29.1%英特爾AI加速器Gaudi3下周發(fā)布,挑戰(zhàn)NVIDIA統(tǒng)治地位!大屏技術(shù)邂逅千年色彩美學(xué)!海信激光電視成為電影《只此青綠》官方合作伙伴OpenAI將最新AI模型o1擴展到企業(yè)和教育領(lǐng)域三星新專利探索AR技術(shù)新應(yīng)用:檢測屏幕指紋殘留,提高手機安全性猛瑪傳奇C1:直播圖傳技術(shù)的革新者JFrog推出首個運行時安全解決方案,實現(xiàn)從代碼到云的全面軟件完整性和可追溯性
  • 首頁 > 企業(yè)IT頻道 > 大數(shù)據(jù)

    躁動的圖計算

    2022年09月16日 10:15:35   來源:品玩

      在美劇《國土安全》里常出現(xiàn)這樣的橋段:警員在自己家里理出一面墻,把手上案件里的所有關(guān)聯(lián)人物和事件都貼在墻上,然后就是一個填肉的過程......照片、箭頭和關(guān)鍵詞組成一幅復(fù)雜的事件全貌。

      ——找到那個罪犯。

      這幾乎是所有懸疑電影的經(jīng)典場景。整個案件*的破綻就藏在這張關(guān)系網(wǎng)絡(luò)里,推理者的視線在這面墻上流轉(zhuǎn),觀眾的腎上腺素也被極速調(diào)動起來。

      我們會覺得這是合理的,設(shè)想中人類最敏銳的大腦可以穿破墻上的迷霧——如果墻上只有5個家庭,10個嫌疑人,和關(guān)于他們的100件事的話。

      但如果把這面墻無限擴大,比如1億個嫌疑人,100億件事呢?

      看起來這已遠超人腦的負載極限,但我們可能已經(jīng)見過這樣的事了——或許你我的手機里就正在經(jīng)歷這些——比如各式各樣的知識圖譜,以及在它底層,一個抽象出來叫做圖計算的技術(shù)概念。

      01

      圖計算緣起

      “Things, not strings.”(是相互連接的事件,而不只是一個個字符串)

      Google在2012年5月提出了這句話,以及知識圖譜的概念。

      知識圖譜,由知識(Knowledge)和圖譜(Graph)兩個詞構(gòu)成,前者是信息的內(nèi)容要素,后者是信息最終的表現(xiàn)形態(tài)。這種信息間全新的連接方式,其基本組成單位是“實體—關(guān)系—實體”三元組,以及實體及其相關(guān)屬性—值對,實體之間通過關(guān)系相互聯(lián)結(jié),構(gòu)成網(wǎng)狀的知識結(jié)構(gòu)。

      知識圖譜能夠成立的核心是計算機的知識推理機制,圖計算為其提供了重要的底層技術(shù)支持。

      圖計算中的“圖”即Graph,這是一種基于圖論而非數(shù)論的計算邏輯。

      圖論的基本要素是“節(jié)點”和“邊”,“節(jié)點”可以理解為人或者網(wǎng)絡(luò)賬號這些相對靜態(tài)的實體,而“邊”則代表著不同實體之間的關(guān)系或者行為。

      比如A在抖音上關(guān)注了B,這個動作就成為A和B之間這條“邊”上可包含的信息。“邊”在記錄內(nèi)容的時候可以表示方向(可以理解為在A與B之間標注出了箭頭),這被稱為有向圖,而如果“邊”沒有標注方向則稱為無向圖。這種信息數(shù)據(jù)甚至可以是多模態(tài)的,比如在腦科學(xué)領(lǐng)域涉及光或電信號的時候。

      相比于鏈表或者線性表的二維結(jié)構(gòu),“圖”相當于在結(jié)構(gòu)上做了一次升維,這也讓其對于“關(guān)系”有更優(yōu)越的描述能力,也更接近人類對于事物聯(lián)系的原生表達。

      簡單來講,我們從來不是以Excel的樣子來理解外部世界的,圖的相互連接更接近正常人的思考方式。從遙遠的阿蘭•圖靈時代開始,人類就在思考如何讓機器像人類一樣思考,圖計算是目前為止最有潛力的路徑。

      一開始只是試圖找到從鹿特丹到格羅寧根的最短路徑,荷蘭計算機科學(xué)家Dijkstra為了解決這個問題在1956年發(fā)明了尋求圖最短路徑的Dijkstra算法,這是最早與圖計算連接起來的概念之一。到Google創(chuàng)始人Larry Page在20世紀末發(fā)明了開創(chuàng)性的PageRank算法(網(wǎng)頁排名),以及隨著社交網(wǎng)絡(luò)時代降臨而繁榮起來的如Girvan-Newman算法等社區(qū)發(fā)現(xiàn)算法。

      這其中也能看出來,圖計算的定義本身也在經(jīng)歷一個從狹義到廣義的延展過程。

      狹義的圖計算更多指在確定不變的圖上做的計算,比如基于地圖信息的路網(wǎng)圖——在變化頻率和幅度很低的鹿特丹到格羅寧根之間尋找一條最短路徑——這是圖計算可以解決的典型問題。

      廣義的圖計算指一切基于圖數(shù)據(jù)進行的分析計算,其中的數(shù)據(jù)概念進而擴充到海量規(guī)模并且富于動態(tài)變化,比如社交媒體的關(guān)系網(wǎng)絡(luò)(臉書的核心框架Social Graph),不斷發(fā)生新事件的歷史知識圖譜,或者將道路擁堵變化也考慮在內(nèi)的路徑規(guī)劃。

      于是圖數(shù)據(jù)庫的概念被引入進來。

      圖數(shù)據(jù)庫是用來處理圖這種數(shù)據(jù)結(jié)構(gòu)的工具,傳統(tǒng)的使用二維表格存儲數(shù)據(jù)的數(shù)據(jù)庫被稱為關(guān)系性數(shù)據(jù)庫——或者可以被理解成無數(shù)以橫豎軸結(jié)構(gòu)展開的表數(shù)據(jù)的集合,圖數(shù)據(jù)庫則是另一種非關(guān)系性數(shù)據(jù)庫,它把所有表格打散了,然后織成一張網(wǎng)。

      圖數(shù)據(jù)庫與關(guān)系型數(shù)據(jù)庫*的不同是免索引鄰接。即圖數(shù)據(jù)模型中的每個節(jié)點都會維護與它相鄰的節(jié)點關(guān)系,這就意味著查詢時間與圖的整體規(guī)模無關(guān),只與每個節(jié)點的鄰點數(shù)量有關(guān),這使得圖數(shù)據(jù)庫在處理數(shù)據(jù)之間關(guān)系方面比關(guān)系性數(shù)據(jù)庫更加靈活之外,也具備處理大量復(fù)雜關(guān)系時比后者更優(yōu)越的性能。

      圖計算與圖數(shù)據(jù)庫的發(fā)展是互聯(lián)網(wǎng)時代的一條暗線,在其中一些關(guān)鍵技術(shù)背后,可以看到谷歌、Meta、推特甚至高盛的身影——如果你還記得2007年開始爆發(fā)的那場金融危機的話——萊曼兄弟公司破產(chǎn),高盛卻因為提前預(yù)見到了次級抵押貸款市場的熊市而活了下來,背后是圖數(shù)據(jù)庫系統(tǒng)——SecDB對危險的察覺能力。

      不遑說,今天許多偉大公司都是基于圖計算領(lǐng)域的尖端技術(shù)而誕生或持續(xù)繁榮的。

      而在經(jīng)歷了幾十年的發(fā)展之后,圖計算現(xiàn)在站到了更廣泛的應(yīng)用場景入口。

      咨詢公司Gartner在《2021 年十大數(shù)據(jù)和分析技術(shù)趨勢》的報告中預(yù)測,2025年全球?qū)⒂?0%的數(shù)據(jù)和分析創(chuàng)新會與圖技術(shù)有關(guān)。

      在這屆世界人工智能大會(WAIC)上,與圖計算或圖數(shù)據(jù)有關(guān)的論壇數(shù)量也多達五場,是本次大會上被最高頻的概念之一。如螞蟻集團、亞馬遜云等矚目的圖數(shù)據(jù)庫框架,也在本屆WAIC上首次開源。

      圖計算作為一種技術(shù)在國內(nèi)開始成熟的標志是,小范圍的數(shù)據(jù)已無法探索技術(shù)上限,它比以往任何時候都需要更大的試驗場,比如6億用戶的抖音,或者12億用戶的支付寶。越來越多大型科技公司出現(xiàn)在關(guān)于圖計算的討論中。開源是產(chǎn)業(yè)化的隱喻,產(chǎn)業(yè)化的加速使圖計算開始獲得更豐富的能力縱深,甚至早已不局限在知識圖譜的領(lǐng)域。

      02

      抖音與支付寶,兩條路徑

      2018年8月,字節(jié)跳動內(nèi)部開始自研圖數(shù)據(jù)庫ByteGraph的開發(fā)。

      ByteGraph項目的發(fā)起是為了抖音核心的社交關(guān)系問題。個性化推薦系統(tǒng)逐漸成為互聯(lián)網(wǎng)各大社交媒體和電商網(wǎng)站的基礎(chǔ)能力。與此并行的,知識圖譜的場景也正在豐富,大量研究工作逐漸指向兩者的交匯處,圖計算與知識圖譜可以用來完善基于內(nèi)容的推薦系統(tǒng),從而提升推薦效果。

      這是圖計算在字節(jié)跳動內(nèi)的起點,并由此開始進入業(yè)務(wù)的底層開發(fā)場景。從抖音開始,ByteGraph逐漸演變?yōu)橹С钟邢驅(qū)傩詧D數(shù)據(jù)模型、支持寫入原子性、部分Gremlin圖查詢語言的通用圖數(shù)據(jù)庫系統(tǒng),隨后逐漸滲入今日頭條、TikTok、西瓜、等幾乎字節(jié)跳動全部產(chǎn)品線。

      “(現(xiàn)在)字節(jié)跳動整個業(yè)務(wù)開發(fā)團隊,已經(jīng)都在用圖建模的方式來表達和處理業(yè)務(wù)邏輯”,ByteGraph團隊負責人張帥表示。

      開發(fā)團隊圍聚在一起探索業(yè)務(wù)時,往往會拽過來一塊白板,把初步的開發(fā)邏輯和任何靈感寫在一起。這某種程度上即是一種知識圖譜,并且天然與人類大腦思維接近。但此前這樣一張思維導(dǎo)圖需要被重新整理——可以理解為把圖文并茂的圖降維成一張Excel——再進入開發(fā)步驟。

      但現(xiàn)在基于圖計算和圖數(shù)據(jù)庫,這張白板上的草圖可以直接被代碼化了。

      在電商、到店業(yè)務(wù)甚至音樂等更復(fù)雜的場景嵌進信息流與社交屬性后,“圖”作為一種關(guān)系邏輯的重要性在字節(jié)跳動內(nèi)完全顯示出來了。張帥透露ByteGraph已經(jīng)在火山引擎上開始構(gòu)建,這意味著字節(jié)跳動的圖數(shù)據(jù)庫開源已經(jīng)開始提上日程。

      在圖數(shù)據(jù)庫的進展方面,螞蟻集團走在字節(jié)跳動前面。在本屆WAIC上,螞蟻集團宣布開源圖數(shù)據(jù)庫TuGraph的單機版本。

      螞蟻集團的圖數(shù)據(jù)庫研發(fā)從2015年開始,隔年*次發(fā)布自研分布式圖數(shù)據(jù)庫并用于支付寶。2021年,螞蟻集團聯(lián)合清華大學(xué)自主研發(fā)的 “大規(guī)模圖計算系統(tǒng) GeaGraph” 完成了產(chǎn)品 3.0 版本的迭代。迭代后的版本查詢效率提升 10 倍,兼容性更強,并且正式升級為TuGraph。

      相比抖音,支付寶背后有一張更龐大的用戶關(guān)系網(wǎng)絡(luò),而其圍繞支付展開的科技金融業(yè)務(wù),也讓兩者在進入圖計算領(lǐng)域的側(cè)重上分出差異。

      螞蟻集團看中的是圖計算中增強“薄”數(shù)據(jù)的表征,從而增強支付安全性的能力。

      比如在支付寶的場景中,判斷一個用戶的消費偏好,或者這個人還款的信用,當用戶數(shù)據(jù)信息很豐富的時候,人工智能算法往往會得到很好的結(jié)果。但如果用戶背后沒有太豐富的信息——比如他只是偶爾的用支付寶轉(zhuǎn)過幾筆錢——如何得知這個人的特點呢?

      圖數(shù)據(jù)比起以關(guān)系數(shù)據(jù)網(wǎng)為代表的表數(shù)據(jù)最鮮明的優(yōu)越性在于,很多時候人、地點和事件的關(guān)聯(lián)性并不完全能以表的形式呈現(xiàn),卻能用“節(jié)點”和“邊”這種更松散的形式記錄下來,這些隱形的關(guān)聯(lián)信息單獨來看并不能解釋某個關(guān)聯(lián)用戶的行為,但這張網(wǎng)聚集起來卻能形成一些社區(qū)發(fā)現(xiàn)。也因此,當這張關(guān)系網(wǎng)絡(luò)中納入的用戶越多,這種四兩撥千斤的能力也愈強。

      “圖是一種最為靈活的連接方式,讓實體之間可以不受限制地連接”,螞蟻技術(shù)研究院院長陳文光表示,這同時也賦予了算法更多的“可解釋性”。

      人跟隨著算法生活的蜜月正在過去,算法對人的過度入侵開始被提到高位審視。在這個過程中,算法已經(jīng)不可逆的搭建起一套社會需要依附其上的運轉(zhuǎn)方式,于是當代碼替人做了決定——比如你的轉(zhuǎn)賬額度,或者為什么一直收到某一類的廣告——這個決定是如何做出的,需要可以被清晰追溯。

      陳文光以社區(qū)發(fā)現(xiàn)舉了個例子:

      “比如在某個社區(qū)里已知有一些“壞人’,然后我們發(fā)現(xiàn)某個人和這些鄰居的鏈接比較緊密,那這個人是”壞人”的概率也會更大。”

      這是最基本的思路。一個人的節(jié)點特征是由他鄰居的節(jié)點特征通過某種運算,結(jié)合和他過去的特征合在一起型成的。(鄰居的表征和關(guān)聯(lián)關(guān)系)能夠影響我們對一個人的判斷,形成他(一個節(jié)點)新的特征,這與之前純粹將數(shù)據(jù)放進神經(jīng)網(wǎng)絡(luò),通過統(tǒng)計學(xué)得到一個完全沒法解釋的分類答案不一樣。”

      相比于表數(shù)據(jù)來說,圖計算帶有一個更清晰的逐層推導(dǎo)結(jié)構(gòu),這個結(jié)構(gòu)本身就意味著一定的可解釋性。

      這種把薄數(shù)據(jù)“變厚”的能力以及推理過程的可解釋性,已經(jīng)開始和螞蟻集團開源的可信隱私計算框架“隱語”一起,在支付寶反詐風(fēng)控的系統(tǒng)中形成合力。目前支付寶可在0.01秒內(nèi)完成對一筆交易的風(fēng)險判定,并且在2021年的全年統(tǒng)計中資損率低于億分之0.98——即平臺上1億人民幣的資金流轉(zhuǎn)中,出于欺詐行為的不到1元。

      03

      開始跨入現(xiàn)實之門

      在這位從學(xué)界跨入產(chǎn)界的螞蟻智庫首席看來,圖計算是一個處在數(shù)據(jù)和人工智能發(fā)展交匯處的概念。技術(shù)沉淀多時,亟需的是場景。

      陳文光是以費馬科技創(chuàng)始人的身份加入螞蟻集團的,再那之前的十幾年一直在清華大學(xué)計算機系擔任教授,這番從學(xué)界投身產(chǎn)界,最終進入大公司的姿態(tài)本身也像是圖計算作為一個前沿領(lǐng)域發(fā)展的某種映射。

      費馬科技在2016年5月創(chuàng)立,站在臺前的是包括洪春濤和朱曉偉在內(nèi)的幾位清華計算機系博士,陳文光則落于幕后擔任首席科學(xué)家。公司的業(yè)務(wù)方向是立足于高性能的分布式圖計算以進行大規(guī)模關(guān)系網(wǎng)絡(luò)分析,為銀行等客戶提供反欺詐能力和社交分析能力,以及整體的金融大數(shù)據(jù)解決方案。

      2016年之前,陳文光在清華大學(xué)主導(dǎo)的圖計算研究已經(jīng)有了成果,團隊自研的圖計算系統(tǒng)比當時開源軟件中常用的圖計算框架GraphX要快100倍左右,而所需的內(nèi)存只是后者的10%。把自己培養(yǎng)的博士生聚攏起來,繼續(xù)優(yōu)化自研的圖計算系統(tǒng),并為它找到使用場景,這是費馬科技成立的初衷。

      費馬的暢想卡在規(guī);@最后一步。

      “圖計算要想真正成長起來,*步要解決:做出來;第二步:有人用;第三步:大規(guī)模使用。而當時困擾我的問題,怎么實現(xiàn)從有人用到大規(guī)模使用。”

      幾年時間里費馬科技確實拿到了一些標桿客戶,比如京東金融和國家電網(wǎng),但整體的商業(yè)化路徑并不清晰,這也不是技術(shù)出身的團隊所擅長的事。

      在本屆WAIC的一場論壇上,洪春濤與陳文光同席出現(xiàn)在最后的圓桌環(huán)節(jié)。洪春濤曾是費馬科技的CEO,現(xiàn)在他的身份是螞蟻集團圖數(shù)據(jù)庫負責人。2020年,洪春濤曾經(jīng)表示圖計算未來的市場規(guī)模會達到千億,并且“已到爆發(fā)前夜”,但2021年初的多項工商變更則表明,費馬科技決定在這黎明前的最后一夜擁抱螞蟻集團。

      “到 2020 年的時候,我們發(fā)現(xiàn)了自身的局限性。費馬團隊總體上技術(shù)上是很強,但是管理和市場銷售,特別是后者我們相對比較弱的”,陳文光在今年6月的一次采訪中對極客公園表示。

      2020年,螞蟻集團宣布了陳文光的加入。兩年之后,后者開始擔任螞蟻技術(shù)研究院院長。

      螞蟻集團對于圖計算的布局很早,從2015年開始就自主研發(fā)分布式圖數(shù)據(jù)庫、流式圖計算等圖相關(guān)技術(shù),2016 年發(fā)布自研分布式圖數(shù)據(jù)庫。而手握支付寶,意味著螞蟻天然有了全球*的圖計算的場景需求,這是純粹從技術(shù)出發(fā)的圖計算團隊都不具備的。

      從陳文光的表述中,費馬科技并入螞蟻集團并不是商業(yè)場上那種千篇一律的無奈收購,而是一個技術(shù)找到場景的積極故事。螞蟻集團,或者字節(jié)跳動這些掌握大量數(shù)據(jù)的科技公司正擁有這片土壤。只有在*限度的接觸到真實數(shù)據(jù)之后,圖計算的成長才會開始加速,直到最終從象牙塔中走出,找到現(xiàn)實世界中的位置。

      除了螞蟻和字節(jié)跳動,國內(nèi)的互聯(lián)網(wǎng)巨頭幾乎無一例外的都已經(jīng)開始圖計算和圖數(shù)據(jù)庫的相關(guān)布局。

      華為云的圖引擎服務(wù)GES(Graph Engine Service)是國內(nèi)*商用的、擁有自主知識產(chǎn)權(quán)的國產(chǎn)分布式原生圖引擎。早在2019年華為云推出一站式AI開發(fā)平臺ModelArts,聯(lián)合了GES圖引擎打造的“圖神經(jīng)網(wǎng)絡(luò)”,自此圖深度學(xué)習(xí)開始落地。

      2020年6月1日,騰訊云正式發(fā)布分布式圖數(shù)據(jù)庫產(chǎn)品騰訊云數(shù)圖TGDB(Tencent Graph Database),能夠?qū)崿F(xiàn)萬億級關(guān)聯(lián)關(guān)系數(shù)據(jù)實時查詢,高效治理異構(gòu)數(shù)據(jù),支持實時圖計算。

      而早在2018年,百度已宣布開源大規(guī)模圖數(shù)據(jù)庫HugeGraph,這也是國內(nèi)*家開源的圖數(shù)據(jù)庫。今年5月百度將HugeGraph捐贈給了世界上*的開源軟件基金會Apache,成為后者的孵化項目之一。孵化成功的HugeGraph有望成為全球*Apache軟件基金會的圖數(shù)據(jù)庫*項目。

      這一切跡象都在表明,圖計算正在被積極的潮水推動著。人類苦尋“幻視”一樣理想的人工智能,或許我們已經(jīng)找到額頭上的那顆寶石了。

      *參考資料:

      《圖論及相關(guān)歷史》

      《人人都在談的圖數(shù)據(jù)庫到底是個啥?》

      《圖計算,下一個科技前沿?》

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風(fēng)險自擔。

    即時

    TCL實業(yè)榮獲IFA2024多項大獎,展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設(shè)計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實業(yè)斬獲多項AWE 2024艾普蘭獎

    近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項AWE 2024艾普蘭大獎。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。