2022年,人工智能帶給人類更多驚喜
◎?qū)嵙曈浾?都 芃
即將過去的2022年,,對于人工智能來說是值得銘記的一年,。大批人工智能相關(guān)應(yīng)用走出實驗室,,向著大范圍落地實踐不斷邁進,。AI“黑科技”加持下的北京冬奧會異彩紛呈;無人駕駛開啟多城試點,,未來交通更進一步,;AI繪畫以假亂真令人著迷,藝術(shù)創(chuàng)作或許不再是人類專屬……
無論是底層技術(shù)不斷突破,,還是各類應(yīng)用百花齊放,,在過去的一年,人工智能向我們展示了它的無限可能,。我們相信這只是人工智能的冰山一角,,未來它還有更多潛力等待我們?nèi)ネ诰颉?/p>
隨著技術(shù)的不斷成熟,落地應(yīng)用不斷創(chuàng)新,,人工智能或?qū)⒄嬲淖兡阄业纳睢?/p>
AI“黑科技”照亮北京冬奧會
助力天氣預報,、比賽轉(zhuǎn)播和手語播報等
2月4日,全球矚目的2022年北京冬奧會正式拉開帷幕,。人工智能等技術(shù)的應(yīng)用為本屆冬奧會增添了別樣的“科技之美”。
在此次冬奧會上,,由中國科學院院士、北京大學副校長,、北京大學重慶大數(shù)據(jù)研究院首席科學家張平文領(lǐng)銜研制的人工智能MOML算法賦能天氣預報模型,使冬奧會天氣預報更加精準,。人工智能算法在融合、處理信息中的先天優(yōu)勢,,使其在一定程度上可以代替預報員在會商中進行信息整合,、分析,通過數(shù)據(jù)挖掘與學習,,將預報員的經(jīng)驗內(nèi)化在算法中,在提高天氣預報效率的同時,,也進一步提高了預報的準確率,。
在本屆冬奧會自由式滑雪女子大跳臺決賽中,,中國選手谷愛凌以“逆天”的精彩表現(xiàn)獲得個人首金。在比賽轉(zhuǎn)播過程中,百度智能云通過“3D+AI”技術(shù)打造出的“同場競技”系統(tǒng),,將單人比賽項目變成“多人比賽”,,實現(xiàn)冠、亞軍比賽畫面的三維恢復和虛擬疊加,,方便觀眾看到不同選手的實時動作,;同時,通過技術(shù)手段對運動員動作進行量化分析,,將滑行速度,、騰空高度、落地遠度,、旋轉(zhuǎn)角度等一系列運動數(shù)據(jù)與原始畫面疊加起來,,使觀眾可以更直觀地從流暢性、完成度,、難度、多樣性和美觀度等角度看懂選手之間的技術(shù)動作差異,。
在北京冬奧會開幕的同一天,,央視新聞AI手語主播也正式上崗,,她在冬奧會新聞播報、賽事直播和現(xiàn)場采訪中,,為聽障人士送上了實時手語翻譯服務(wù),。憑借精確的手語翻譯引擎,,該AI手語主播可懂度達85%以上,可將冰雪賽事的文字及音視頻內(nèi)容,,快速精準地轉(zhuǎn)化為手語,。
騰訊“混元”AI大模型登頂VCR榜單
展現(xiàn)了其在多模態(tài)理解領(lǐng)域的強大實力
5月31日,,騰訊“混元”AI大模型在多模態(tài)理解領(lǐng)域國際權(quán)威榜單VCR(Visual Commonsense Reasoning,,視覺常識推理)中登頂,,兩個單項成績和總成績均位列第一。這是繼在跨模態(tài)檢索領(lǐng)域大滿貫,、CLUE自然語言理解分類榜及CLUE總榜登頂后,,“混元”AI大模型的又一重大突破,,展現(xiàn)了其在多模態(tài)理解領(lǐng)域的強大實力。
與跨模態(tài)理解任務(wù)不同的是,,多模態(tài)理解任務(wù)要求計算機除了能夠做到識別層次的感知(如分類檢測等),,還需要達到認知層次的感知(如判斷意圖,、邏輯推理等)。
此次登頂VCR榜首的“混元”AI大模型由騰訊廣告多媒體AI團隊自主研發(fā),,同時借助騰訊太極機器學習平臺的圖形處理器算力和訓練加速框架,在預訓練任務(wù)、訓練方式上進行了諸多創(chuàng)新改進和設(shè)計,,有效提升了模型性能,。
截至目前,,“混元”AI大模型在MSR-VTT、MSVD,、CLUE,、VCR等多個領(lǐng)域的AI權(quán)威榜單中取得了第一名的成績,,并刷新多項行業(yè)歷史紀錄。這意味著,,“混元”在自然語言理解,、多模態(tài)理解,、跨模態(tài)理解等領(lǐng)域的技術(shù)實力已得到驗證,。
谷歌工程師鬧烏龍,,稱AI存在意識
人工智能所謂的“人格”更多只是模仿人類罷了
谷歌AI工程師鬧烏龍,稱LaMDA語言模型有意識,,引發(fā)業(yè)界對“AI是否擁有自主意識”的討論,。
今年6月,,谷歌公司AI工程師萊莫因認為對話應(yīng)用語言模型LaMDA具有了“自主意識”,并對此出具了長達21頁的證據(jù),。萊莫因認為LaMDA具有意識的原因有三:一是LaMDA以前所未有的方式高效,、創(chuàng)造性地使用語言,;二是它以與人類相似的方式分享感覺;三是它會表達內(nèi)省和想象——既會擔憂未來,,也會追憶過去,。
LaMDA是谷歌在2021年開發(fā)者大會上公布的大型自然語言對話模型,,它可以模擬任何帶有知識屬性的實體,通過“擬人”的方式,,在與人類親切自然的對話中為用戶答疑解惑,傳遞更多知識,。
萊莫因的觀點和證據(jù)引起了業(yè)內(nèi)的廣泛關(guān)注,。不久后,,谷歌發(fā)表聲明稱,萊莫因違反了“就業(yè)和數(shù)據(jù)安全政策”,,將其解雇。谷歌表示,,經(jīng)過廣泛地審查,,他們發(fā)現(xiàn)萊莫因關(guān)于LaMDA是有生命的說法是完全沒有根據(jù)的。
專家普遍認為,,當下人工智能具有的所謂“人格”,,更多只是模仿人類的語言風格,,有自我意識,、有感知能力的AI應(yīng)該具備能動性,并具有獨特的視角看待人和事,,但目前AI還只是人們設(shè)計的一個計算機系統(tǒng),,作為工具來做一些特定之事。
全球首個圖,、文,、音三模態(tài)大模型誕生
“紫東太初”實現(xiàn)“以圖生音”和“以音生圖”
9月1日,,在上海舉辦的2022世界人工智能大會上,,由武漢人工智能研究院,、中國科學院自動化研究所和華為技術(shù)有限公司聯(lián)合研發(fā)的“紫東太初”多模態(tài)大模型項目獲得了此次大會的最高獎項。“紫東太初”是全球首個圖,、文,、音三模態(tài)大模型,,開創(chuàng)性地實現(xiàn)了圖像,、文本,、語音三模態(tài)數(shù)據(jù)間的“統(tǒng)一表示”與“相互生成”,,實現(xiàn)了“以圖生音”和“以音生圖”,,理解和生成能力更接近人類,,為打造多模態(tài)人工智能行業(yè)應(yīng)用提供創(chuàng)新基礎(chǔ),,向通用人工智能邁出了重要一步,。
“紫東太初”三模態(tài)間的相互轉(zhuǎn)換和生成,,其核心原理是視覺、文本,、語音不同模態(tài)通過各自編碼器映射到統(tǒng)一語義空間,,然后通過多頭自注意力機制學習模態(tài)之間的語義關(guān)聯(lián)以及特征對齊,,形成多模態(tài)統(tǒng)一知識表示;之后,,再利用編碼后的多模態(tài)特征,,通過解碼器分別生成文本、圖像和語音,。
“紫東太初”憑借四大突破,,有效助力以多模態(tài)認知為核心的通用人工智能發(fā)展,。一是首次提出多層次、多任務(wù)跨模態(tài)自監(jiān)督學習框架,,支持從詞條級走向模態(tài)級,、樣本級的三級預訓練自監(jiān)督學習方式,;二是首次完成弱關(guān)聯(lián)多模態(tài)數(shù)據(jù)語義統(tǒng)一表示,減少數(shù)據(jù)收集與清洗代價,;三是首次實現(xiàn)多模態(tài)理解與生成任務(wù)的統(tǒng)一建模,,支持跨模態(tài)檢索、多模態(tài)分類,、語音識別,、圖像生成等理解與生成任務(wù),;四是首次實現(xiàn)無監(jiān)督超越有監(jiān)督方法,,基于5%—10%的數(shù)據(jù)標注,,實現(xiàn)100%的有監(jiān)督學習效果,。
AI打破矩陣乘法計算速度紀錄
解決了50年來數(shù)學領(lǐng)域一個懸而未決的問題
10月,英國《自然》雜志封面以“矩陣游戲”為題,,發(fā)表了人工智能公司“深度思維”團隊的最新發(fā)現(xiàn):AI可以解決矩陣乘法問題,。這款名為“AlphaTensor”的AI系統(tǒng)能自行發(fā)現(xiàn)新算法,,從而解決了50年來數(shù)學領(lǐng)域一個懸而未決的問題——找到兩個矩陣相乘最快的方法。這是第一個可為矩陣乘法等基本任務(wù)發(fā)現(xiàn)新穎,、高效且正確算法的AI系統(tǒng),。
數(shù)學在計算機編程中經(jīng)常出現(xiàn),通常作為描述和操縱現(xiàn)實世界現(xiàn)象表示的一種手段,。例如,,它可用于表示計算機屏幕上的像素、天氣狀況或人工網(wǎng)絡(luò)中的節(jié)點,。在這種情況下,,使用數(shù)學的主要方式之一,就是對矩陣進行計算,。矩陣越大,,工作量也越大,計算機科學家開始花費大量時間和精力開發(fā)更加有效的算法來完成相關(guān)工作,。
在此次最新成果中,,“深度思維”團隊研究人員探究了是否有可能使用基于強化學習的AI系統(tǒng)來創(chuàng)建新算法,,從而使計算步驟比現(xiàn)有算法更少。
為了找到答案,,他們從游戲系統(tǒng)中尋找靈感,。在構(gòu)建了一些初步系統(tǒng)之后,研究團隊將重點轉(zhuǎn)向了樹搜索,,這是系統(tǒng)在特定情況下查看各種方案的一種方法。
接下來,,研究人員將允許系統(tǒng)創(chuàng)建自己的算法,,進一步提高效率。他們發(fā)現(xiàn),,在許多情況下,,系統(tǒng)選擇的算法比人類創(chuàng)建的算法更好�,!吧疃人季S”團隊希望,,未來AI能更多地用來幫助攻克數(shù)學和科學領(lǐng)域的一些重要的難題。
2022中國人工智能創(chuàng)新發(fā)展指數(shù)公布
全面反映我國人工智能發(fā)展態(tài)勢
11月18日,,第五屆世界聲博會暨2022科大訊飛全球1024開發(fā)者節(jié)開幕式上,,中國電子信息產(chǎn)業(yè)發(fā)展研究院(又稱賽迪研究院)發(fā)布了2022中國人工智能創(chuàng)新發(fā)展指數(shù)(合肥指數(shù))。
這是國內(nèi)首個以地區(qū)冠名的全國性人工智能專題研究成果,,旨在全面系統(tǒng)地反映我國人工智能的發(fā)展態(tài)勢,。中國電子信息產(chǎn)業(yè)發(fā)展研究院從發(fā)展環(huán)境、創(chuàng)新能力,、基礎(chǔ)配套,、資本投入和產(chǎn)業(yè)實力5個維度,構(gòu)建了中國人工智能創(chuàng)新發(fā)展指數(shù),,也就是“合肥指數(shù)”的評價體系,。
近年來,我國人工智能步入與經(jīng)濟深度融合應(yīng)用新階段,,智能化轉(zhuǎn)型全面推進,,人工智能產(chǎn)業(yè)在全球的影響力不斷增強,。2021年,,我國人工智能的研發(fā)強度為19.4%,從業(yè)人數(shù)增加到31萬人,,占全球比重的5.3%,。2017年至2021年,我國人工智能產(chǎn)業(yè)規(guī)模增長了2.6倍,,占全球比重提升到16.8%,。專利申請量占全球比重持續(xù)擴大,,從2012年的13%增長到2021年的70.9%。創(chuàng)新能力上,,我國人工智能研發(fā)投入力度不斷加大,,從業(yè)人數(shù)不斷增加。
從總體指數(shù)來看,,北京,、廣東和上海處于人工智能領(lǐng)域的領(lǐng)跑地位,安徽則緊隨其后,,排在全國的第6位,。合肥已經(jīng)成為人工智能領(lǐng)域、科技創(chuàng)新與產(chǎn)業(yè)發(fā)展最活躍的城市之一,。
ESMFold預測六億多種蛋白質(zhì)結(jié)構(gòu)
預測速度比“阿爾法折疊”快60倍
英國“深度思維”公司8月曾宣布,,其開發(fā)的人工智能程序“阿爾法折疊”已預測出約100萬個物種的超過2億種蛋白質(zhì)結(jié)構(gòu),幾乎涵蓋了科學界已編錄的每一種蛋白質(zhì)結(jié)構(gòu),。但就在今年11月,,元宇宙平臺公司(Meta)研究人員利用人工智能模型ESMFold預測了來自細菌、病毒和其他尚未被表征微生物的6億多種蛋白質(zhì)結(jié)構(gòu),。
在此次最新研究中,,研究團隊利用大型語言模型來預測這些蛋白質(zhì)結(jié)構(gòu)。據(jù)悉,,語言模型通常需要大量文本進行訓練,,為將這一模型應(yīng)用于蛋白質(zhì)結(jié)構(gòu)預測,研究團隊利用已知的蛋白質(zhì)序列來訓練它,,這些已知的蛋白質(zhì)可由20個不同氨基酸組成的鏈來表達,,每個氨基酸由一個字母表示。然后,,ESMFold學會了用模糊的氨基酸比例“自動完成”蛋白質(zhì)結(jié)構(gòu)預測,。
該團隊負責人亞歷山大·里維斯表示,這些訓練讓ESMFold對包含蛋白質(zhì)形狀信息的蛋白質(zhì)序列有了直觀了解,。而且,,與“阿爾法折疊”一樣,這一模型能將這些了解到的信息與已知蛋白質(zhì)結(jié)構(gòu)和序列之間的關(guān)系信息結(jié)合,,生成預測結(jié)構(gòu),。
團隊指出,ESMFold的預測雖然不像“阿爾法折疊”那么準確,,但在預測速度上要快60倍,,這意味著它可將結(jié)構(gòu)預測數(shù)據(jù)庫擴展到更大。
首創(chuàng)蛋白質(zhì)動態(tài)結(jié)構(gòu)AI建模方法
對理解生命過程,、研發(fā)新型藥物有著重要意義
12月8日,,西湖大學公布了該校人工智能講席教授李子青團隊聯(lián)合廈門大學,、杭州德睿智藥科技有限公司首創(chuàng)研發(fā)的能夠刻畫蛋白質(zhì)構(gòu)象變化與親和力預測的AI模型——ProtMD。這是第一個嘗試解析蛋白質(zhì)動態(tài)構(gòu)象的人工智能模型,,可輔助藥物化學專家更加精準地篩選出高活性小分子,,從而加速臨床前藥物研發(fā)。
此前谷歌旗下公司研發(fā)的“阿爾法折疊2”能夠利用人工智能準確預測蛋白質(zhì)的三維結(jié)構(gòu),,對結(jié)構(gòu)生物學,、藥物設(shè)計乃至整個科學界都產(chǎn)生了巨大影響。但“阿爾法折疊2”只能預測蛋白質(zhì)在一個瞬間的靜態(tài)結(jié)構(gòu),,尚未能解決蛋白質(zhì)結(jié)構(gòu)動態(tài)變化的預測,。李子青團隊此次開發(fā)的AI模型,在給定藥物分子和靶點蛋白的情況下,,可預測藥物分子與生物體內(nèi)靶點蛋白質(zhì)結(jié)合(柔性對接)后蛋白質(zhì)結(jié)構(gòu)的變化過程,,推斷藥物與靶標蛋白結(jié)合的穩(wěn)定性,預測藥物功能,,從而提升AI藥物設(shè)計的精度和效率,。
李子青表示,預測蛋白質(zhì)結(jié)構(gòu)的動態(tài)變化對理解生命過程,、研發(fā)新型藥物都有著十分重要的意義,。尤其在AI藥物設(shè)計中,通過對藥物分子與靶點蛋白結(jié)合后的動態(tài)結(jié)構(gòu)變化進行預測,,評估藥物—靶點結(jié)合親和力和藥物效果,,是提高AI藥物篩選準確性和效能的重要思路。
多城市推動自動駕駛行業(yè)發(fā)展
我國自動駕駛行業(yè)正式向L3級邁進
2022年是自動駕駛行業(yè)具有里程碑意義的一年,,有關(guān)政策密集出臺,,相關(guān)應(yīng)用從研發(fā)測試走向大規(guī)模商業(yè)化試點。當前,,全國近30個城市已累計為80余家企業(yè)發(fā)放了超過1000張道路測試牌照,,允許高等級智能網(wǎng)聯(lián)汽車在特定場景、特殊區(qū)域內(nèi)開展規(guī)�,;d人載物測試示范,。越來越多的城市正在推進更高等級的自動駕駛商業(yè)化。
今年8月1日,,《深圳經(jīng)濟特區(qū)智能網(wǎng)聯(lián)汽車管理條例》開始實行,,該條例提出L3級自動駕駛在行政區(qū)全域開放道路測試、示范應(yīng)用,,探索開展商業(yè)化運營試點,,標志著我國自動駕駛行業(yè)正式向L3級邁進。
此后,,重慶,、武漢等地政府部門也先后發(fā)布了自動駕駛?cè)珶o人商業(yè)化試點政策,并向百度發(fā)放全國首批無人化示范運營資格,,允許車內(nèi)無安全員的自動駕駛車輛在社會道路上開展商業(yè)化服務(wù),。
此外,為推動智能網(wǎng)聯(lián)汽車產(chǎn)業(yè)健康有序發(fā)展,,工業(yè)和信息化部會同公安部還組織起草了《關(guān)于開展智能網(wǎng)聯(lián)汽車準入和上路通行試點工作的通知(征求意見稿)》,,擬遴選符合條件的道路機動車輛生產(chǎn)企業(yè)和具備量產(chǎn)條件的搭載自動駕駛功能的智能網(wǎng)聯(lián)汽車產(chǎn)品,開展準入試點,;對通過準入試點的智能網(wǎng)聯(lián)汽車產(chǎn)品,,在試點城市的限定公共道路區(qū)域內(nèi)開展上路通行試點。
AI繪畫火了,,AIGC元年開啟
未來預計能夠產(chǎn)生萬億級經(jīng)濟價值
今年8月,,在美國科羅拉多州舉辦的新興數(shù)字藝術(shù)家競賽中,參賽者杰森·艾倫提交的AIGC繪畫作品——《太空歌劇院》,,獲得了此次比賽“數(shù)字藝術(shù)/數(shù)字修飾照片”類別一等獎,。沒有繪畫基礎(chǔ)的杰森·艾倫借用了一款名叫Midjourney的AI繪圖工具,通過一個類似“文字游戲”的過程,,輸入題材,、光線、場景,、角度,、氛圍等有關(guān)畫面效果的關(guān)鍵詞后,得到了初始作品,,并在反復調(diào)整和修改后最終完成了這組“太空歌劇院”數(shù)字藝術(shù)作品,。
這一年,AI繪畫小程序,、網(wǎng)站等開始迅猛增長,,而美圖秀秀、抖音等軟件也加入了AI畫圖功能,。抖音平臺數(shù)據(jù)顯示,,截至12月6日,已有超2428.4萬人使用該特效,,迅速飆升至特效潮流榜第一位,。AI繪畫的百度指數(shù)也從日均兩三千上升到日均3萬,火爆程度可見一斑,。
AI繪畫的火爆也讓AIGC這一概念逐漸進入大眾視野,。
所謂AIGC(AI Generated Content),即基于人工智能技術(shù)自動生成內(nèi)容的新型生產(chǎn)范式。其技術(shù)主要涉及兩個方面:自然語言處理(NLP)和AIGC生成算法,。其中,,自然語言處理是實現(xiàn)人與計算機之間通過自然語言進行交互的手段。
最初,,AIGC可生成的內(nèi)容形式以文字為主,,經(jīng)過2022年指數(shù)級的發(fā)展,目前AIGC技術(shù)可生成的內(nèi)容形式已經(jīng)拓展到了包括文字,、圖像,、視頻、語音,、代碼,、機器人動作等多種內(nèi)容形式,2022年也因此被稱為“AIGC元年”,。生成式AI讓機器開始大規(guī)模涉足知識類和創(chuàng)造性工作,,未來預計能夠產(chǎn)生數(shù)萬億美元的經(jīng)濟價值。(科技日報)