impact
2023.05.23
4月20至21日,由深圳市前海管理局指導、基石資本主辦的“2023中國前海企業(yè)家峰會”在深圳成功舉行。本次峰會以“再談創(chuàng)新之道:國家和企業(yè)的未來”為主題。圍繞創(chuàng)新環(huán)境、創(chuàng)新精神與創(chuàng)新實踐,多位重量級的企業(yè)家、科學家、學者和投資家進行了精彩演講與深入討論。
南方科技大學電子與電氣工程系系主任,加拿大工程院院士孟慶虎在會上發(fā)表題為《ChatGPT時代的人工智能與機器人創(chuàng)新》的演講。
大家下午好!非常高興及感謝會議給我分享人工智能與機器人方面研究工作的機會,尤其是我們在智慧醫(yī)療方面的一些工作。
我們經(jīng)常會在視頻里看到智能機器人非常厲害的場景。波士頓動力公司是仿人機器人領域的國際領先企業(yè),尤其他們的大狗機器人得到了美國國防部的支持。大家看到的視頻大部分都是千里挑一的成功案例,不成功的往往沒有被看到。我們作為研究者,尤其要關注這些不太成功的案例以及探究其背后的原因。
從五個方面看人和機器人的主要區(qū)別
波士頓動力公司在仿人、仿狗、仿驢、仿豹子等仿生機器人方面,都有成功案例。為什么人類簡簡單單可以做到的一些動作,比如開車、下車、開閥門等等,這些造價不菲的仿人形機器人做不出來?我們做機器人研究,一定要弄清楚原因。
如果把人和機器做比較,我們從5個方面來看區(qū)別。
一是移動性能。人和機器人基本上差不多,人更靈活,機器人裝上輪子可以跑得更快。
二是靈活柔性。這是兩者最大的區(qū)別。人是百分之百的柔體,機器人是百分之百的鋼體。
三是操作能力。機器人的操作能力相當厲害,有吸盤,有夾具,有各種各樣人類不具備的能力。但人類有一個機器人不具備的能力——把玩能力,我們把一個東西把玩一下,基本上就能掌握它的物理化學性質。機器人目前還做不到,因為它缺乏一個傳感功能。
四是傳感功能。機器人在視覺方面比我們厲害,它有激光、有超聲、有紅外。但是,它沒有人造皮膚。人造皮膚研究了30多年,我當年“863計劃”的第一個項目就是做人造皮膚。這個課題非常難。希望后面借助材料科學和印刷電子的發(fā)展,能夠造出像皮膚這么強大的觸覺系統(tǒng)。我們的皮膚遍布全身,感覺非常敏感,而且壞掉以后還可以再生。這些功能使得人在傳感方面有非常大的優(yōu)越性,目前這是機器人的一個短板。
五是智能感知。機器人在這方面現(xiàn)在還是很薄弱。
人和機器人的區(qū)別主要在柔性、靈活性、智能感知方面。我們的實驗室之所以叫深圳市機器人感知與智能重點實驗室,就是要對瓶頸問題展開研究。
機器人尚不具備人腦的決策能力
機器人能不能達到人類的感知和決策能力?人有視覺、嗅覺、聽覺、觸覺,尤其觸覺目前機器人是無法做到的,其他的都可以做到。人的這些感知是相輔相成的。比如我們半夜去上廁所,樓道里突然沒電了,我們可以通過聽覺、觸覺和嗅覺繼續(xù)找到廁所。
1992年,麻省理工學院一個非常厲害的博士生Mike Massimino的博士論文研究的就是傳感替代的問題。主要內容是在空間站里如果沒有了力反饋,能不能通過視覺和其他傳感來完成遙操作。博士畢業(yè)后,Mike Massimino在休斯頓大學當了兩年教授以后,就考上了航天員,到目前一共升空了三次,都是去干最難的技術活:維修哈勃望遠鏡。
傳感器的替代在人來說是可以做到的,機器人目前還做不好。人獲取信息90%靠視覺,信息表達90%靠聲音。為什么現(xiàn)在沒有能說會道的機器人?我們在研究這個問題的過程中發(fā)現(xiàn),人的所有感官,眼睛、耳朵、嘴等都在頭部以高速傳輸傳感信息到大腦,傳感信息被快速處理做出決策后,通過中樞神經(jīng)來控制我們的肢體完成任務。也就是說,關鍵在于大腦。機器人現(xiàn)在的感知已經(jīng)非常厲害了,各種傳感器基本上都有。但在決策方面還有很大的問題。
人腦到底是怎么工作的?這里有一張圖,不同的人會將圖解釋為不同的場景,每個人的解讀都不一樣,這種現(xiàn)象很適合解釋人腦選擇性處理信息的功能。這同一張圖,有人說一只牛啃著草皮往樹蔭下走,有人說一只羊啃著草皮往樹蔭下走,有人說一只狗聞著草皮往樹蔭下走,也有人說看到的是一大片無序的樹葉、石頭之類的。大多數(shù)人應該看到的是一只四條腿的動物和一片樹蔭。我們在解釋一張圖的時候有各種選擇,大腦會選擇那個更靠譜的。
人類可以處理圖像信息,但ChatGPT目前還不開放圖像處理。人腦和人工智能有什么不同?我們的大腦每秒可以處理1萬億比特的信息,每秒鐘收到4000億比特的信息,但只會對其中的2000條信息有可能關注,再對其中的7條信息有短暫的記憶,最多對其中1條作出反應。這些數(shù)據(jù)量的快速下降可以用數(shù)據(jù)集的交集處理來解釋。
人工智能的瓶頸在于
其訓練不具備人的成長的學習環(huán)境
每個人腦的智能空間就像一個多維的球體。這就是人的智能,叫做普通智能。普通智能和人工智能的區(qū)別在哪兒呢?普通智能是一個高維的趨于無窮維的球體,每一個方向代表一個維度??梢杂嬎愠?,這個多維度空間可以撐起一個圓滿的球體。大家各個維度/領域的知識都知道一些,有的人在某個維度/領域擅長,有的人在某個維度/領域有短板。每個人的成長路徑、經(jīng)歷、學習能力不一樣,最后培養(yǎng)出來的普通智能的空間維度、強度和構造也不一樣。
人工智能到目前為止,不具有人作為普通智能的成長環(huán)境。我們從在母親的身體里形成生命的一瞬間開始,就在不間斷地學習。這個數(shù)據(jù)集是不受限的,你碰上什么學什么,沒有一個人來控制我們的數(shù)據(jù)集。媽媽今天吃了一碗酸辣湯非常愉悅,這時候你就能夠感覺到酸辣湯的味道,以及媽媽愉悅的心情等。
到你出生以后,有一次你對酸辣湯莫名其妙地喜歡,你也不知道為什么,實際上在胎兒時期就已經(jīng)種下了種子。類似這樣的事,一直在有意識、無意識、潛意識地發(fā)生。
等到器官長得越來越成熟,接受的信息量越來越大,形成一個個嶄新的數(shù)據(jù)集。我們遇到什么學什么,尤其到我們能說話的時候,就開始交互式學習,問這是什么,那是什么,沒完沒了。
我們的成長中的學習數(shù)據(jù)是不受限制的,學習機制是我們的大腦的固有算法。到目前為止,還沒有人能研究透大腦到底是怎么學習的。所以,在這樣的環(huán)境下培養(yǎng)出來的人類普通智能,盡管每個人有所不同,但基本上就是一個多維的趨于無窮維的智能球體空間。
我們培養(yǎng)出來的人工智能,基本上是一個低維的、定向型的空間。我們做了這么多訓練,最后可能只是在某些維度上超越了人類。以Alpha Go為例,人工智能可以把下圍棋這件事做得比所有人類都厲害,但是它可能在其他的維度/方面不如人。比如,如果沒有給它植入算術維度,沒有教過它算術,它可能都不知道2+3等于幾。阿爾法狗的維度是極低的,但人的智能空間維度是極高的。
人腦是多維的,人工智能是低維的
人工智能是怎么訓練出來的?首先選擇一個數(shù)據(jù)集,然后有一個計算平臺。我們得先看這個平臺能處理多大的數(shù)據(jù)量,再給它植入一個算法,這個算法是盡可能的仿人腦的。訓練的數(shù)據(jù)集越大,我們就會認為得到的人工智能就會更加聰明一點,但和人的大腦相比還是有差距。用智能空間的維度來解釋,就能把這個事情理解得清楚一點。
在人類的普通智能空間里,每個維度都可以看成一個數(shù)據(jù)集。當我們做決定的時候,就好像是用這些集合來做交集。再大的集合,做幾次交集以后就很小了。我們做交集的原則是什么?是比如目的、priority(優(yōu)先事項)、價值觀等等。這件事什么對我最重要?大腦自然會用這些作為原則來選擇相應的那些維度來做交集。這就是從4000億比特信息中通過交集變成2000條,進一步變成7條,然后對其中一個作出反應。
舉個例子,今天來開會的每個人的priority、目的都不一樣。有的人是因為對劉科院士講的新能源感興趣,專門跑到第一排占好位置。有的人今天來是為了接近某個女孩,所以首先看那個女孩坐的位置,然后他要坐到那個女孩附近,以便加個微信,聽講對他來說優(yōu)先級不是最高。
4000億比特信息在哪兒呢?其實就在我們當下所處的環(huán)境里。比如我問一個信息,這個屋子里有幾個門?有幾個揚聲器?大家可能都沒有興趣去關注這些信息,但這屬于4000億比特一直在給你發(fā)送的信息,但是它不屬于那個7條你只有短暫記憶的信息。如果你的目的是惦記著來拿一個揚聲器回去,那你進門的時候首先就會看好揚聲器都在哪兒,得手后從哪個門把它帶走等等。所以,每個人的目的不同,就決定了你的7條和1條是不一樣的。我們人類有這樣的能力,目前人工智能還做不到。
我們可以把Alpha Go看成是一個一維/低維的人工智能,在下圍棋這件事上可以超越所有人,但在其他維度上可能連個小孩都不如。Alpha Go的在一個維度上的超能力能否擴展到人類普通智能的高維度上?這個需要人工智能的進一步發(fā)展。
人工智能的發(fā)展是一個量變到質變的過程
2015年,李飛飛做了一個Image Net,把全世界所有能收集到的數(shù)字圖像全部放在一個大數(shù)據(jù)集里面,讓大家去學,學完以后做了一個競賽。最后發(fā)現(xiàn),只要學過的都會,沒學過的還是不會,包括現(xiàn)在的ChatGPT也是如此。人工智能有綜合、總結、尋找能力,但還不具備推理或者想象的能力。
人類在看這張圖的時候,永遠不可能說它是一個棒球棒,可能會說它是一個小的像棒球棒,上面帶毛的物體。把這個東西跟小孩的手、臉一比,我們有多層次的、互相矯正的推理過程。如果以前沒有見過,不可能因為它形狀像棒球棒,就簡單粗暴地說它是棒球棒。
現(xiàn)在的ChatGPT厲害到什么程度,我們可以從這個內部測試結果來看一下。
ChatGPT可以說出這張圖不尋常的地方在于,出租車的后邊掛了一個熨衣板,一個人站在上面熨衣服。相比于2015年,ChatGPT讀這樣的圖,已經(jīng)有了很大的飛躍。但ChatGPT讀圖目前還沒有對公眾開放測試。
人工智能是一個量變到質變的過程,因為算法、算力、數(shù)據(jù)都在進步?,F(xiàn)在的數(shù)據(jù)集實在是太大了。
當年,馬斯克和奧特曼兩個人之所以去做 Open AI,就是因為谷歌在做 Google Duplex,他們的目標是把語音技術、自然語言處理做出來商用。另外,他們對 AI的安全性也有考慮。所以,馬斯克跟奧特曼兩個人就成立了Open AI。
當年成千上萬的失敗例子里面,好不容易有這么一個成功的。但是Google Duplex從來沒有發(fā)表過,原因是成功率太低了?,F(xiàn)在ChatGPT的對話可以到什么程度?只要被訓練過的就會,沒訓練過的還是不會,它自己是不會到網(wǎng)上去找信息,然后來回答你的。
所以,ChatGPT跟deep learning基本上是一樣的,唯一的變化就是數(shù)據(jù)量,算力和算法的持續(xù)改進,這些使得 ChatGPT出現(xiàn)了今天這個從量變積累到質變的結果,它并不是一個突然出來的革命性的東西,把以前的成果徹底顛覆的那一類。
ChatGPT之前的版本叫Instruct GPT。ChatGPT和Instruct GPT的區(qū)別在哪里?提問:假設2015年哥倫布到了美國,Instruct GPT認為哥倫布會非常高興,對看到的所有東西感到好奇,對美國留下了深刻的印象。這顯然和客觀事實不符合。ChatGPT則認為這個故事有點詭異,哥倫布已經(jīng)在1506年去世了,假設他2015年來到美國,他會看到2015年和1492年的美國差別太大了。這個進步還是非常明顯的。
算法、算力、數(shù)據(jù)推動人工智能的進步
實際上,我們現(xiàn)在做的事就是圖靈當年提出的圖靈測試。圖靈測試跟圖靈獎不是一回事。ACM(美國計算機協(xié)會)的圖靈獎旨在獎勵對計算機領域有突出貢獻的人。圖靈測試是指測試者和被測試者(一個機器和一個人)在隔開的情況下,當測試者分辨不出被測試者是人還是機器的時候,這臺機器就通過了圖靈測試。
為什么現(xiàn)在算力這么厲害?2023年用1000美元買到的人工智能算力,基本上等同于一個普通人的智慧。我們看ChatGPT的大模型及參數(shù),對比3.5版本和4版本,大模型里頭有多少個參數(shù)可以調節(jié)?ChatGPT3.5有1750千億個參數(shù),到了ChatGPT4有1.8萬億個參數(shù),數(shù)量相差近10倍。
那么,訓練的參數(shù)數(shù)據(jù)量有多大?ChatGPT3.5有45個terabyte(萬億字節(jié)),ChatGPT4有1000個terabyte(萬億字節(jié))。在算法結構方面,ChatGPT3.5基本上是自監(jiān)督學習,ChatGPT 4是自監(jiān)督學習加監(jiān)督學習。在性能上,ChatGPT3.5基本上接近人類水平,ChatGPT4已經(jīng)達到人類水平。
算法、算力、數(shù)據(jù)推動人工智能的進步。大腦的算力到底是多少?有各種估計、猜測、分析、模型。但是,沒有人能驗證人的算力到底是什么樣的,沒有人知道大腦用的是什么算法,一個人一輩子所接受的數(shù)據(jù)量也是未知的。
對于人工智能來說,我們要盡可能地提高算力,讓它的算法接近大腦的算法。大模型參數(shù)現(xiàn)在已經(jīng)是千億到萬億的級別,可能已經(jīng)遠遠超過了一個普通人大腦里的參數(shù)量。因為算法、算力和數(shù)據(jù)量上的、突飛猛進,現(xiàn)在人工智能的文本能力已經(jīng)基本上接近一個普通人的文本智能水平了。
“降維打擊”
將人工智能應用在日常生活場景中
ChatGPT很好用,它的算法也很好用,但我們用不起。因為要上萬個最厲害的 GPU組成一個超算,才能夠支持這個服務。那我們在日常中怎么用好人工智能?我們的答案就是把應用場景限制到超低維度。Open AI最大的受惠者實際上是微軟,微軟已經(jīng)把它放到搜索引擎了,office也要放。這里面有極大的隱患。如果你告訴ChatGPT把去年的報告調出來,把今年的數(shù)據(jù)加進去,另外加上三個新的創(chuàng)新點。ChatGPT報告寫好的瞬間,三個創(chuàng)新點已經(jīng)進到了它的數(shù)據(jù)庫。隔壁老王也在寫一個類似的報告,老王還沒想到這三點,但是老王的報告里可能已經(jīng)被ChatGPT自動植入了這三個創(chuàng)新點的新意了。這就是馬斯克擔心的事情。
如何低成本地用好人工智能?我們把提出的“降維打擊”法簡稱為“超低維場景智能”,就是把應用場景限制在一個超低維的人工智能空間里完成訓練,得到一個超低維度的人工智能空間里的有效算法,人工智能就可以用得非常好。下面舉幾個例子。
機場行李車回收系統(tǒng)就是將人工智能的應用限制在機場這個超低維場景智能空間里,它可以避障,可以檢測空車,有人的、有行李的都不要。還可以跟人簡單地對話,“對不起,我在工作”“請讓開,小心撞到你”。如果你問它“2+3=?”,它一定不知道,也不需要知道。因為它所處的就是機場這樣一個特定的場景。
同樣的東西,把它用在無線膠囊內窺鏡機器人上。我們將人工智能的應用限制在消化道這個超低維場景智能空間里,限定處理從口腔到肛門之間消化道內所獲取的圖像。這個圖像采集出來以后,可以幫助我們很好地處理消化道的問題。但如果把這個膠囊對著人臉,它就識別不了。這就是我們說的降維打擊,這樣人工智能就能做得很好。
再比如,在骨科手術機器人項目,我們將人工智能的應用限制在骨科手術這個超低維場景智能空間里,把骨科醫(yī)生在手術上的所有經(jīng)驗學習過來,機器就可以綜合前人結果,做出一個優(yōu)化的手術方案,輔助醫(yī)生完成手術。機器人輔助的骨科手術大家看到視頻中醫(yī)生做手術就跟玩游戲一樣,他看著屏幕上顯示的指引,把綠色的部分給它鋸掉,機器人會保證截骨精度,超出誤差范圍,機器人馬上就會斷電。要是碰到了安全邊界,也也會斷電。所以,只要把這個應用場景限制在一個超低維的智能空間里,我們就可以訓練出一個超低維的人工智能空間來匹配。這樣可以達到很好的結果。
去年抗疫的時候,深圳科創(chuàng)委給了我們一個抗疫專項,我們用三個月時間做出來了一臺國際上領先的“神采”采樣機器人,先是人臉識別確認人證合一以后,再通過視覺找到擦拭的位置,然后通過力控制左三下、右三下、上三下,完成標準動作。我們做了一個坐立式的和一個站立式的,每15秒就可以完成一個采樣。
創(chuàng)新引領研發(fā),需求驅動轉化。機器人和人工智能勢不可擋,但是我們用好任何一個工具,要知其善與尤其是其不善。
以上是我的分享,謝謝大家!
幾年前,我曾提出一個問題:中國經(jīng)濟繁榮的根基是什么?
我認為是“重商主義(這里借指市場經(jīng)濟)”與“儒家文化”這兩個因素的核聚變,只要我們的體制大門開一條小小的縫,中國老百姓與生俱來的聰明、勤奮、奮不顧身,幾千年窮怕了的物質主義和實用主義,就能創(chuàng)造一個新天地。
2021年,我見到一個新能源公司的董事長,談及張維迎所言“直到20世紀70年代,絕大部分中國人的生活水平不比唐宋時期好多少”,他說這是真的,1978年他沒有見過電,全家所有家當是一個小木柜。1979年,我的好朋友,一個咨詢集團的董事長考上了大學,報到前他勤工儉學,騎六七十里山路賣冰棍,山里的一戶人家,用幾個雞蛋和他換了一根,全家人排成一排每個人吮吸一囗。
在改革開放前,這是中國普遍的景象。而我們這一兩代人,在改革開放后,懷抱著對美好生活的向往,創(chuàng)造了人類發(fā)展史上的奇跡。40多年過去,我們看到,輕舟已過萬重山。偉大的中國工業(yè)革命,怎么贊揚也不為過!
而另一方面,中國用幾十年的時間,走完了發(fā)達國家?guī)装倌甑穆?,這也就注定了,我們上山的道路,更加的陡峭。同時,中國作為一個有幾千年歷史的古國,其發(fā)展正常就是“孔雀東南飛,五里一徘徊”。作為一個新興經(jīng)濟體,我們講究的是實用主義,中國的政策也是因時、因勢而變的。
因此,并非一些簡單的因素就能夠遏制中國的增長,只要不出現(xiàn)戰(zhàn)爭這樣會擾亂經(jīng)濟進程的極端因素,只要中國依然堅定地支持民營經(jīng)濟發(fā)展,保護企業(yè)家精神,中國經(jīng)濟的前進步伐就是堅定不移的。
如果認同這一點,那么無論是短期的政策、市場變化還是長期的中美對抗,都不會讓我們產(chǎn)生太大的焦慮。
具體從我們做企業(yè)和做投資來講,也無需過度悲觀?!俺林蹅扰锨Х^,病樹前頭萬木春”,在一些行業(yè)和企業(yè)衰落的同時,也永遠有一些行業(yè)和企業(yè)在崛起。
以半導體產(chǎn)業(yè)為例,我們不必糾結于半導體仿佛一年緊缺、一年過剩,因為問題的核心不是這個。問題的核心是第四次工業(yè)革命離不開半導體技術,而中美對峙、科技封鎖,將進一步迫使中國在所有科技領域謀求自主可控,進一步迫使中國以舉國體制解決創(chuàng)新問題。同時,當一項投資吻合科技進步趨勢和政策引導的雙重影響時,其估值亦將脫離傳統(tǒng)財務模型。這些才是中國硬科技投資的重要的底層邏輯。
看待資本市場,我們更不必計較一時的股價波動?;仡櫄v史,在資本市場發(fā)生劇烈調整時,那些優(yōu)質的企業(yè)往往也會出現(xiàn)大幅下跌,但不同的是,優(yōu)秀企業(yè)不僅能收復失地,還能再攀高峰。因此,我們繼續(xù)堅定地布局那些有核心技術、有企業(yè)家精神的企業(yè)。而從我們的投資經(jīng)歷來看,那些有企業(yè)家精神的企業(yè)最終都帶領我們穿越了周期,并獲得了異乎尋常的回報。
莫愁前路無知己,天下誰人不識君!