http://www.199rrr.com 2024-01-04 14:47 來(lái)源:南方都市報(bào)
“得益于大語(yǔ)言模型推動(dòng)人工智能發(fā)展,圖形圖像學(xué)的研究和應(yīng)用迎來(lái)新的機(jī)遇,正在推動(dòng)大語(yǔ)言模型向大視覺(jué)模型發(fā)展。”2023年12月30日,在辭舊迎新之際,中國(guó)工程院院士、機(jī)器人視覺(jué)感知與控制技術(shù)國(guó)家工程研究中心主任王耀南在第十九屆中國(guó)圖象圖形學(xué)學(xué)會(huì)青年科學(xué)家會(huì)議上,分享機(jī)器視覺(jué)智能化發(fā)展的最新趨勢(shì)。
在接受南都記者專訪時(shí),王耀南表示,人工智能讓機(jī)器視覺(jué)走向智能化,更高的算力能夠支撐大視覺(jué)模型的訓(xùn)練。不過(guò),更聰明的大視覺(jué)模型還需要更高的算力水平、更好的模型架構(gòu)和更有效的學(xué)習(xí)算法。
本次會(huì)議由中國(guó)圖象圖形學(xué)學(xué)會(huì)主辦,琶洲實(shí)驗(yàn)室、華南理工大學(xué)、中山大學(xué)、中國(guó)圖象圖形學(xué)學(xué)會(huì)青年工作委員會(huì)承辦。
談行業(yè)趨勢(shì)
從視覺(jué)計(jì)算走向視覺(jué)智能
王耀南:我國(guó)的機(jī)器視覺(jué)研究已有接近40年的歷史,最初是從傳感器的研究開(kāi)始的,即:將光的信息轉(zhuǎn)化成圖片信息。接下來(lái)要做的是視覺(jué)的處理,包括將獲得的圖片增強(qiáng),使其變得更清晰。
有了清晰的圖像后,我們需要從圖片中獲取我們感興趣的目標(biāo)。例如,在無(wú)人駕駛領(lǐng)域,機(jī)器視覺(jué)需要對(duì)圖片中的目標(biāo)進(jìn)行檢測(cè),要回答哪些是人、哪些是車的問(wèn)題。
這就是我們所說(shuō)的機(jī)器視覺(jué)的三大領(lǐng)域。我把它歸結(jié)為:成像、處理和理解。
機(jī)器視覺(jué)已經(jīng)從過(guò)去的視覺(jué)計(jì)算走向了今天的視覺(jué)智能。視覺(jué)計(jì)算結(jié)合人工智能后,認(rèn)知水平得到了提升,增強(qiáng)了對(duì)復(fù)雜環(huán)境的理解能力,整個(gè)視覺(jué)智能化行業(yè)在去年得到了快速發(fā)展。
機(jī)器視覺(jué)智能化發(fā)展的方向是進(jìn)行廣泛應(yīng)用,應(yīng)用到工業(yè)檢測(cè)、智能制造以及衛(wèi)星遙感等領(lǐng)域。
談機(jī)器視覺(jué),一定要談它的應(yīng)用,應(yīng)用驅(qū)動(dòng)技術(shù)發(fā)展。中國(guó)圖象圖形學(xué)學(xué)會(huì)有30個(gè)專委會(huì),主要圍繞圖形圖像展開(kāi)研究,為國(guó)民經(jīng)濟(jì)服務(wù)。這些技術(shù)的應(yīng)用場(chǎng)景十分廣泛,包括工業(yè)、農(nóng)業(yè)、地理信息系統(tǒng)、遙感、國(guó)土資源等。
一個(gè)人一出生就能看到這個(gè)世界,之后理解這個(gè)世界,80%的信息靠視覺(jué)獲取。機(jī)器視覺(jué)是要模擬人的眼睛,最終達(dá)到人眼的水平,并在部分方面超過(guò)人眼,要看得更遠(yuǎn)、看得更清。
談大視覺(jué)模型
大視覺(jué)模型會(huì)越來(lái)越聰明
王耀南:大語(yǔ)言模型是用書(shū)本上、語(yǔ)言上、文字上的知識(shí)作為數(shù)據(jù),進(jìn)行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型,能夠根據(jù)它所學(xué)的知識(shí)進(jìn)行推理和回答,是一種數(shù)據(jù)驅(qū)動(dòng)的人工智能。
大視覺(jué)模型的數(shù)據(jù)則主要來(lái)自各種圖像,包括人類和自然界產(chǎn)生的視覺(jué)數(shù)據(jù)。例如,醫(yī)學(xué)大視覺(jué)模型就是將人的器官、病變的圖像等作為視覺(jué)數(shù)據(jù)輸入到大模型中,進(jìn)行訓(xùn)練得到,可以像大夫一樣看懂CT照片,能夠達(dá)到病人來(lái)看病后,拍照完便能推理出病人病情的效果。
當(dāng)前的視覺(jué)大模型并沒(méi)有大家想象的和人腦一樣,差距還很大。隨著學(xué)習(xí)的數(shù)據(jù)的增多、模型參數(shù)的調(diào)整,模型會(huì)越來(lái)越大、知識(shí)也會(huì)越來(lái)越多,其智能水平就會(huì)越來(lái)越高,越來(lái)越聰明。
我們需要提高算力水平,加快計(jì)算速度,以能夠更快地建立模型;設(shè)計(jì)更好的模型架構(gòu),包括可解釋性更強(qiáng)、更安全可控;還需要研究更有效的學(xué)習(xí)算法。
事實(shí)上,視覺(jué)大模型并不是這幾年才有的,是一步一步發(fā)展過(guò)來(lái)的。在上世紀(jì)80年代,隨著人工智能的發(fā)展,人們開(kāi)始研究神經(jīng)網(wǎng)絡(luò)的時(shí)候,就已經(jīng)有了。只是,最近幾年的算力和算法能力提高了,人們可以嘗試構(gòu)建大模型,產(chǎn)生了大語(yǔ)言模型和大視覺(jué)模型。過(guò)去算力不夠的時(shí)候,大家做的模型沒(méi)有那么大。
談2024年展望
希望業(yè)務(wù)從廣州增長(zhǎng)推向全國(guó)和世界
王耀南:湖南大學(xué)機(jī)器人視覺(jué)感知與控制技術(shù)國(guó)家工程研究中心在2022年已經(jīng)入駐到位于粵港澳大灣區(qū)的廣州增城,建立了湖大粵港澳大灣區(qū)創(chuàng)新研究院(廣州增城)。
研究院主要進(jìn)行機(jī)器智能視覺(jué)的研究和應(yīng)用,包括智能制造、醫(yī)療制藥等領(lǐng)域的特殊作業(yè)機(jī)器人,以及通用的大視覺(jué)模型。例如,這些研究運(yùn)用到制造業(yè)中,可以替代大量的人工,完成產(chǎn)品質(zhì)量的檢測(cè),特別是3C和高端零部件行業(yè)。當(dāng)前,研究院已經(jīng)開(kāi)發(fā)了軟硬件系統(tǒng),主要的功能是賦能廣東企業(yè)數(shù)字化、智慧化轉(zhuǎn)型,推動(dòng)制造業(yè)發(fā)展。
此外,研究院也開(kāi)展智能的機(jī)器視覺(jué)和控制系統(tǒng),主要用于高端智能裝備的生產(chǎn),例如工業(yè)互聯(lián)網(wǎng)軟件,這其中有非常多的算法。
廣東是改革開(kāi)放和經(jīng)濟(jì)主戰(zhàn)場(chǎng)的前沿,產(chǎn)業(yè)鏈、供應(yīng)鏈齊全,制造業(yè)企業(yè)很多,我們來(lái)到廣東布局一是出于市場(chǎng)需求。此外,我們研究中心此前已有不少研發(fā)團(tuán)隊(duì)在廣東落地了很多項(xiàng)目,進(jìn)行科技成果的轉(zhuǎn)化。
在2023年的上半年,我們確實(shí)遇到了一些挑戰(zhàn),主要體現(xiàn)在零部件的供應(yīng)方面。2024年,我相信這些問(wèn)題都會(huì)解決,廣東人工智能產(chǎn)業(yè)的產(chǎn)業(yè)鏈、供應(yīng)鏈以及研發(fā)能力都會(huì)有所提升。在國(guó)內(nèi)這個(gè)大市場(chǎng)里,會(huì)開(kāi)辟出新的賽道。在活力的氛圍下,大家主動(dòng)作為、擔(dān)當(dāng)和創(chuàng)新,挑戰(zhàn)都能解決。
我對(duì)廣東的人工智能產(chǎn)業(yè)發(fā)展充滿信心。過(guò)去30年里,我們?cè)诳萍甲粤⒆詮?qiáng)方面下了很多功夫,積累了很多科研成果。廣東是我國(guó)經(jīng)濟(jì)第一大省。
我們所從事的人工智能與機(jī)器人這個(gè)領(lǐng)域趕上了一個(gè)好機(jī)遇,這兩年爆炸性地增長(zhǎng),帶來(lái)很多新市場(chǎng),拉動(dòng)了新的產(chǎn)業(yè)賽道。未來(lái)智能終端將越來(lái)越多,也將帶動(dòng)生產(chǎn)型設(shè)施設(shè)備行業(yè)的發(fā)展。在2024年,我希望我們位于廣州增城的研究院能夠?qū)I(yè)務(wù)推向全國(guó)和世界。