向善而生的AI助盲,讓AI多一點(diǎn),障礙少一點(diǎn)

2023-01-07 09:59 來(lái)源:美通社 作者:電源網(wǎng)

北京2023年1月6日 /美通社/ -- 有人說(shuō),盲人與世界之間,相差的只是一個(gè)黎明。在浪潮信息研發(fā)人員的心中,失去視力的盲人不會(huì)陷入永夜,科技的進(jìn)步正在力圖給每一個(gè)人以光明未來(lái)。

AI助盲在人工智能賽道上一直是最熱門(mén)的話(huà)題之一。以前,讓失明者重見(jiàn)光明依靠的是醫(yī)學(xué)的進(jìn)步或"奇跡"。而隨著以"機(jī)器視覺(jué)+自然語(yǔ)言理解"為代表的多模態(tài)智能技術(shù)的爆發(fā)式突破,更多的失明者正在借助AI提供的感知、理解與交互能力,以另一種方式重新"看見(jiàn)世界"。

下載 (1)

新契機(jī):多模態(tài)算法或?qū)⒃旄?shù)以?xún)|計(jì)失明者

科學(xué)實(shí)驗(yàn)表明,在人類(lèi)獲取的外界信息中,來(lái)自視覺(jué)的占比高達(dá)70%~80%,因此基于A(yíng)I構(gòu)建機(jī)器視覺(jué)系統(tǒng),幫助視障患者擁有對(duì)外界環(huán)境的視覺(jué)感知與視覺(jué)理解能力,無(wú)疑是最直接有效的解決方案。

一個(gè)優(yōu)秀的AI助盲技術(shù),需要通過(guò)智能傳感、智能用戶(hù)意圖推理和智能信息呈現(xiàn)的系統(tǒng)化發(fā)展,才能構(gòu)建信息無(wú)障礙的交互界面。僅僅依靠"一枝獨(dú)秀"超越人類(lèi)水平的單模態(tài)人工智能比如計(jì)算機(jī)視覺(jué)技術(shù)還遠(yuǎn)遠(yuǎn)不夠,以"機(jī)器視覺(jué)+自然語(yǔ)言理解"為代表的多模態(tài)算法的突破才是正確的新方向和新契機(jī)。

多個(gè)模態(tài)的交互可以提升AI的感知、理解與交互能力,也為AI理解并幫助殘障人士帶來(lái)了更多可能。浪潮信息研發(fā)人員介紹說(shuō),多模態(tài)算法在A(yíng)I助盲領(lǐng)域的應(yīng)用一旦成熟,將能夠造福數(shù)以?xún)|計(jì)的失明者。據(jù)世衛(wèi)組織統(tǒng)計(jì),全球至少22億人視力受損或失明,而我國(guó)是世界上盲人最多的國(guó)家,占世界盲人總數(shù)的18%-20%,每年新增的盲人數(shù)量甚至高達(dá)45萬(wàn)。

大挑戰(zhàn):如何看到盲人"眼中"的千人千面

AI助盲看似簡(jiǎn)單,但多模態(tài)算法依然面臨重大挑戰(zhàn)。

多模態(tài)智能算法,營(yíng)造的是沉浸式人機(jī)交互體驗(yàn)。在該領(lǐng)域,盲人視覺(jué)問(wèn)答任務(wù)成為學(xué)術(shù)界研究AI助盲的起點(diǎn)和核心研究方向之一,這項(xiàng)研究已經(jīng)吸引了全球數(shù)以萬(wàn)計(jì)的視障患者參與,這些患者們上傳自己拍攝的圖像數(shù)據(jù)和相匹配的文本問(wèn)題,形成了最真實(shí)的模型訓(xùn)練數(shù)據(jù)集。

但是在現(xiàn)有技術(shù)條件下,盲人視覺(jué)問(wèn)答任務(wù)的精度提升面臨巨大挑戰(zhàn):一方面是盲人上傳的問(wèn)題類(lèi)型很復(fù)雜,比如說(shuō)分辨冰箱里的肉類(lèi)、咨詢(xún)藥品的服用說(shuō)明、挑選獨(dú)特顏色的襯衣、介紹書(shū)籍內(nèi)容等等。

另一方面,由于盲人的特殊性,很難提取面前物體的有效特征。比如盲人在拍照時(shí),經(jīng)常會(huì)產(chǎn)生虛焦的情況,可能上傳的照片是模糊的或者沒(méi)有拍全,或者沒(méi)拍到關(guān)鍵信息,這就給AI推理增加了難度。

為推動(dòng)相關(guān)研究,來(lái)自卡內(nèi)基梅隆大學(xué)等機(jī)構(gòu)的學(xué)者們共同構(gòu)建了一個(gè)盲人視覺(jué)數(shù)據(jù)庫(kù)"VizWiz",并發(fā)起全球多模態(tài)視覺(jué)問(wèn)答挑戰(zhàn)賽。挑戰(zhàn)賽是給定一張盲人拍攝的圖片和問(wèn)題,然后要求給出相應(yīng)的答案,解決盲人的求助。

另外,盲人的視覺(jué)問(wèn)答還會(huì)遭遇到噪聲干擾的衍生問(wèn)題。比如說(shuō),盲人逛超市,由于商品外觀(guān)觸感相似,很容易犯錯(cuò),他可能會(huì)拿起一瓶醋卻詢(xún)問(wèn)醬油的成分表,拿起酸奶卻詢(xún)問(wèn)牛奶的保質(zhì)期等等。這種噪聲干擾往往會(huì)導(dǎo)致現(xiàn)有AI模型失效,沒(méi)法給出有效信息。

最后,針對(duì)不同盲人患者的個(gè)性化交互服務(wù)以及算法自有的反饋閉環(huán)機(jī)制,同樣也是現(xiàn)階段的研發(fā)難點(diǎn)。

多解法:浪潮信息AI助盲靶向消滅痛點(diǎn)

AI助盲哪怕形式百變,無(wú)一例外都是消滅痛點(diǎn),逐光而行。浪潮信息多模態(tài)算法研發(fā)團(tuán)隊(duì)正在推動(dòng)多個(gè)領(lǐng)域的AI助盲研究,只為幫助盲人"看"到愈發(fā)精彩的世界。

在VizWiz官網(wǎng)上公布的2萬(wàn)份求助中,盲人最多的提問(wèn)就是想知道他們面前的是什么東西,很多情況下這些物品沒(méi)法靠觸覺(jué)或嗅覺(jué)來(lái)做出判斷,例如 "這本書(shū)書(shū)名是什么?"為此研發(fā)團(tuán)隊(duì)在雙流多模態(tài)錨點(diǎn)對(duì)齊模型的基礎(chǔ)上,提出了自監(jiān)督旋轉(zhuǎn)多模態(tài)模型,通過(guò)自動(dòng)修正圖像角度及字符語(yǔ)義增強(qiáng),結(jié)合光學(xué)字符檢測(cè)識(shí)別技術(shù)解決"是什么"的問(wèn)題。

盲人所拍攝圖片模糊、有效信息少?研發(fā)團(tuán)隊(duì)提出了答案驅(qū)動(dòng)視覺(jué)定位與大模型圖文匹配結(jié)合的算法,并提出多階段交叉訓(xùn)練策略,具備更充分的常識(shí)能力,低質(zhì)量圖像、殘缺的信息,依然能夠精準(zhǔn)的解答用戶(hù)的求助。

目前浪潮信息研發(fā)團(tuán)隊(duì)在盲人視覺(jué)問(wèn)答任務(wù)VizWiz-VQA上算法精度已領(lǐng)先人類(lèi)表現(xiàn)9.5個(gè)百分點(diǎn),在A(yíng)I助盲領(lǐng)域斬獲世界冠軍兩項(xiàng)、亞軍兩項(xiàng)。

真實(shí)場(chǎng)景中的盲人在口述時(shí)往往會(huì)有口誤、歧義、修辭等噪聲。為此,研發(fā)團(tuán)隊(duì)首次提出視覺(jué)定位文本去噪推理任務(wù)FREC,F(xiàn)REC提供3萬(wàn)圖片和超過(guò)25萬(wàn)的文本標(biāo)注,囊括了口誤、歧義、主觀(guān)偏差等多種噪聲,還提供噪聲糾錯(cuò)、含噪證據(jù)等可解釋標(biāo)簽。同時(shí),該團(tuán)隊(duì)還構(gòu)建了首個(gè)可解釋去噪視覺(jué)定位模型FCTR,噪聲文本描述條件下精度較傳統(tǒng)模型提升11個(gè)百分點(diǎn)。上述研究成果已發(fā)表于A(yíng)CM Multimedia 2022會(huì)議,該會(huì)議為國(guó)際多媒體領(lǐng)域最頂級(jí)會(huì)議、也是該領(lǐng)域唯一CCF推薦A類(lèi)國(guó)際會(huì)議。

在智能交互研究方面上,浪潮信息研發(fā)團(tuán)隊(duì)構(gòu)建了可解釋智能體視覺(jué)交互問(wèn)答任務(wù)AI-VQA,同時(shí)給出首個(gè)智能體交互行為理解算法模型ARE。該研究成果已發(fā)表于A(yíng)CM Multimedia 2022會(huì)議。該研究項(xiàng)目的底層技術(shù)未來(lái)可廣泛應(yīng)用于A(yíng)I醫(yī)療診斷、故事續(xù)寫(xiě)、劇情推理、危情告警、智能政務(wù)等多模態(tài)交互推理場(chǎng)景。

眼球雖然對(duì)溫度并不敏感,但浪潮信息的研發(fā)團(tuán)隊(duì),卻在努力讓盲人能"看"到科技的溫度,也希望吸引更多人一起推動(dòng)人工智能技術(shù)在A(yíng)I助盲、AI反詐、AI診療、AI災(zāi)情預(yù)警等更多場(chǎng)景中的落地。有AI無(wú)礙,跨越山海??萍嫉膫ゴ笾幉粌H僅在于改變世界,更重要的是如何造福人類(lèi),讓更多的不可能變成可能。當(dāng)科技成為人的延伸,當(dāng)AI充滿(mǎn)人性光輝,我們終將在瞬息萬(wàn)變的科技浪潮中感受到更加細(xì)膩溫柔的善意,見(jiàn)證著更加光明宏大的遠(yuǎn)方。

新契機(jī):多模態(tài)算法或?qū)⒃旄?shù)以?xún)|計(jì)失明者

科學(xué)實(shí)驗(yàn)表明,在人類(lèi)獲取的外界信息中,來(lái)自視覺(jué)的占比高達(dá)70%~80%,因此基于A(yíng)I構(gòu)建機(jī)器視覺(jué)系統(tǒng),幫助視障患者擁有對(duì)外界環(huán)境的視覺(jué)感知與視覺(jué)理解能力,無(wú)疑是最直接有效的解決方案。

一個(gè)優(yōu)秀的AI助盲技術(shù),需要通過(guò)智能傳感、智能用戶(hù)意圖推理和智能信息呈現(xiàn)的系統(tǒng)化發(fā)展,才能構(gòu)建信息無(wú)障礙的交互界面。僅僅依靠"一枝獨(dú)秀"超越人類(lèi)水平的單模態(tài)人工智能比如計(jì)算機(jī)視覺(jué)技術(shù)還遠(yuǎn)遠(yuǎn)不夠,以"機(jī)器視覺(jué)+自然語(yǔ)言理解"為代表的多模態(tài)算法的突破才是正確的新方向和新契機(jī)。

多個(gè)模態(tài)的交互可以提升AI的感知、理解與交互能力,也為AI理解并幫助殘障人士帶來(lái)了更多可能。浪潮信息研發(fā)人員介紹說(shuō),多模態(tài)算法在A(yíng)I助盲領(lǐng)域的應(yīng)用一旦成熟,將能夠造福數(shù)以?xún)|計(jì)的失明者。據(jù)世衛(wèi)組織統(tǒng)計(jì),全球至少22億人視力受損或失明,而我國(guó)是世界上盲人最多的國(guó)家,占世界盲人總數(shù)的18%-20%,每年新增的盲人數(shù)量甚至高達(dá)45萬(wàn)。

大挑戰(zhàn):如何看到盲人"眼中"的千人千面

AI助盲看似簡(jiǎn)單,但多模態(tài)算法依然面臨重大挑戰(zhàn)。

多模態(tài)智能算法,營(yíng)造的是沉浸式人機(jī)交互體驗(yàn)。在該領(lǐng)域,盲人視覺(jué)問(wèn)答任務(wù)成為學(xué)術(shù)界研究AI助盲的起點(diǎn)和核心研究方向之一,這項(xiàng)研究已經(jīng)吸引了全球數(shù)以萬(wàn)計(jì)的視障患者參與,這些患者們上傳自己拍攝的圖像數(shù)據(jù)和相匹配的文本問(wèn)題,形成了最真實(shí)的模型訓(xùn)練數(shù)據(jù)集。

但是在現(xiàn)有技術(shù)條件下,盲人視覺(jué)問(wèn)答任務(wù)的精度提升面臨巨大挑戰(zhàn):一方面是盲人上傳的問(wèn)題類(lèi)型很復(fù)雜,比如說(shuō)分辨冰箱里的肉類(lèi)、咨詢(xún)藥品的服用說(shuō)明、挑選獨(dú)特顏色的襯衣、介紹書(shū)籍內(nèi)容等等。

另一方面,由于盲人的特殊性,很難提取面前物體的有效特征。比如盲人在拍照時(shí),經(jīng)常會(huì)產(chǎn)生虛焦的情況,可能上傳的照片是模糊的或者沒(méi)有拍全,或者沒(méi)拍到關(guān)鍵信息,這就給AI推理增加了難度。

為推動(dòng)相關(guān)研究,來(lái)自卡內(nèi)基梅隆大學(xué)等機(jī)構(gòu)的學(xué)者們共同構(gòu)建了一個(gè)盲人視覺(jué)數(shù)據(jù)庫(kù)"VizWiz",并發(fā)起全球多模態(tài)視覺(jué)問(wèn)答挑戰(zhàn)賽。挑戰(zhàn)賽是給定一張盲人拍攝的圖片和問(wèn)題,然后要求給出相應(yīng)的答案,解決盲人的求助。

另外,盲人的視覺(jué)問(wèn)答還會(huì)遭遇到噪聲干擾的衍生問(wèn)題。比如說(shuō),盲人逛超市,由于商品外觀(guān)觸感相似,很容易犯錯(cuò),他可能會(huì)拿起一瓶醋卻詢(xún)問(wèn)醬油的成分表,拿起酸奶卻詢(xún)問(wèn)牛奶的保質(zhì)期等等。這種噪聲干擾往往會(huì)導(dǎo)致現(xiàn)有AI模型失效,沒(méi)法給出有效信息。

最后,針對(duì)不同盲人患者的個(gè)性化交互服務(wù)以及算法自有的反饋閉環(huán)機(jī)制,同樣也是現(xiàn)階段的研發(fā)難點(diǎn)。

多解法:浪潮信息AI助盲靶向消滅痛點(diǎn)

AI助盲哪怕形式百變,無(wú)一例外都是消滅痛點(diǎn),逐光而行。浪潮信息多模態(tài)算法研發(fā)團(tuán)隊(duì)正在推動(dòng)多個(gè)領(lǐng)域的AI助盲研究,只為幫助盲人"看"到愈發(fā)精彩的世界。

在VizWiz官網(wǎng)上公布的2萬(wàn)份求助中,盲人最多的提問(wèn)就是想知道他們面前的是什么東西,很多情況下這些物品沒(méi)法靠觸覺(jué)或嗅覺(jué)來(lái)做出判斷,例如 "這本書(shū)書(shū)名是什么?"為此研發(fā)團(tuán)隊(duì)在雙流多模態(tài)錨點(diǎn)對(duì)齊模型的基礎(chǔ)上,提出了自監(jiān)督旋轉(zhuǎn)多模態(tài)模型,通過(guò)自動(dòng)修正圖像角度及字符語(yǔ)義增強(qiáng),結(jié)合光學(xué)字符檢測(cè)識(shí)別技術(shù)解決"是什么"的問(wèn)題。

盲人所拍攝圖片模糊、有效信息少?研發(fā)團(tuán)隊(duì)提出了答案驅(qū)動(dòng)視覺(jué)定位與大模型圖文匹配結(jié)合的算法,并提出多階段交叉訓(xùn)練策略,具備更充分的常識(shí)能力,低質(zhì)量圖像、殘缺的信息,依然能夠精準(zhǔn)的解答用戶(hù)的求助。

目前浪潮信息研發(fā)團(tuán)隊(duì)在盲人視覺(jué)問(wèn)答任務(wù)VizWiz-VQA上算法精度已領(lǐng)先人類(lèi)表現(xiàn)9.5個(gè)百分點(diǎn),在A(yíng)I助盲領(lǐng)域斬獲世界冠軍兩項(xiàng)、亞軍兩項(xiàng)。

真實(shí)場(chǎng)景中的盲人在口述時(shí)往往會(huì)有口誤、歧義、修辭等噪聲。為此,研發(fā)團(tuán)隊(duì)首次提出視覺(jué)定位文本去噪推理任務(wù)FREC,F(xiàn)REC提供3萬(wàn)圖片和超過(guò)25萬(wàn)的文本標(biāo)注,囊括了口誤、歧義、主觀(guān)偏差等多種噪聲,還提供噪聲糾錯(cuò)、含噪證據(jù)等可解釋標(biāo)簽。同時(shí),該團(tuán)隊(duì)還構(gòu)建了首個(gè)可解釋去噪視覺(jué)定位模型FCTR,噪聲文本描述條件下精度較傳統(tǒng)模型提升11個(gè)百分點(diǎn)。上述研究成果已發(fā)表于A(yíng)CM Multimedia 2022會(huì)議,該會(huì)議為國(guó)際多媒體領(lǐng)域最頂級(jí)會(huì)議、也是該領(lǐng)域唯一CCF推薦A類(lèi)國(guó)際會(huì)議。

在智能交互研究方面上,浪潮信息研發(fā)團(tuán)隊(duì)構(gòu)建了可解釋智能體視覺(jué)交互問(wèn)答任務(wù)AI-VQA,同時(shí)給出首個(gè)智能體交互行為理解算法模型ARE。該研究成果已發(fā)表于A(yíng)CM Multimedia 2022會(huì)議。該研究項(xiàng)目的底層技術(shù)未來(lái)可廣泛應(yīng)用于A(yíng)I醫(yī)療診斷、故事續(xù)寫(xiě)、劇情推理、危情告警、智能政務(wù)等多模態(tài)交互推理場(chǎng)景。

眼球雖然對(duì)溫度并不敏感,但浪潮信息的研發(fā)團(tuán)隊(duì),卻在努力讓盲人能"看"到科技的溫度,也希望吸引更多人一起推動(dòng)人工智能技術(shù)在A(yíng)I助盲、AI反詐、AI診療、AI災(zāi)情預(yù)警等更多場(chǎng)景中的落地。有AI無(wú)礙,跨越山海。科技的偉大之處不僅僅在于改變世界,更重要的是如何造福人類(lèi),讓更多的不可能變成可能。當(dāng)科技成為人的延伸,當(dāng)AI充滿(mǎn)人性光輝,我們終將在瞬息萬(wàn)變的科技浪潮中感受到更加細(xì)膩溫柔的善意,見(jiàn)證著更加光明宏大的遠(yuǎn)方。

AI 助盲 浪潮信息 醫(yī)學(xué)

一周熱門(mén)