浪潮信息攜手上海華胄以AI助力古籍數(shù)字服務平臺轉(zhuǎn)型升級

2022-09-27 11:01 來源:美通社 作者:電源網(wǎng)

北京2022年9月26日 /美通社/ -- 日前,由上海世紀出版集團統(tǒng)一規(guī)劃、上海古籍出版社論證實施的"尚古匯典·古籍數(shù)字服務平臺"一期項目正式上線。該平臺是一個基于光學文字識別(OCR)、自然語言處理、大規(guī)模語料庫等智能算法技術(shù),聚合上海世紀出版集團內(nèi)部古籍資源,所形成的一個鏈接并服務古籍整理出版者、古籍專業(yè)研究者、傳統(tǒng)文化愛好者的古籍內(nèi)容生產(chǎn)與知識服務的數(shù)字化開放平臺。浪潮信息與元腦伙伴上海華胄為上海古籍出版社提供技術(shù)支持,平臺現(xiàn)已涵蓋古籍整理1168種,總字數(shù)超過3億字,并且即將開放古籍OCR、自動標點、自動標引等工具。

AI加速推動古籍整理利用轉(zhuǎn)型升級          

一直以來,古籍保護主要采用原生性保護方式,即把古籍當作"文物"保護起來,后來出現(xiàn)再生性保護方式,對古籍進行影印再造和影像保存,此種方式呈現(xiàn)的圖像整體質(zhì)量較低,翻閱難度大,難以滿足讀者和研究人員的需要。近十幾年來,各種古籍數(shù)據(jù)庫服務開始興起,但是市面上的產(chǎn)品大多良莠不齊,缺少精品。

為增補完善國家古籍數(shù)字化基礎(chǔ)資源、全面盤活古籍核心文獻、完善古籍知識生產(chǎn)和服務模式,由上海古籍出版社打造的"尚古匯典·古籍數(shù)字服務平臺"于去年9月啟動,一期項目于近期正式上線,用戶可以實現(xiàn)古籍全文檢索、在線閱讀,同時提供聯(lián)機字典、紀年換算等實用工具。

在技術(shù)上,"尚古匯典·古籍數(shù)字服務平臺"將分別籌劃打造以知識生產(chǎn)及知識服務為目標的兩個技術(shù)平臺,即以古籍全文識別系統(tǒng)(OCR)、古籍智能整理系統(tǒng)、古籍智能算法平臺為基礎(chǔ)的知識生產(chǎn)平臺,和實現(xiàn)海量古籍文獻在資源層、內(nèi)容層、語義層的關(guān)聯(lián),以此構(gòu)建的古籍知識服務平臺。

元腦伙伴上海華胄助力打造先進算力底座

古籍的提取并不是一件容易的事情,由于年代久遠、水解、氧化、微生物降解等原因,很多古籍都難完整保留下來,科研人員需要對其進行更大規(guī)模的提取,以獲得更多的有效數(shù)據(jù)。

無論是古籍的分析還是提取,或是針對研究數(shù)據(jù)的處理,背后都對算力提出了極高的要求。過去科研人員通常使用臺式機和普通的服務器進行一系列數(shù)據(jù)分析,單次處理的古籍數(shù)量非常有限。隨著古籍技術(shù)平臺的升級,科研人員的捕獲能力得到增強,實驗所得的古籍文字量大幅提升,繼而帶來了巨大的數(shù)據(jù)處理任務,當前算力已經(jīng)遠遠無法滿足需求。

作為元腦合作伙伴,上海華胄為上海古籍出版社提供最新一代AI旗艦服務器靈活布置次級業(yè)務系統(tǒng),保障業(yè)務系統(tǒng)的高可用,為古籍研究帶來源源不斷的優(yōu)質(zhì)算力,為其搭建高效應用平臺。


該平臺的OCR系統(tǒng)、自動標點與自動標引技術(shù)開發(fā)都已趨于成熟,其中OCR技術(shù)可以在一分鐘以內(nèi)完成200頁古籍圖像的識別,準確率超過93%。OCR輸出的文本在經(jīng)過自動標點和標引之后,可以快速達到可檢索、便于閱讀的目的,極大方便了學術(shù)研究。未來,這一平臺還通過解析上海古籍出版社海量古籍資源內(nèi)容,對其進行知識結(jié)構(gòu)化揭示,重構(gòu)原有的古籍內(nèi)容組織形式,并創(chuàng)建全新的知識模塊,實現(xiàn)古籍資源的知識化、專業(yè)化服務。

上海古籍出版社副社長吳長青表示,通過采用OCR的文本生成技術(shù)、自然語言處理的文本整理與標引等先進技術(shù),大量優(yōu)秀古籍可以在準確權(quán)威的平臺上與公眾、專業(yè)研究人員面對面,使用效率大幅提高,有力促進海量優(yōu)秀傳統(tǒng)文化信息便利快捷有效利用。

古籍文化不止是義理、訓詁與考證,古代文學的研究也不應該只停留在古籍館與古文工作者的論文中,其價值更在于以古人的感受、思考去慰藉、照亮現(xiàn)代人。浪潮信息、上海華胄未來將基于元腦AIStore,積極探索大數(shù)據(jù)、語義網(wǎng)絡(luò)關(guān)聯(lián)及知識圖譜等技術(shù)在古籍行業(yè)的應用,推進中華優(yōu)秀傳統(tǒng)文化的創(chuàng)造性轉(zhuǎn)化和創(chuàng)新性發(fā)展,并以此賦能古籍整理出版和學術(shù)研究、國學傳習。

浪潮信息 上海華胄 AI 古籍

一周熱門

  • 江波龍存儲出海:賦能巴西高端封測,服務美洲市場
    江波龍完成對巴西SMART Modular公司的股權(quán)收購,持有81%的股份,并更名為Zilia(智憶巴西)。為何江波龍做
  • SAE 2024 低空飛行器與城市智慧立體交通國際學術(shù)會議在杭州召開
    9月6-7日,第二屆SAE 2024低空飛行器與城市智慧立體交通國際學術(shù)會議在杭州舉行,吸引了來自國內(nèi)外低空飛行器、航空
  • 大華股份鴻鵠智能物聯(lián)主機 賦能萬千場景數(shù)視升級
    作為全球首款采用全國產(chǎn)化硬件鴻蒙系統(tǒng)物聯(lián)主機,大華鴻鵠主機采用寬溫設(shè)計,雙板雙控,具備4000+海量協(xié)議和22Tops超