上海2021年7月13日 /美通社/ -- 一份最新的全球《2021人工智能與機器學習現(xiàn)狀》調研報告顯示:2021年,53%的AI團隊報告預算在50萬美元到500萬美元之間(而2020年約為三分之一),這個強烈的信號表明AI對于各行各業(yè)各種規(guī)模企業(yè)的成功變得越來越重要。這份由全球領先的AI數(shù)據(jù)服務平臺公司澳鵬(Appen)連續(xù)第7年發(fā)布的AI現(xiàn)狀年度報告還強調,在2020年由于新冠疫情,各規(guī)模的企業(yè)都加速推進了AI戰(zhàn)略,并且在2021年還將繼續(xù)保持這種勢頭。
在中國,AI技術應用開始全面覆蓋日常生活、科學研究、社會治理、商業(yè)創(chuàng)新和國家安全等經(jīng)濟社會的關鍵領域,以空前的廣度和深度推動社會發(fā)展。由中國信通院與中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟推出的《2021人工智能核心產(chǎn)業(yè)白皮書》指出,工程技術正在引領AI產(chǎn)業(yè) -- 技術成本快速下降,同等算法水平所需計算量每8個月降低一倍、成本降低百倍,涌現(xiàn)了多樣化的研發(fā)和技術服務平臺,這些說明AI正從技術理論突破過渡到工程化落地應用的階段。
深度神經(jīng)網(wǎng)絡是當前AI的主要模型,而監(jiān)督學習則是構建(訓練)深度神經(jīng)網(wǎng)絡的主要方法,監(jiān)督學習所需要的大規(guī)模、高質量的人工標注數(shù)據(jù)集是AI產(chǎn)業(yè)發(fā)展的剛需,也是AI工業(yè)化的主要瓶頸之一。在中國,正在大量涌現(xiàn)AI數(shù)據(jù)標注產(chǎn)業(yè)基地,但當前的AI數(shù)據(jù)標注產(chǎn)業(yè)仍處于初級階段。澳鵬公司產(chǎn)品研發(fā)總監(jiān)張童皓表示,用戶對于數(shù)據(jù)規(guī)模、質量和多樣性等要求越來越高,專業(yè)化數(shù)據(jù)服務平臺是AI工業(yè)化的突破口。
AI領先一步的秘訣
獲得大規(guī)模、高質量的人工標注數(shù)據(jù),這不僅是中國企業(yè)AI實踐成功和AI工業(yè)化的關鍵,在全球也是類似的剛需。無論從全球還是中國市場來說,專業(yè)的數(shù)據(jù)標注服務商都是AI工業(yè)化領先一步的關鍵。澳鵬《2021人工智能與機器學習現(xiàn)狀》調研報告指出,獲取足夠的優(yōu)質訓練數(shù)據(jù)來部署AI是各種規(guī)模企業(yè)成功的重大障礙,而全球絕大多數(shù)企業(yè)都在某種程度上采用了專業(yè)數(shù)據(jù)供應商 -- 這反映了數(shù)據(jù)采集、準備和管理是AI面臨的首要挑戰(zhàn)。
人工智能項目部署和投資回報 ,來源:《2021人工智能與機器學習現(xiàn)狀》,澳鵬
根據(jù)澳鵬的調研,使用專業(yè)數(shù)據(jù)供應商的企業(yè)表示他們在AI部署方面領先于其他企業(yè)的可能性要高1.5倍,而落后的可能性要低4倍,也就是說使用專業(yè)數(shù)據(jù)供應商的企業(yè)部署了更多的AI項目,而且實現(xiàn)了更大的投資回報率。特別是,澳鵬發(fā)現(xiàn)使用專業(yè)數(shù)據(jù)供應商的企業(yè)更有可能將AI部署到生產(chǎn)環(huán)境。
此外,AI部署是一個持續(xù)的過程,而不是一勞永逸。去年,80%的被調研企業(yè)至少每季度更新一次模型,今年已增加到87%;2021 年,57%的受訪者表示至少每月更新一次模型,高于 2020年的45%。而與較小的企業(yè)相比,大型企業(yè)更有可能更新AI模型,至少每季度更新一次的比例為91%。其中,使用專業(yè)數(shù)據(jù)供應商的企業(yè)最有可能每月更新其模型。
就中國市場來說,以數(shù)據(jù)標注為代表的專業(yè)數(shù)據(jù)服務行業(yè)才剛剛起步,相關技術發(fā)展程度低,屬于勞動力密集型行業(yè),而且該行業(yè)缺乏大型專業(yè)數(shù)據(jù)供應商和服務商,行業(yè)以中小企業(yè)為主,呈現(xiàn)高度的競爭狀態(tài)。在另一方面,數(shù)據(jù)標注正從簡單、重復的拉框標注向精細化方向發(fā)展,也就是說數(shù)據(jù)標注行業(yè)正從簡單的勞動力密集型向專業(yè)型數(shù)據(jù)服務過渡。
AI數(shù)據(jù)服務專業(yè)化
當前,中國的AI行業(yè)和AI應用正在高速發(fā)展,相應帶動了AI數(shù)據(jù)標注行業(yè)的快速成長。特別是AI用戶對于AI數(shù)據(jù)標注質量的要求越來越高、越來越精細化和專業(yè)化,諸如自動駕駛、工業(yè)制造等智能應用場景越來越復雜,高質量、精細化的標注數(shù)據(jù)將直接影響算法模型的效果。
文本數(shù)據(jù)標注示例
張童皓在加入澳鵬之前供職于人工智能視覺公司,再之前在攜程和e-Bay都從事過大數(shù)據(jù)和數(shù)據(jù)智能相關產(chǎn)品的研發(fā)工作。張童皓介紹,自2015年國內AI行業(yè)掀起新一輪熱潮以來,用戶對于AI訓練數(shù)據(jù)的要求越來越高。以圖像類項目為例,由于支持高清圖像設備的大量出現(xiàn)、流媒體的普及等,相應對訓練數(shù)據(jù)質量要求水漲船高,例如對圖像分割任務就要求標注打點的位置與實際像素之間的偏離不超過1到3個像素,對語音的切分要在毫秒級且前后兩段不能有重疊或空隙。
除了要求更高質量的訓練數(shù)據(jù)外,由于深度神經(jīng)網(wǎng)絡的模型效果與訓練數(shù)據(jù)的規(guī)模呈正相關性,當前很多客戶不僅需要海量的高質量訓練數(shù)據(jù),而且還要覆蓋更多的場景,也就是對同一個場景提出不同的數(shù)據(jù)標注要求。再加上很多AI場景都仍屬于探索階段、場景需求多變,例如智能駕駛從早期的目標跟蹤到后來的遮擋、連續(xù)性等出現(xiàn)了不同的訴求,因此不同團隊需要標注不同的數(shù)據(jù)屬性,很容易出現(xiàn)一個圖像數(shù)據(jù)集卻有多種不同標注要求的情況。當然,在AI模型生命周期的不同研發(fā)階段,也可能提出完全不同的數(shù)據(jù)標注要求。這是由于AI模型在迭代的過程中,需要用數(shù)據(jù)進行模型訓練和效果驗證,如果模型效果不理想就需要調整方向,這就意味著新一輪的數(shù)據(jù)標注處理。
此外,由于數(shù)據(jù)合規(guī)性和隱私保護的要求越來越高,純云端的數(shù)據(jù)標注平臺和服務就無法全部滿足企業(yè)用戶要求,這就要求私有化部署的數(shù)據(jù)標注平臺和眾包管理平臺。不過,私有化部署固然能夠更好的保障數(shù)據(jù)安全,但其部署和維護成本較高,這也帶來了相應的挑戰(zhàn)。
突破AI工業(yè)化瓶頸
專業(yè)化的AI訓練數(shù)據(jù)標注平臺及眾包管理平臺是當前中國AI工業(yè)化瓶頸的重要突破口之一,這也是澳鵬(Appen)進入中國市場的重要原因。澳鵬迄今已經(jīng)有25年的歷史,擁有業(yè)內先進的人工智能輔助數(shù)據(jù)標注平臺和一體化AI數(shù)據(jù)及資源管理平臺,以及全球100多萬名技能嫻熟的眾包資源 -- 來自全球170多個國家和70,000個地區(qū),支持235多種語言和方言。澳鵬中國團隊從2019年就開始就重新構建面向中國市場的AI數(shù)據(jù)標注平臺、相應的工具以及眾包資源渠道和管理平臺,2021年澳鵬大中華區(qū)正式成立并獨立運作。
作為全球領先的AI訓練數(shù)據(jù)服務提供商,澳鵬的拳頭產(chǎn)品和服務就是數(shù)據(jù)標注平臺和眾包資源。針對中國市場,澳鵬中國研發(fā)中心借鑒公司在海外的實戰(zhàn)經(jīng)驗,重新獨立開發(fā)了中國版本的數(shù)據(jù)服務平臺。張童皓強調,之所以選擇重新開發(fā)中國市場的數(shù)據(jù)標注平臺版本,這一方面是針對中國客戶的用戶習慣與特色需求,另一方面是切合中國市場的數(shù)據(jù)監(jiān)管和法規(guī)遵從要求。例如,澳鵬中國數(shù)據(jù)標注平臺的公有云版就部署在國內,完全符合中國企業(yè)用戶對數(shù)據(jù)安全的要求。
澳鵬中國數(shù)據(jù)標注平臺支持混合云部署
澳鵬中國數(shù)據(jù)標注平臺共有三大功能:資源管理、項目管理和標注工具箱。其中,資源管理部分對接了澳鵬全渠道資源,包括簽約供應商以及眾包人員和澳鵬在無錫和大連的內部標注中心團隊;項目管理部分,作為一家綜合性數(shù)據(jù)服務公司,澳鵬平臺提供了項目配置和管理、工作流配置、數(shù)據(jù)資源分配和質檢等功能;標注工具箱方面,支持視頻、圖像和音頻的標注和轉錄、文本標注與翻譯,全覆蓋文本、音頻、2D和3D圖像等,還提供了智能輔助標注工具。
數(shù)據(jù)標注是一個復雜的系統(tǒng)工程,由標注員和質檢員一起協(xié)同工作。在這個協(xié)同的過程中,有數(shù)據(jù)的提交和打回等復雜操作。此外,澳鵬作為一家綜合性專業(yè)數(shù)據(jù)服務公司,平臺上往往存在多個并行任務,任務屬性各不相同,有的要求流轉非???、有的單條數(shù)據(jù)工作時間很長,項目組規(guī)模從幾十人到上萬不等,因此澳鵬中國數(shù)據(jù)標注平臺選擇了開源的分布式消息隊列Pulsar作為底層基礎架構。Pulsar被視為下一代企業(yè)級分布式消息系統(tǒng),是Kafka的替代型技術,其特點包括多租戶、低延遲、讀寫分離、跨地域復制、快速擴容、靈活容錯等特性。
張童皓強調,較前沿的技術架構給平臺帶來了吞吐性能方面的競爭優(yōu)勢,除此以外,澳鵬全球眾包資源的對接也是其獨有優(yōu)勢,而即使是在國內也有獨到的眾包資源 -- 3000人規(guī)模的中文專業(yè)醫(yī)學數(shù)據(jù)標注團隊,都具有臨床執(zhí)業(yè)資格和豐富醫(yī)學項目經(jīng)驗,可對醫(yī)學影像和問答進行高效標注。
自研專業(yè)化數(shù)據(jù)標注平臺
專業(yè)化數(shù)據(jù)標注平臺是數(shù)據(jù)標注行業(yè)的核心競爭力,也是AI工業(yè)化的關鍵平臺之一。在全球,具備專業(yè)化數(shù)據(jù)標注平臺及其能力的數(shù)據(jù)服務商屈指可數(shù),澳鵬就是其中之一。隨著澳鵬進入中國市場,也將專業(yè)化數(shù)據(jù)標注平臺的實踐帶入中國市場,由澳鵬中國研發(fā)中心全自研的澳鵬中國數(shù)據(jù)標注平臺是一個國產(chǎn)化的數(shù)據(jù)標注平臺,該平臺定位于全流程一站式人機協(xié)同高質量數(shù)據(jù)平臺,具備從數(shù)據(jù)需求提出到策略制定、數(shù)據(jù)收集、高精度標注/分類、數(shù)據(jù)分析和數(shù)據(jù)服務,直到數(shù)據(jù)全量交付的核心場景功能。
大多數(shù)澳鵬標注工具都內置了AI輔助標注功能
張童皓介紹,澳鵬中國數(shù)據(jù)標注平臺具有多種獨到的專業(yè)技術。其中的標注工具箱在多語言和復雜圖像處理方面極具競爭力:圖像語義分割技術,可以在保證像素級精度同時,實現(xiàn)10分鐘處理一張圖的高速處理;隨著2D圖像的視頻全結構化趨勢,澳鵬平臺可以同時識別視頻中的多類型目標,可進行點、線、框和多邊型融合的復雜標注而且支持連續(xù)幀,而傳統(tǒng)工具僅為單模式單幀;在3D圖像處理方面,由于3D圖像數(shù)據(jù)難于理解以及查看不便(即3D空間中的點狀物密集聚集在一起形成的3D點云),澳鵬投入了大量研發(fā)資源,開發(fā)了拉框標注和語義分割等一整套的標注工具,其中拉框標注支持2D&3D融合標注、自動貼合、連續(xù)幀跟蹤、可定義對象實例關系、高度集成質檢和交付流程等,而最具特色的2D&3D融合標注可將3D物體映射到2D圖像中進行關聯(lián)。
澳鵬中國數(shù)據(jù)標注平臺還提供了:數(shù)據(jù)有效性驗證規(guī)則配置功能,例如一輛車消失了多長時間就被視為數(shù)據(jù)異常,可及時提醒標注員或質檢員進行糾正;在數(shù)據(jù)驗收方面,為客戶提供了最低粒度驗收或打回,即不是對一整張圖進行驗收或打回,而是對其中的一個框或一個點進行精準的驗收和打回,這樣標注員就可以直接對被打回的問題數(shù)據(jù)進行修正;澳鵬中國數(shù)據(jù)標注平臺的標注工具可實現(xiàn)99.9%的準確率,可達到5分鐘一張、1秒一幀極速質檢,在交互、超大數(shù)據(jù)加載、實時切幀進行渲染等方面都達到了行業(yè)第一。
在澳鵬中國數(shù)據(jù)標注工具底層有一個通用的技術組件,這就是模板引擎。開發(fā)模板引擎的目的,在于澳鵬是一家綜合數(shù)據(jù)服務提供商,支持多家客戶并行并發(fā)多種標注任務,因此通過模板引擎讓內部團隊可以簡單編寫腳本代碼后就能定制化不同標注工具,以支持不同客戶的不同標注任務。
澳鵬中國數(shù)據(jù)標注平臺也可以被私有化部署到企業(yè)內部,因此對于企業(yè)客戶來說,該平臺還提供了多種企業(yè)級能力,包括靈活的工作流配置、多資源組合管理、多種部署方式等。在靈活的工作流配置方面,企業(yè)的項目經(jīng)理通過選項勾選,就可以靈活配置不同的工作流,實現(xiàn)不同的數(shù)據(jù)流轉策略和流程。例如,有的文本標注項目,單條數(shù)據(jù)處理的速度非???,就可以配置為讓標注員一次領取多條數(shù)據(jù);有的翻譯標注項目,當標注時出現(xiàn)錯別字時,就可以配置為質檢員直接修改而無須打回,這樣就避免了反復提交數(shù)據(jù)的時間浪費;而對于3D點云標注項目,一條圖像數(shù)據(jù)可達300多幀,標注時間不僅非常長而且需要處理完成后馬上提交質檢以及及時修正問題。
在多資源組合管理方面,澳鵬中國數(shù)據(jù)標注平臺可以讓企業(yè)同時配置管理內部的標注團隊和外部的供應商及眾包資源。在多種部署方式方面,澳鵬中國數(shù)據(jù)標注平臺支持SaaS、私有化部署、混合云方式等,可實現(xiàn)從標注員向客戶提交數(shù)據(jù)文件全程不經(jīng)由澳鵬中國的服務器,通過物理切割而最大限度保障企業(yè)數(shù)據(jù)的隱私與安全。澳鵬中國數(shù)據(jù)標注平臺還支持白名單、后臺日志審計等運營方式,從而在大幅縮減企業(yè)服務器運營成本的同時,加速項目上線時間,達到兼顧安全與效率的項目運營優(yōu)化。
張童皓強調澳鵬中國數(shù)據(jù)標注平臺作為國產(chǎn)自研的數(shù)據(jù)標注平臺,還研發(fā)了很多獨有的數(shù)據(jù)標注能力,包括3D點云車道線自動識別、專業(yè)的ASR智能語音識別引擎、AI輔助標注等,不僅克服了行業(yè)中的難點和挑戰(zhàn),還大幅提升了標注和審核的效率和生產(chǎn)力。作為一家服務于AI產(chǎn)業(yè)和項目的數(shù)據(jù)服務商,澳鵬在AI倫理道德、法規(guī)遵從等方面都有專門的策略、技術和管理機制,確??蛻舻捻椖吭谧畲蟪潭壬媳苊膺@些方面的問題。
總結而言:以澳鵬為代表的專業(yè)數(shù)據(jù)標注服務商及其國產(chǎn)自研專業(yè)數(shù)據(jù)標注平臺,是AI工業(yè)化的一大標志。這代表了AI數(shù)據(jù)標注服務正從簡單的勞動力密集型向專業(yè)數(shù)據(jù)服務和工業(yè)化組織過渡,而高質量、大規(guī)模、多樣化的標注數(shù)據(jù)及其工業(yè)化生產(chǎn),將進一步推動AI工業(yè)化的早日到來。屆時,AI技術無疑將更廣泛和更深刻的影響社會與經(jīng)濟發(fā)展。
《人工智能與機器學習現(xiàn)狀》白皮書
各公司AI預算比去年同步增長55%
AI項目的負責人職位發(fā)生了大面積改動
對于數(shù)據(jù)安全的重視逐漸增加
業(yè)務決策者和技術人員的分歧
新冠疫情下,企業(yè)加速推進了人工智能戰(zhàn)略
企業(yè)對外部數(shù)據(jù)提供商的選擇能夠大幅度影響AI項目的成功率
更多詳情,請至澳鵬Appen官網(wǎng)下載。
(*作者:云科技時代 吳寧川, 原文鏈接:https://mp.weixin.qq.com/s/9p2klq-VMOg_Iw1QOMBsGA)