人工智能數據標注這些年:從幕后到前臺丨曼孚科技
2020年03月20日 17:50作者:黃頁編輯:
分享
“你了解人工智能行業嗎?”
10個人中可能有9個人會給出肯定的回答。
“你了解數據標注行業嗎?”
10個人中可能有9個人會茫然地搖頭。
與處在聚光燈中心的人工智能科技公司不同,數據標注行業長期處于聚光燈之外的灰色地帶,很長一段時間內都是被邊緣化乃至低視的一個存在。
不過,隨著時代發展帶來需求的改變,數據標注行業也在發生著日新月異的變化,開始從幕后走向前臺。
一.幕后:粗放與混亂交織
數據標注行業里流傳著這樣的一段話:“有多少智能,就有多少人工”。
這句話在某種程度上道出了人工智能的本質。
事實上,現階段讓ai提升認知世界能力的最有效途徑仍然是監督學習,而目前ai算法能學習的數據,幾乎全部都是通過人力逐一進行標注而得來的。
一張經過數據標注后的圖片(來源:曼孚科技)
需求即意味著市場,據相關機構預測,未來幾年,國內數據服務市場將達上百億。
如此龐大的市場規模,讓很多人都想趁機分一杯羹,于是大大小小的標注團隊如雨后春筍一樣大量出現。
然而,問題也隨之而來。
與人工智能高科技含量不同,數據標注仍屬于勞動密集型產業,且模式通常以外包形式為主。
標注員每天從事標框、拉點等重復枯燥的工作,勞動力水平參差不齊導致產出的標注數據質量偏低,無法滿足ai企業的需求,影響ai產品商業化落地進程。
與此同時,低端產能過低的技術含量,也使數據標注行業幾乎沒有任何壁壘限制,很多標注團隊隨意拉進來幾個人經過簡單培訓就可以接業務了。
這樣的后果就是行業混亂且競爭加劇,絕大部分標注團隊只能存活于產業鏈最底層,壓價情況嚴重,甚至接不到業務導致生存艱難。
二.前臺:ai對于高質量數據的依賴
人工智能行業內有一個很重要的共識:
數據集質量的高低直接決定最終模型效果的好壞。
換句話說,數據對于模型性能的貢獻是最大的,數據越多越豐富、代表性越強、模型效果越好,算法的健壯性和魯棒性就越強。
隨著ai企業商業化落地進程的加快,越來越多的企業開始意識到標注數據的重要性。
以自動駕駛為例,目前很多企業都已經生產出自己的無人駕駛汽車樣車,并頻頻出現在公共視野內。
然而,雖然這些樣車在實驗室內表現良好,但距離真正的商用仍然有很遙遠的距離,一個很重要的原因就是真實路況場景與實驗室場景差距過大。
自動駕駛標注場景(來源:曼孚科技)
在實驗室內,只需要少量的道路數據即可滿足實驗的需要,但是到了真實的道路上,無人駕駛汽車將會遇到很多無法預知的情況,在沒有足夠數據支撐的前提下,車載電腦無法做出自己的判斷,導致潛在的風險劇增。
因此,以自動駕駛企業為代表的眾多ai企業對數據標注行業提出了更高的要求,數據標注行業已然開始處于聚光燈的焦點,從幕后走向了前臺。
三.未來:智能化、精細化、場景化
ai數據是人工智能的重中之重。眾所周知,人工智能的三駕馬車是算法、算力與數據,其中數據是人工智能行業的發展基石。
隨著人工智能行業商業化落地進程的加快,ai數據服務領域泥沙下沉,清泉上涌,行業變革已初露端倪。未來,智能化、精細化、場景化將是數據標注行業的主要發展方向。
智能化,即意味著標注工具ai化。以曼孚科技自研的語音標注工具為例,ai預標注技術可以自動識別轉寫語音數據,標注員只需要在工具預標注的結果上略作修改即可,這在提升標注效率的同時也減輕了對于人力的依賴。
精細化,即意味對標注數據集質量與細節提出了新的要求。以往數據集的準確率可能達到90%以上即可滿足要求,但隨著ai商業化落地進程的加快,ai企業對于標注數據的質量要求達到了95%,甚至99%以上,同時更加注重細節,比如曼孚科技在進行自動駕駛領域數據標注業務時,項目方會對諸如情緒捕捉、疲勞駕駛等等提出更加細節化的標注需求。
精細化標注能力(來源:曼孚科技)
場景化,即意味數據標注行業要滿足多樣化應用場景標注需求。以計算機視覺領域為例,目前數據標注可以應用在自動駕駛、無人機、ai教育、工業機器人、新零售、安全防護等場景中。每一個應用場景都有自己的數據類型與具體標注要求,因此極為考驗數據標注企業的場景化標注能力。
可以預見的是,未來幾年數據標注行業將迎來一場大變革,理念更先進、技術更硬核、服務更專業的ai數據服務企業將會把數據標注行業帶入全新的精細化運營時代。
而未來,相信隨著5g技術的逐步應用,數據與5g的結合將碰撞出更多創新火花,共同托起ai發展的基石。
來源:泡泡網
以上是網絡信息轉載,信息真實性自行斟酌。