實地探訪河南ai村:給人工智能貼標的新“富士康工人”
2018-12-25 12:38來源://
原標題:實地探訪河南ai村:給人工智能貼標的新“富士康工人”
來源:motherboard編輯:三石、張乾、木青
【新智元導讀】在中國小城市、鄉鎮,無數年輕人正成為“數據貼標人”,他們每天坐在電腦前八小時,點擊幾十張照片,概述背景、前景和特定物品。他們的工作為ai公司的算法提供和處理大量數據。隨著技術的進步,那些“低技能”的工作者將會失業,但也創造了很多“低技能”的工作。
周俊凱(junkai zhou,音譯)的辦公室坐落在東沙河的邊緣,這是一條靜謐的河,它把將位于中國中部河南省的31.8萬人的小縣城民權縣新舊兩個部分區分開來。在這里,19歲的周俊凱和他26歲的堂兄今年夏天一起創辦了他們的小型數據貼標工廠。
他們創辦的“俊鵬科技公司”辦公室在一個租用的傳統庭院住宅里面,是典型的河南農村。這棟房子很大,有兩三層高,不像中國大城市普遍存在的公寓樓。在房子后面,一名男子在一片土地上耙葉子,周俊凱說,這些土地是一片莊稼地。
周俊凱(右)和他的表哥
在房子里面,唯一溫暖的房間是辦公室,十幾個年輕人坐在寬大的發光屏幕前。在11月的某一天,屏幕和熒光燈幾乎不能照亮房間,當地污染程度已經阻擋了太陽,四處彌漫著濃霧。
“俊鵬科技公司”的員工
這些年輕人是“數據貼標人”,他們每天坐在電腦前八小時,點擊幾十張照片,概述背景、前景和特定物品,所有這些都是根據正在進行人工智能的客戶規格而定。有些人可能會標記醫療掃描圖片,有些人標注風景和樹木的照片,還有些人標注無人駕駛車輛的道路圖片。這些都是人工智能算法學習“看”的數據。
人工智能行業依賴于這種廉價的人工,因為算法和“機器學習”在很多情況下都是由真人訓練。
人工智能需要大量數據來學習和辨別模式,無論是圖片、音頻還是文本,因為它們不同于人類解釋媒體。要教授算法如何準確識別蘋果是一個蘋果,它需要成千上萬的蘋果圖片。此外,算法很容易上當受騙。在一項實驗中,安全研究人員發現,通過扭曲校車圖片,盡管人眼看不到這種變化,但人工智能系統再也無法識別它是一輛校車。
資金流入中國的人工智能產業,很少有地方比河南更好。在幾年前河南富士康工廠(生產蘋果產品)和電子工廠而聞名,現在,河南的城鎮現在擁有辦公室工作人員,他們正在進行艱苦乏味的輸入工作,讓計算機變得聰明。
咨詢公司aib的研究顯示,去年,風險資本家向中國的人工智能創業公司投入了50億美元,這使得該行業的資金首次超過美國。中國政府已將ai領域作為優先事項,并在去年夏天宣布一項雄心勃勃的政策:到2030年建設價值1億美元的ai產業。
在推動中國經濟發展的制造工廠中,河南人民也發現自己擁有不斷增長的勞動密集型數據標簽公司這種邊緣產業,這些公司為算法提供和處理大量數據。除了中國最大城市有幾家大型企業外,這些數據標注公司主要分布在較小的城市、城鎮和農村地區。
周俊凱是在平頂山西部的鎮上看到一些類似數據工廠后,想到了自己開店。他的表兄弟們一起拿出家里多年的積蓄(40美元),購買了幾十臺電腦并租用辦公室。據他們所知,他們是民權縣中唯一的做這個產業的人。
“你不能指望擁有這么高工資的人來完成這項勞動密集型工作”
從貿易學院畢業后,周俊凱開始進入這一行,之前他一直在找工作,但卻處處受限。
19歲的周俊凱來自河南民權縣的一個村莊里。 他說,從貿易學院畢業后,他的工作選擇并不多。
“如果你不知道將來做什么,你可以去一個大城市,成為一名白領工作者,然后每天都要擠地鐵擠公交,”他說,“至于其他(領域),如果你想出人頭地,就需要大量的知識、經驗和教育。而這些是我們沒有的東西。“
他很難才找到了一份汽車修理工的工作。他說,在一家工廠干了很短時間就辭職了——那份工作太苦了,要一天工作14個小時。
“我以為我再也受不了(這些),”他說,但“現在從事的這個行業感覺它有潛力。”
韓金浩(jinhao han,音譯)說,許多人現在正涌向數據標注行業。一年多前,他在河南省省會鄭州開辦了他的數據標注公司dianwokeji(點我科技),目前擁有了100多名數據貼標機。
“雖然標注是相當低級別的工作,但進入門檻相對較低,而且仍屬于人工智能行業。”他說,“所以我們認為,如果我們可以從這里開始,然后慢慢地、一步一步地走向更高價值的東西。”
韓擁有超過0種數據標注裝備,這些裝備已經在他建立的類似craigslist的平臺上注冊,其中較小的裝備可以找到外包或雇用新員工。
18歲的趙夢瑤(zhao mengyao,音譯)是個新手。她于今年10月開始在周所在的公司工作。當我訪問辦公室時,她正在追蹤停車場停車位的白線:畫面扭曲,線條彎曲,好像相機的一個魚眼鏡頭,但她輕松地將鼠標放置在它們上面。20分鐘后,趙夢瑤繼續處理她下一張照片。這是停車場的另一個角度的照片。
年輕姑娘正在學習如何給汽車標注
在她旁邊,一個年輕人則在描出一位歌手穿著的橙色連衣裙的蓬松邊緣。接下來,他開始描一個打高爾夫球的人的輪廓。
趙夢瑤曾經是一個婚禮攝影工作室的化妝師,但因為工作疲憊而辭職。有幾天她必須在凌晨4點起來準備客戶拍攝,而晚上7點才能回家。
而現在的工作節奏她很滿意:朝八晚六,中間休息一個半小時。在午休時間,她和她的同事還能聊聊天,聊聊共同玩的游戲。
她說:“我覺得這很不錯,這里很自由。”
趙說工資還可以:每處理一套照片(大概20張)就能獲得大概20元的報酬。她每天可以完成4到8套,即80到160張照片。當我問她認為照片會去哪里、有何用途時,她回答不知道。
我交談過的七位數據貼標者的月工資從2000元人民幣到4000元人民幣不等。這與中國工人的平均可支配收入或稅后收入相當——2017年為2164元人民幣。“鄭州有這么多可以獲得這種水平工資的工作。”25歲的點我科技員工王玉雙(yushuang wang,音譯)說。
點我科技大多數員工都只有20歲出頭。
ai照片識別教學的標準是使用imagenet的圖像,這是一個由斯坦福大學教授李飛飛和她的團隊創建的超過1400萬張圖像的數據庫。該數據庫依賴于亞馬遜的mechanical turk,后者將勞動密集型工作外包,例如照片標記的工作以幾美分/一張的報酬交給互聯網用戶去做。
但是,隨著世界各地的企業越來越多地轉向從無人駕駛汽車到醫療診斷等行業的人工智能應用,imagenet和mechanical turk被證明是不夠用的。
你認為我們會讓沒有生命的東西控制人類嗎?
數據標注公司awakening vector的創始人peter yang說:“醫療業務需要非常細致的數據來讓人工智能學會如何做出區別,例如在ct掃描中區別腫瘤和眼球。”它需要在大量不同的照片中,通過數據來指出照片中的腫瘤是什么樣子,這就需要人工的來點擊并標注圖片。
“但大多數人工智能初創企業只有少數全職員工,通常都是數據科學家。”
“這需要大量的體力勞動。你不能指望收入這么高的人做這種勞動密集型的工作,所以你必須把這項工作外包出去。”
此外,還有隱私和質量控制問題。
例如,醫學圖像需要保密。亞馬遜土耳其機器人(amazon mechanical turk)的任務是由任何想賺外快的注冊用戶來完成的,而不是那些周一到周五都有固定工資的員工。
外包意味著這些業務現在在國內遍地開花。
peter yang的業務集中于新疆,客戶包括百度和跨國制藥公司諾華(novartis)。韓金浩的公司為國內一些無人駕駛汽車初創公司服務,在河南和鄰近的山東省的一些小城市也設有分支機構。
傳統觀點認為,隨著技術的進步,那些“低技能”的工作者將會失業。學術研究大多也支持這一觀點。
但這并不意味著科技必然會取代所有的工作崗位。
波士頓大學科技與政策研究項目的執行主任james bessen說:“歷史研究表明,自動化帶來了就業熱潮。”
“以紡織業為例,在19世紀早期,由于布料太昂貴,大多數人只有一套衣服。但隨著科技的發展,一些任務變得自動化,降低了制作衣服的成本,人們對布料的需求也在增長。服裝需求的增長帶來了更多的就業機會。盡管紡織業被認為是“低技能”的行業,但隨著規模的急劇擴張,它也帶來了新一代的工人,他們不得不學習操作復雜的機械。只有當需求得到滿足時,就業人數才開始下降。”
就目前而言,我國的勞動力還算是廉價的。
這項工作也超越了圖片標注的范疇。許多公司還為語音識別、視頻標簽甚至原始數據付費。
對于一些工人來說,成為一個新行業的一份子有一種明顯的自豪感。
“我們正在做一些非常基礎的工作,雖然只是幫助機器人學習和查看大量數據,但我們也是其中非常重要的一部分。”
那么如果有一天算法學會了自己識別事物,那么數以萬計的“低技能”人工智能人才會失業嗎?
韓金浩似乎對此漠不關心:“如果真的到了那個階段,那么人類可能就不會活著了。你認為人類會讓甚至沒有生命的東西控制人類嗎?我們只會教它如何為人類服務。我們不會把他教得那么好以至于有一天我們要為機器服務。”
原文地址:
motherboard.vice.com/en_us/article/7xyabb/china-ai-dominance-relies-on-young-data-labelers
責任編輯:
聲明:該文觀點僅代表作者本人,搜狐號系信息發布平臺,搜狐僅提供信息存儲空間服務。
閱讀 ()
來源:搜狐
以上是網絡信息轉載,信息真實性自行斟酌。