在一排一排的電腦前,這里的年輕人們一邊瀏覽照片和視頻,一邊標記他們看到的每樣東西。
有的是在為無人駕駛公司標注路上的汽車和紅綠燈,有的是在為無人售貨公司標注面包牛奶巧克力。
河南省郟縣睿金科技公司工人正在標注數據
據《紐約時報》的報道,在位于中原腹地的河南河北,數據標注正在漸漸成為最新的勞動密集型行業。
有多少人工,就有多少智能。目前的人工智能在被投喂了大量數據之后
營銷型網站制作,才能認出三歲小孩子都能認出的東西,學會“黑貓白貓都是貓”。
當然,貍花貓也是貓
然而,在人工成本更高以及對數據標注要求更復雜的硅谷,工程師們需要尋找其他出路來獲取大規模的高質量有標記數據。
1.眾包
在人工費用高昂的硅谷,工人的最低時薪約為13美元左右。對于很多創業公司和中小企業來說,雇工人標注數據實在承受不起。
最經濟的方法就是把大量任務拆分成小任務,再以低廉的價格分發到用戶手中。
其中最有名的在線眾包平臺就是亞馬遜旗下的Amazon Mechanical Turk了。
在Mechanical Turk 上,發布者可以自行上傳標注任務,用戶只需要填寫簡單的個人信息就可以開始工作。
為了搞清楚Mechanical Turk到底是怎么工作的,我們也注冊了一個賬號。
在Mechanical Turk的開始頁面,有各種奇奇怪怪的任務。這其中包括“標注廚房里的事物”,“找出電子郵件地址和發件人名字”,“給圖片中的物體勾線”等等。
每個任務中包含若干個被稱為HIT(人類智能任務,Human Intelligence Task)的小任務,標注員每完成一個小任務可以獲得相應的報酬。
其中最便宜的一個是給圖片中的建筑分類,判斷這個小樓是屬于拉丁裔、亞裔還是中東人。每完成一個可以獲得1美分(約7分人民幣)報酬。
而最貴的一個,是找一位中文母語者按要求錄150句中文,可以獲得6美元。
除了這些簡單易懂,點一下鼠標就能完成的任務,在Mechanical Turk上還有更多高要求的標注工作。
比如,有一個任務要求標注者看10秒鐘視頻,并用一句話描述視頻里的內容。
在描述時,不能出現拼寫和語法錯誤,也不能加以主觀臆斷,在囊括所有重要內容的同時又不能描述太多不重要的細節。
而實現這么一個高要求的任務,發布者只需要付出0.3美元賞金。
建議家長拿這個玩意兒訓練小朋友寫英語短句
盡管任務復雜報酬低廉,Mechanical Turk上的任務還是供不應求。一些低要求的工作被放出來不到十秒,就被搶光了。
截至2011年1月,Mechanical Turk上的注冊工人數量已經達到了50萬,在這些人的幫助下,有無數資金不充裕的人工智能研究得以實現。
此外,在網站輸入驗證碼時,其實我們也在順便做數據標注,只不過得不到報酬罷了。
比如這種標出路牌的驗證碼
而其實,Mechanical Turk(直譯為機械土耳其人)的名字早就劇透了人工智能訓練的本質。
1769年,初代Mechanical Turk的發明者——匈牙利機械師沃爾夫岡•馮•肯佩倫制造了一個“能戰敗人類”的下棋木偶。
這個“智能”木偶在歐洲和美洲幾乎戰無不勝,連拿破侖一世和本杰明•富蘭克林都成了它的手下敗將。
然而直到1857年,《國際象棋月刊》才揭露,其實傀儡里坐了一個象棋國手。
而電腦屏幕背后的人,又和機器里坐著的象棋國手有什么區別呢?
2.和專業人士合作
眾包模式固然有種種優點,但它的缺點也是致命的。
當我向一位Google工程師朋友提起Mechanical Turk的時候,他表示“我們不敢用Turk 標注”。
因為眾包模式,通過Mechanical Turk標注的數據良莠不齊,花錢標注已經花了大功夫,整理和“清洗”數據又要浪費很多時間。
尤其對于很多專業領域來說,普通人根本無法完成數據標注。
比如這種,你能告訴我哪個是有病變的嗎?
2017年,Google AI公布了一項突破性研究成果:通過機器學習技術,AI能夠從病人的視網膜眼底照片中自動診斷出潛在的病變情況,來提前發現糖尿病性視網膜病變,進行及時的治療和預防,讓患者保住視力。
但想要教會AI什么是正常的眼底照片,什么是有潛在病變的眼底
CES,這個過程并不容易。
為了獲得高質量的標注圖片,真正讓AI的診斷水平達到執業醫師的同等標準,Google與印度和美國的眼科醫生合作,創建了含有12萬張圖像的開發數據集,再由3到7名眼科醫生聯合評估圖片中的病變。
最終,共計54名醫生從這些視網膜眼底照片素材中標記出超過88萬個確診癥狀。
這些圖片和標記全部被用來訓練深度卷積神經網絡,最終使得AI的診斷準確率逼近甚至超越了醫生。
在Google Brain參與另一個與壽命預測相關的項目的工程師Steven Zhan告訴我,他們的數據集標注工作基本無法眾包,都是交給醫生來完成的。
雖然在未來,AI很有可能發展到“自己教自己”這一步。
但目前為止,大部分的數據標注工作都是由真人完成的。這個工作不像大家想象的那么簡單,而是充滿了復雜的判定和繁瑣的重復。
而隨著人們對數據的需求越來越高,也有越來越多的人開始靠標注數據為生。
皮尤研究中心預測,這種零碎的數據標注工作將在未來幾年內成為美國經濟的重要組成部分。
在2016年,有大約5%的美國人通過Mechanical Turk這樣的在線標注平臺賺錢——這個數量已經超過了優步司機。
在可見的未來里,人類還將繼續為人工智能打工。
在中國如此,在美國也一樣。
杰創網絡科技,