2015年12月11日至12月18日,第14屆頂級國際電腦視覺大會(ICCV)在智利舉辦,Viscovery創意引晴首席科學家陳彥呈博士遠赴智利參會,以下為陳博士分享的大會關於電腦視覺的最新進展,文章首發於虎嗅網。

作者:Albert Chen, Ph.D.(機器視覺專家/ Viscovery首席科學家)

自拍美圖、人臉識別、無人駕駛……很難說電腦視覺還高冷地無人知曉,其實它早已潛入日常生活中。40年前,這項與機器人本為一家的技術,一度因識別精准率過低被嫌棄,緊追猛趕後,如今終於回到與機器人並駕齊驅的高尖水準。

最新的電腦視覺進展到什麼程度?

2015年12月13日,烏鎮世界互聯網大會舉辦前夕,第14屆國際電腦視覺大會(ICCV)在南美智利舉辦,這場2年一屆的頂尖盛會,展示了這一領域的最近突破。本屆ICCV被微軟亞洲研究院搶走了頭條。他們的視覺計算組研發出全新深度學習方法,具備152層類神經網路,比原先多出132層,即用同樣的百萬比資料就可以訓練出深層的類神經網路。這些最先進的深度學習類神經網路,能將照片中的車、房、人、物……等等一千類物件精准地識別出來,平均錯誤率從幾年前的動輒50%,到今年已經降到3%,已可接入實際應用。

華人自古以來的圖像情節

ICCV頭條中的“亞洲”字眼非常醒目,實際上微軟這項里程碑式成果的發明者全是中國人。如果這還無法證明電腦視覺的世界版圖正向亞洲遷移,來看下一項證據。

ICCV通常在北美、歐洲等技術發達的國家舉行,今年的大會贊助商名單中竟出現了不少華人企業身影,商湯科技、百度、Viscovery創意引晴,漢字在贊助榜上快佔據半壁江山。除了在世界頂尖國際會議上越發活躍之外,中國的電腦視覺學者也藉由區域型會議如ACCV,以及國內計算視覺大會CCCV、RACV,凝聚了大量的政、商、媒體、學界的焦點與資源。

過去十年,華人在電腦領域的分量和影響力逐年增加,相關學者越來越多,我在美國讀博士班的時候,教授就很好奇,“為什麼你們華人對電腦視覺特別感興趣?”我回答說,“因為我們的文字就是從象形文字開始,本身從圖像延伸來的,看文字就像在看圖像一樣。”

中國很多面孔雖沒有去國外念過博士,但卻在這個領域越來越有影響力。微軟亞洲研究院的首席研究員孫劍博士,正是此類人物。近年來藉由“阿里雲”的“天池”平臺舉辦的各項競賽,包括剛剛舉辦完的“淘寶穿衣搭配演算法競賽”與“阿里大規模圖像搜索大賽”,也都説明中國在圖像識別研究走在於世界的最前面。

五年前,中國電腦視覺的市場還小於美國,現在,兩國做電腦視覺的新創公司數量已旗鼓相當。如果碰上合適的具體市場應用,過幾年很有可能超越美國,且成為贏家通吃的局面,就像以色列的MobileEye獨佔全球的“車輛撞擊預警系統”一樣。

中國獨特的市場需求:視頻+廣告

電腦視覺雖未迎來里程碑式的巨大風口,但一個接一個的小風口從未斷過。90年代人臉偵測成熟之後,現在所有的相機都可以框出人臉。下一項成熟的技術,人臉識別,還可以精准識別誰是誰。現在從臉書上傳照片,會自動匹配好所有好友的標籤,非常方便。在安防領域方面,全球有幾十家數得上的智慧監視系統廠商,可以輕鬆監測畫面中的人物移動。

目前大家搶著要解決的,是如何提升影像中物件識別的準確度。一旦可以輕易知道畫面中存在的人物、物件、場景,就能用增強現實做遊戲(AR)、監測自動駕駛的環境等等。中國的巨頭BAT都在做電腦視覺應用。阿里舉辦商品識別大賽,第一年就推出了一百萬商品做識別,但像同款女裝識別還比較困難,受材質、穿著者身材影響,沒法直接商品化應用。騰訊有自己的視頻服務,有自建團隊做視頻中商品識別、廣告關聯,從頭吃到尾。百度有無人駕駛、雲平台、圖像搜索等。

眾多可商業化應用中,“視頻(影片)內容關聯廣告”是中國獨創於世界的特色市場。這塊技術比YouTube早跑了兩年,不同於YouTube一家獨大,中國至少有十家企業競爭,都是賠錢在搶市場。阿里和優酷、騰訊、愛奇藝、搜狐等視頻大佬,都開始鑽研基於視頻內容識別的關聯廣告,即邊看邊購物體驗。

現在看視頻時接觸的各類明星同款商品推送,已經是深淺不一的機器視覺技術。觀賞綜藝節目時,隱藏在螢幕背後的機器腦“看到”你喜愛的明星和商品,在網路海洋中幫你挖出他的八卦,同款鞋子、手機。這就是智慧化的視頻內容辨識,用機器取代人眼、人腦,識別甚至肉眼無法認知的物件紋路、形狀、商標,用大資料技術做到更相關的商品、知識資訊匹配推送。雖然各公司還在摸著石頭過河,但這塊應用做好則用戶與商家皆大歡喜。

機器視覺的未來

電腦視覺的未來何去何從?這塊領域的大佬、加州伯克利大學的Jitendra Malik教授,十年前就斗膽預測了未來十年電腦視覺的重要發展,如今驗證了他的大部分預測都是對的。在今年的ICCV大會上,Malik教授又做了十大方向的預測,結合場景的語義分析就是其中重要一塊。未來物件識別還會持續推進,朝畫面中所帶訊息、不同場景下的情感和意義的識別發展。也許未來,機器視覺就成讀心專家,準備好迎接這位朋友了嗎?

文章轉載自虎嗅網 ,原文連結http://www.huxiu.com/article/135831/1.html