上面是一段實時目標(biāo)識別的演示, 計算機在視頻流上標(biāo)注出物體的類別, 包
括人、汽車、自行車、狗、背包、領(lǐng)帶、椅子等。
今天的計算機視覺技術(shù)已經(jīng)可以在圖片、視頻中識別出大量類別的物體, 甚
至可以初步理解圖片或者視頻中的內(nèi)容, 在這方面,人工智能已經(jīng)達到了3 歲兒
童的智力水平。這是一個很了不起的成就, 畢竟人工智能用了幾十年的時間, 就
走完了人類幾十萬年的進化之路,并且還在加速發(fā)展。
道路總是曲折的, 也是有跡可循的。在嘗試了其它方法之后, 計算機視覺在
仿生學(xué)里找到了正確的道路(至少目前看是正確的) 。通過研究人類的視覺原理,
計算機利用深度神經(jīng)網(wǎng)絡(luò)( Deep Neural Network,NN)實現(xiàn)了對圖片的識別,
包括文字識別、物體分類、圖像理解等。在這個過程中,神經(jīng)元和神經(jīng)網(wǎng)絡(luò)模型、
大數(shù)據(jù)技術(shù)的發(fā)展,以及處理器(尤其是GPU)強大的算力,給人工智能技術(shù)
的發(fā)展提供了很大的支持。
本文是一篇學(xué)習(xí)筆記, 以深度優(yōu)先的思路, 記錄了對深度學(xué)習(xí)(Deep Learning)
的簡單梳理,主要針對計算機視覺應(yīng)用領(lǐng)域。