臉部辨識是著名的 CNN 應用

文:任苙萍 Anita Ren

接下來,讓我們用簡單易懂的方式,帶你認識CNN與RNN,並透過舉例,幫助你更快掌握它們的概念!

CNN是什麼?

CNN(Convolutional Neural Network,卷積神經網路),主要是用來處理圖片的。
簡單來說,CNN像是一位專門分析照片的偵探,可以從一張照片裡,找出關鍵的特徵,像是邊緣、顏色、形狀,然後進一步判斷這是什麼東西。

CNN的最大特點,就是它有一層又一層的「卷積層」(Convolutional Layer),這些層就像一個個放大鏡,幫助網路專注於圖片的不同細節。

舉個簡單例子:CNN如何認出一隻貓?
想像你給一個CNN模型一張貓咪的照片。


CNN 的執行步驟是:

第一層卷積層:抓出基本特徵,比如直線、曲線。

第二層卷積層:組合這些線條,形成像是耳朵、眼睛的形狀。

第三層以後:把這些組合成更高層次的概念,比如「這是一張貓咪的臉」。

最後分類:根據學到的特徵,判斷「這是貓」。

簡單說,CNN就像是一步步把小細節拼湊起來,最後組成完整的答案!

RNN是什麼?
RNN(Recurrent Neural Network,循環神經網路),主要是用來處理有時間順序的資料。
它和CNN最大的不同是,RNN可以記住前面的資訊,而且會影響到後面的判斷。

簡單來說,RNN就像是一個有記憶力的人,不只看到現在發生的事,還記得之前發生過的,這對處理文字、聲音、影片這種「一連串」的資料特別重要。

舉個簡單例子:RNN如何進行句子預測?
想像你輸入一句話:「我今天很…」

RNN 會依序:

先讀取「我」,建立一點初步理解。

再讀取「今天」,結合前面「我」的資訊,理解更完整。

然後看到「很」,這時系統已經累積了前面的資訊,推測接下來可能是「開心」、「忙碌」等形容詞。

最後根據所有累積的上下文內容,預測最合理的下一個字。

因此,RNN特別擅長做語音辨識、機器翻譯、聊天機器人這類需要「記憶前後文」的工作。

特徵CNNRNN
處理對象靜態資料(如圖片)時序資料(如文字、聲音)
記憶能力無(每次只看局部特徵)有(會記住前面的資訊)
應用範圍影像辨識、物體偵測、醫學影像語音辨識、文字生成、機器翻譯
重點特色抓細節、組合特徵理解時間序列、保持上下文邏輯


CNN的著名的應用範例有:

臉部辨識:手機解鎖時,利用CNN分辨你的臉。

自駕車影像辨識:自動車用CNN辨識紅綠燈、路標、行人。

醫學影像診斷:透過CNN分析X光片或MRI影像,找出異常部位。

RNN的應用範例則是:

Siri和Google助理:理解你說的話,並且回應適合的答案。

自動翻譯:輸入中文,自動翻譯成英文或其他語言。

自動寫作:像是AI自動續寫故事、完成詩歌創作。

如果是圖片、影像這類靜態資料,選CNN就對了。

如果是文字、聲音、時間序列這類連續資料,RNN才是高手。

了解這些基礎概念後,我們會更能理解AI世界的運作,也能更好地運用它們來打造出更多令人驚艷的應用!

#