[筆記] 《What We See & What We Value?》- 李飛飛

李飛飛博士的團隊建立了一個名為 ImageNet 的資料集,在 2012 年的 ImageNet 挑戰賽中,奪冠團隊開發的 AlexNet 模型首次擊敗人類在圖像分類任務中的表現,這標誌著深度學習革命的開始,此後許多模型都以它為基礎和基準。

資料、計算、以及神經網路三者的發展引領了 AI 領域中的深度學習革命。未來 AI 的發展將持續受到腦科學和人類認知的啓發。

李飛飛博士分享了三個階段:

1. Building Al to See What Humans See

李飛飛教授提到跟人類一樣,視覺智能(Objective Recognition)是 AI 能自我學習的關鍵,但心理學家認為,要充分理解視覺場景,還必須考慮物體之間的關係。

李飛飛博士的團隊建立了一個名為視覺基因組的資料集(Action Genome),其中包含 10 萬張圖片,380 萬個物體,230 萬個關係,以及 540 萬個場景的文字描述,將他們的工作從靜態場景擴展到影片中,並建立了一個新的基準,它使用空間時間場景圖來表示動作的識別和少數鏡頭識別。

他們的模型可以依此進行零點學習(Zero-shot Learning),比如說馬戴帽子,即便這在現實世界的事物中真的很罕見,還是可以透過使用場景圖的構成關係性表示,擊敗了當時最先進的關係估計演算法。

2. Building Al to See What Humans Don’t See

然而,人工智慧也可以用來看到人類無法感知的東西。例如,人工智慧系統可以在人類難以識別的大型資料集中檢測出模式和異常情況。這種能力已被應用於醫療保健、金融和網路安全等領域,人工智慧演算法可以檢測到疾病、欺詐行為和網路攻擊的跡象,否則就不會被注意到。

3. Building Al to See What Humans Want to See

具身代理是實現(Embodied Agent AI)這步的關鍵,代理不僅能感知,還能在世界中行動。探索性學習和有內在動機的自我意識的代理是探索和學習的重要方法,這對於實現具身代理和複雜人類任務的機器人非常重要。

人工智慧也可以用來看人類想看的東西。透過分析視覺資料,人工智慧系統可以識別人類行為的趨勢、偏好和模式。這些訊息可用於個性化內容,建立有針對性的廣告,並改善各種應用的使用者體驗,包括電子商務、社交媒體和遊戲。

人工智慧已經徹底改變了我們 「看 」周圍世界的能力。無論是複製人類的感知,發現隱藏的洞察力,還是增強我們喜歡的東西,人工智慧都有可能改變我們體驗世界的方式。