計世網

AI將如何發展?吳恩達邀請業內大咖進行了預測
作者:機器之心編譯 | 來源:deeplearning.ai
2020-01-03
終于,我們開啟了 2020 年的進度條,在新的一年里 AI 領域將會有怎樣的發展?我們需要聽聽各位學界大牛的預測。

 

終于,我們開啟了 2020 年的進度條,在新的一年里 AI 領域將會有怎樣的發展?我們需要聽聽各位學界大牛的預測。

Coursera 聯合創始人、斯坦福大學副教授吳恩達創辦的 deeplearning.ai 剛剛發布了最新一期文章,其中不僅有周志華、Yann LeCun 等人對于新年 AI 發展趨勢的預測,還有著名學者們對于整個研究社區的期許。

新年快樂!

每個元旦假期,我都會圍繞一個新主題展開學習。今年我和家人一起度過了這幾天,也看了很多書。

在十年以前,我的年度學習目標還是教學方法——我仍然記得自己拖著沉重的書箱去機場——這些努力在 Coursera 成立初期起到了非常重要的作用。去年,在 Nova(譯注:吳恩達的女兒)出生之前,我看了很多有關育兒保健的書。

今年我在關注表觀遺傳學的最新進展。

對抗年齡增長的科學(有時候是偽科學)。

我還拜訪了自己 101 歲的祖父,告訴他我正在讀書,他和我說保持好奇心是長壽的關鍵。

如果他是對的,我覺得很多讀者們都可以開心地活到 101 歲!

祝你有一個完美的 2020 年,用好奇、學習和愛填滿它。

不斷學習吧!

Andrew

對于 2020 年的期望

我們進入了前程似錦的新十年,機器學習已經在傳統工業和制造業中展現了自己的實力。不過我們還面臨著一些重要問題,比如如何在保護隱私的情況下收集數據,避免草率的系統設計,在到達現有技術的極限之前找到另一個突破口。

在本文中,Deeplearning.ai 邀請了很多 AI 領域里最著名的學者,讓我們看看大牛們對于新年的展望:

Anima Anandkumar:模擬器的力量

英偉達機器學習研究部門主管、加州理工學院計算機科學教授 Anima Anandkumar。

深度學習在有標記數據的情況下取得了很大成功?,F在我們需要探索其他的學習方法了:訓練未標注的數據,終身學習,特別是讓模擬環境中學到的知識遷移到現實世界中來。在 2020 年,我希望能夠看到更多這方面的研究。

高度仿真的模擬環境可以讓我們更有效率地訓練和測試算法,構建更加魯棒、更有適應型的網絡。大多數情況下,在虛擬環境中獲得的訓練要比在真實世界中多出很多倍。我們可以在模擬環境中重現現實世界中很少出現的危險情況。

例如我們開車時,事故極少發生。在這樣的情況下即使行駛數萬英里也很難讓 AI 有所進步。如果你只在真實世界數據中訓練自動駕駛汽車,它們就無法學會如何應對各種事故。但在模擬器中,我們可以生成各種變化,為模型找到現實世界中各種可能性的數據分布,這樣才能讓機器更加安全。

最近,模擬器已經幫助我們在強化學習中獲得了驚艷的效果,這是非常耗費數據的。但如果研究人員只有少量真實世界的數據,模擬在監督學習中也非常有用。比如地震是罕見且難以測量的自然現象。加州理工學院地震實驗室的研究人員使用一個簡單的物理模型來生成代表這些事件的綜合數據。通過訓練合成數據,深度學習模型達到了在真實世界的地震中準確預測地震的 SOTA 水平。

在英偉達,我們一直致力于開發強大的模擬器平臺,如面向自動駕駛汽車的 Drive Constellation,面向機器人的 Isaac。這些開放、可擴展的環境能夠使模型在具有真實世界物理學設定的環境中進行訓練。

我希望能有更多的 AI 科學家認識到模擬環境以及監督學習之外方法的重要性。這將會讓 2020 年成為 AI 獲得重要進展的一年。

Oren Etzioni:更高質量的工具

華盛頓大學計算機科學教授、Allen 實驗室 CEOOren Etzioni。

我希望在 2020 年,AI 社區能夠真正地讓弱勢人群從新技術中受益。

我們花費了很多時間討論算法的公平和透明,這是必不可少的工作。但這是開發具有切實影響的軟件工具的必經之路。AI 系統必須要有提升人民生活水平以及解決一些社會重要挑戰的能力。

想象一下坐著輪椅的人使用手機導航,卻看到面前是樓梯的情況。如果用戶無法自定義導航軟件,即使是最先進的導航算法也會遇到嚴重挑戰。

現有技術可以為行動不便的人提供支持,比如 AccessMap,這是華盛頓大學 Taskar 中心的一個項目。但我們其實還可以做到更多。值得慶幸的是,我們生活在一個大多數內容都「觸手可及」的時代。

無障礙化、教育、無家可歸、交通堵塞——AI 可以在各個方面顯著提高人類的生活質量。到目前為止,我們還只是涉及表面。在剛剛到來的一年里,讓我們深入探討這些問題吧。

Chelsea Finn:構建更具泛化能力的機器人

斯坦福大學計算機科學和工程系助理教授 Chelsea Finn。

現在,AI 社區過多地關注一些浮華的研究成果,如贏得圍棋等游戲比賽的智能體。就復雜度而言,這類研究工作令人印象深刻。但很容易忽略了智能應用的另一重要評估軸:泛化性,即處理各種任務或者在各種情景中運行的能力。所以在 2020 年,我希望人們可以構建更具泛化能力的模型。

在監督學習領域,在包含 1400 萬圖像的 ImageNet 數據集上訓練圖像識別器可以實現一定程度的泛化能力。在強化學習領域,模型通過與虛擬環境交互以及收集數據來學習。為了構建一定水平上的通用技能,人們習慣于將模型在 ImageNet 數據集上訓練,所以需要為每個新模型收集 ImageNet 規模的數據集,但顯然這是不現實的。

所以,如果我們想要通過強化學習訓練的系統具有泛化能力,則需要設計能夠從離線數據集中學習的智能體。此外,就像 ImageNet 數據集圖像數量從最初的 100 萬增加到 1400 萬一樣,現有的這些數據集也需要隨時間推移而擴展,從而適應現實世界的變化。

這種情況正開始發生。例如,機器人可以通過學習包含自身交互行為的數據集以及人們操控機械臂的演示,來想出如何使用新的物體作為工具。我們也可以做到充分利用來自其他機構的數據。

因此,在 2020 年,我希望強化學習中的泛化性能能夠迎來重大進展。如果能夠解決這些挑戰,機器人將可以在現實世界中更加地智能化,而不只是在實驗中做一些看似智能的事情。

Yann LeCun:從觀察中學習

紐約大學計算機科學教授、Facebook 副總裁兼 AI 首席科學家 Yann LeCun。

通過 20 個小時的練習,很多人就能夠學會安全地駕駛汽車,而對于現在的模仿學習算法來說卻需要幾十萬個小時,而強化學習算法要花費數百萬個小時。這是為什么呢?我們顯然忽略了一些重要的東西。

人類可以高效地學習,因為我們的頭腦中已經搭建起了關于世界的模型。嬰兒時代的我們幾乎無法與世界互動,但在生命最初的幾個月中,我們吸收了大量的背景知識。顯然,我們大腦的很大一部分是用來了解這個世界的構造,然后預測那些將在未來發生、我們可能無法直接觀察到的事情。

這表明,AI 的發展方向是自監督學習。它類似于監督學習,但不會訓練系統去將數據示例映射到分類。比如,我們遮蓋了視頻的某些幀然后訓練機器去填補那些丟失掉的片段。

近來,這種方法在自然語言理解方面取得了成果,比如像 BERT、RoBERTa、XLNet 和 XLM 上都是用自監督的方式進行訓練,用來預測文本中缺失的單詞部分。諸如此類的系統在主要的自然語言基準中都保持著訓練記錄。

2020 年,我希望這樣的變革也會發生在視頻和圖像領域,自監督方法可以用來學習視頻和圖像的特征。但目前看來還存在一些挑戰,其中一項嚴峻的挑戰是如何應對不確定性,像 BERT 這樣的模型無法判斷句子中丟失的單詞是貓還是狗,但是它們可以生成一個概率分布向量。

在視頻或者圖像方面,我們還沒有一個好的模型,但近期的研究預示著我們已經接近成功了。在訓練樣本很少的視頻方面,想要實現很好的預測,這之前壓根是不可能的。所以 2020 年將會成為非常激動人心的一年。

李開復:AI 無處不在

創新工場董事長兼 CEO 李開復。

眼下,AI 已經從「發現」階段過渡到了「落地」階段。在我們所投資的中國的公司和團隊中,可以看到 AI 和自動化技術正在銀行、金融、交通、物流、超市、餐廳、倉庫、工廠、學校和藥品等各個領域開展廣泛的應用。

但從整體經濟的層面去觀察,只有一小部分企業開始應用 AI 技術,所以還存在很大的增長空間。

我相信 AI 會像電一樣,在技術進步的歷史上留下濃墨重彩的一筆。在接下來的十年或者二十年,AI 會將滲透到個人生活和企業生產中,提供更高效和更智能的體驗。如今,正是企業充分擁抱 AI 技術并推動社會前進的時候。

我個人對健康和教育領域的 AI 技術應用非常感興趣,這兩個領域已經準備好接受 AI 技術的洗禮。

我希望在 2020 年之后,更多的企業能夠充分地應用 AI 技術。

David Patterson:更快的訓練和推理速度

加州大學伯克利分校計算機科學教授,圖靈獎得主 David Patterson。

在 AI 硬件領域投入的數十億美元將在 2020 年初見成效。

2017 年,谷歌因 TPU 研發投入了巨額成本。在過去的一年中,來自阿里巴巴、Cerebras、Graphcore、Habana 以及英特爾的 AI 處理器都處于籌備階段。這些新型芯片會慢慢走進研究實驗室和數據中心。我希望整個 AI 行業能夠歡迎這其中的表現優異者,推動該領域朝著更好的模型和更有價值的應用方向發展。

機器學習工程師如何判斷新的代替方案是否比傳統 CPU+GPU 方案具備更強的性能呢?

計算機架構是根據曲線而不是絕對比例進行分級的。為了適應不同計算機的尺寸,我們通過價格、功率和芯片數量實現性能的歸一化。參賽者選擇一組具有代表性的程序作為基準,相比于其中的某個項目,眾多項目的平均分數可能更具代表性。

MLPerf 是一個最新的機器學習基準,由來自 50 多家公司和 9 所大學的代表聯合創建。它包括用于測試推理和訓練的程序、數據集以及像精確度目標和超參數值一些重要的細節。這個基準每三個月會更新一版。

Richard Socher:自動摘要生成將迎來大發展

Salesforce 首席科學家 Richard Socher。

在網絡時代,人們只要在搜索框里輸入幾個字,即可以找到自己想要的人類知識。但是,不同的人會有不同的觀點和看法,也會出現不一樣的事實,對它們的管理依然面臨著挑戰。人們很難從冗長的文件中快速找出關鍵信息,并且也很難確定這些信息是否正確。

自動摘要生成對解決這些問題能夠提供很大幫助,但卻是自然語言處理領域最難解決的任務之一。所以 2020 年,自動摘要生成將迎來重要的進展,進而改變人們消費信息的方式。

我們正在努力解決這些問題。舉例而言,研究者利用 ROUGE 分數來評估自動摘要生成的效果,并發現基于神經網絡的摘要生成器雖然出現錯誤,但 ROUGE 分數依然很高。此外,我們推出了一個模型,它可以容易地檢查源文件和摘要之間的事實一致性。我們還提出了一個指標用以評估摘要生成器生成的摘要是否具有事實一致性。

所以這些研究令我堅信在 2020 年,自動摘要生成以及其他自然語言處理領域會迎來巨大的發展機遇。此外,這些期望發生的進展不僅可以幫助人們應對泛濫的新信息,而且可以促使 AI 創造一個更美好的世界。

宋曉東(Dawn Song):建立可靠的數據經濟

2019 ACM Fellow、UC 伯克利計算機系教授宋曉東(Dawn Song)。

眾所周知,數據集對 AI 和機器學習而言至關重要,它們也成為了經濟發展的主要驅動力。敏感數據的收集正快速增長,覆蓋了人們生活的方方面面。但就目前的數據形式而言,數據收集將個人和企業置于風險之中。因此,我希望 2020 年人們可以構筑起可靠的數據經濟的根基。

當今時代,用戶幾乎不清楚如何使用和控制生成的數據,人們可以分享和販賣各種各樣的數據。這些行為往往侵犯個人隱私,甚至會危及國家安全。隨著人們越來越意識到這些問題,他們對自己使用的數據服務漸漸失去信任。與此同時,企業和研究者在利用數據的過程中也面臨大量的挑戰,如大規模的數據違規使用、各種數據保護和消費者隱私法規的制定和實施以及數據孤島等。

所以,若想建立可靠的數據經濟,則需要開發新技術、新規則和商業模式。所有這些的宗旨是通過安全計算、審核技能和機器學習來為數據擁有者(個人和企業)提供可靠的數據保護和管控。但是,機器學習領域依然面臨更大的挑戰。所以在 2020 年,我們應該繼續深耕隱私數據分析和機器學習技術,構建可擴展的系統,從而利用大型異構數據集進行實際部署。

聯邦學習的進一步研究和部署對某些用例而言也非常重要。此外,有限和噪聲數據中魯棒性學習的進展也有助于在不侵犯隱私的前提下實現機器學習用例的長尾效應。最后,我希望技術人員、企業家、監管者和 AI 社區可以同心協力,為構建真正可靠的數據經濟做出各自的貢獻。

周志華:新方法、明確的指導方針

南京大學計算機科學教授、人工智能學院院長、ACM Fellow 周志華。

對于 2020 年,南京大學計算機科學和 AI 教授周志華寄予以下三個期望:

其一,希望可以出現超越深度神經網絡的高級機器學習方法。大量研究者、工程師和從業者已經對神經網絡進行了長時間的研究和運用,而其他機器學習方法可以提供新的、未探索的技術創新空間;

其二,希望 AI 可以落地到更多領域,并對人們的日常生活帶來積極的影響;

其三,希望可以更多地思考和探討 AI 研究者、工程師和從業者必須采取哪些措施才能防止 AI 錯誤的發展或 AI 技術的濫用。

責任編輯:焦旭