亞馬遜 CTO Werner Vogels 在這幾天於香港會展中心舉辦的 Rise Conference 現場發表了關於機器學習的演講,在這位 AWS 主架構師的眼裡, Maching Learning 的時代無疑已經來臨 。
他表示,亞馬遜內部已使用機器學習多年,包括嘗試過濾商品下方的垃圾評論、通過註冊姓名來辨別用戶的男女性別,以及訓練分揀機器人對不同形狀物品的判斷能力,以便能在陌生物品出現時進行抓握動作等。而亞馬遜 AWS 的許多大客戶(如社會活動網站 Change.org),都要求亞馬遜提供更多的機器學習功能。
因此,今年 4 月亞馬遜 AWS 雲服務家族宣布新添加這名新成員——Amazon Machine Learning。它是一項全面的託管服務,開發者無需具備任何機器學習經驗,就能輕鬆使用歷史數據開發並部署預測模型。有了它,AWS 開發人員能更容易地從他們託管系統收集到的大量事務性和操作數據中挖掘價值。這些模型用途廣泛,包括檢測欺詐、精準營銷、個性化推薦、文檔管理等。
Werner Vogels 介紹說,通過使用亞馬遜的機器學習技術,在沒有任何機器學習經驗的前提下,單個開發者可以在 20 分鐘內解決之前需要兩名開發者花費 45 天才能解決的問題,並且所建立的模型同樣能夠實現 92% 的精確度。
在以前的機器學習似乎是陽春白雪,只有大公司和尖端高校實驗室才能玩得轉。有這麼一群人,他們的夢想是使機器學習技術變得下里巴人,讓人人都能用機器學習。他們分佈在兩類從事機器學習技術研發的公司:
提供機器學習技術平台
機器學習 API 提供者
工程師們的一句口頭禪就是「不要重複造輪子」,意思是告誡工程師們應該把主要精力放在滿足需求上。但這句話不是絕對的,對於專業造輪子的工程師來說,造牛逼的輪子就是他們的需求。第一類公司的工程師就是專業造機器學習輪子的人們。據我所知,目前世界成熟的第一類只有 Databricks 和我們之前報導過的 Dato 兩家,Petuum 剛剛進入商業版本開發階段。
這類公司有兩個優勢。一是研製機器學習技術平台需要極高的技術水準。雖然 Google、Facebook 以及中國的百度都有自研的機器學習系統,但都沒有對外公開。二是機器學習技術平台有很廣泛的應用,不管是面對企業提供 API 或者數據分析服務的公司,還是面對消費者提供智能服務的公司,都需要一個高效的機器學習技術平台。因此這種提供基礎設施的領域有可能產生新的巨頭,就像網絡時代產生了思科網絡設施巨頭一樣。
但這類公司也有隱憂。機器學習領域和誕生思科的硬體領域有一點不一樣,機器學習領域存在牛逼的技術開源項目。目前 Spark 和 Storm 兩個開源系統各方面都比較完善,對第一類公司成長為巨頭構成威脅。除了通用型的開源機器學習系統,還有特定用處的開源項目,比如用於深度學習的 Caffe、用於自然語言處理的 Stanford CoreNLP 以及數據預處理可視化的 Pandas。
這類公司並不是直接面對普通開發者,而是方便公司裡的工程師們搭建大規模機器學習平台,讓那些無力研製機器學習系統的公司也能方便地使用高效的機器學習。第二類提供 API 的公司是直接面對普通開發者的。
第二類公司提供機器學習的 API。如果 API 有心願,那麼這個心願一定是「調用我(Call Me)啊」。機器學習的 API 也分兩類,一類是用公司自己收集的訓練數據訓練好的模型。比如 AlchemyAPI 提供的情感分析 API,只需要用戶提供文本或者文本的鏈接地址,就會返回該段文本蘊含正面情緒還是負面情緒。
另一類是需要用戶提供自己的數據訓練 API。比如 Face++ 的人臉識別 API 就需要用戶自己上傳不同人物的照片。當然很多公司同時提供這兩種 API。更妙的是,有些深度學習模型,比如適合處理圖像的捲積神經網絡,允許先用公司收集的大規模訓練數據進行訓練,再根據用戶提供的數據進行微調。
有了這些 API,開發人員需要做的事情包括:
1)處理好自己的數據
2)將處理好的數據扔給 API 得到結果
3)對於需要預先訓練的 API,還需要整理一份有正確答案的訓練數據給 API 訓練。
開發人員利用這些 API 可以很方便地將機器學習運用在自己的產品中。
除了 創業公司,巨頭們也開始涉足這個領域,比如 Google Predict API, Amazon Machine Learning 和微軟的 Azure Machine Learning 等等。
這兩類的公司都致力於讓機器學習的使用變得簡單。 MetaMind 公司創始人 Socher 這樣描述他創立 MetaMind 的初衷,「Google、微軟和 Facebook 的研究會影響到許多人。但是我感覺,如果你把這些模型提供給其他公司或者個人,讓他們去研究,那麼還有許多的潛力可挖。」
為了提高易用性,MetaMind 甚至允許用戶使用拖拽方式訓練模型和獲取模型的預測。
除了 上面兩類技術導向型公司,大量公司是利用機器學習技術整合應用,來解決更多實際的痛點。機器學習的門檻降低,利用機器學習技術整合應用的難度會大大降低。比如有工程師在網上貼出了如何利用 Clarifai 圖像物體識別 API 和 Algolia 搜索 API 給自己的 Instagram 照片建立檢索系統。未來我們能見到更多集成了機器學習的酷炫應用。
機器學習產業的前進靠兩個輪子,一個是技術,一個是數據。機器學習的使用門檻下降之時,對於大部分公司來說,誰能夠收集管理更多的數據,誰擁有更好的開發數據價值的意識,誰就能為人們提供更好的智能服務,更好地解決人們的痛點。
(本文轉載、合併自合作夥伴 《36Kr》1 、 《36Kr》2 ;未經許可,不得轉載)