第四範式公有雲 實現AI轉型只需30天
2024-07-28 19:51:45 1
2016年11月18日,人工智慧代表企業第四範式在第三屆世界網際網路大會上,發布了國內首個支持部署在多公有雲上的人工智慧應用開發平臺——第四範式?先知公有雲版(以下簡稱「先知公有雲版」)。先知公有雲版面向不同階段網際網路公司,它聚合了先進的AI技術以及「部署即可用」的公有雲產品形態,利用先知公有雲版完成AI業務應用僅需一人月。第四範式希望以一種網際網路思維,為網際網路公司提供構建專屬人工智慧系統的能力。
專為機器學習而生的計算框架:極致運行速度、超高模型維度
區別於普通大數據應用,機器學習的計算任務具有小批量、多步迭代、通信頻繁、邏輯複雜等特點,傳統的 ETL式 計算並不能夠滿足機器學習計算任務的要求。為此,第四範式的科學家們開發了專為機器學習而生的計算框架——先知公有雲版核心框架GDBT(General Distributed Brain Technology),GDBT在計算、通訊、存儲、災備等方面針對機器學習任務進行了深入優化,兼顧了開發效率和運行效率。
GDBT計算框架最主要的特點是對分布式支持數據並行化和計算並行化,即通過優化算法和機制,實現了機器與機器之間的協作而不是簡單地分工,以減少無效的數據傳輸過程。實際結果表明,在3000萬條大數據環境下,GDBT的速度較Spark提升416 倍,幫助用戶節省了99.76%的數據處理時長,而隨著數據量的增大,GDBT的這一優勢會更加明顯,當數據量大到其它開源工具已無法工作的時候,GDBT的計算時間依然呈線性增長。
其次,GDBT計算框架能夠同時支持連續、離散這兩種數據的融合訓練,將描述事件的特徵由幾十個提升至上百億之多,保證模型可以充分利用對某件事情產生影響的最多特徵數量。眾所周知,高維度機器學習是機器學習的發展方向,人工智慧巨頭公司正在使用足夠多的特徵、更複雜的模型來提升AI的行業應用效果。但對於普通網際網路公司來說,高維度的模型意味著巨大的資源與人力投入,因此不得不在效果和成本之間進行取捨。而專為機器學習而生的GDBT計算框架,能夠實現超高維度的機器學習模型,將只有巨頭才能擁有的萬億級特徵量模型分享到每一家網際網路公司,並能成熟應對巨大模型上線的工程挑戰。此外,得益於優秀的模型效果,先知公有雲版對數據量的要求驚人地降低到十萬級別,讓小數據也能產生強人工智慧,這也是先知公有雲版的核心優勢所在。
豐富的應用場景:助力大部分網際網路企業用人工智慧創造未來
網際網路公司最常見的業務場景,個性化推薦位居其一。以個性化推薦業務為例,利用先知公有雲版搭建AI系統只需完成幾個步驟。首先要定義問題,比如該模型是為了解決預估用戶點擊量或者是閱讀時長等問題;在明確目標和所需數據後,便可以基於先知公有雲提供的API進行數據閉環搭建,啟動數據採集過程;用戶也可以直接上傳已有歷史數據。因為先知公有雲版擁有專利級的免清洗算法技術,對無效數據的容忍度極高,所以能夠節省80%的數據處理時間;在此之後先知公有雲版開始自動完成只有AI專家才能攻克的任務——算法調優和模型評估,並能夠一步部署完訓練好的模型、供業務使用。最後,先知公有雲會建立完整的數據鏈路,讓數據從線上到線下流暢地運轉,幫助模型實時接收反饋、不斷變強。可見,先知公有雲版的使用步驟非常智能,目前的門檻只需充分理解業務與目標、並擁有一定量的數據。值得一提的是,日常使用中公有雲版自帶運維,進一步為網際網路企業節約巨大的維護成本。
除了個性化推薦之外,先知公有雲還適用於精準營銷、風險管理等眾多網際網路應用場景,在實踐中幫助企業贏得了優異的終端用戶體驗和更強的收益能力。
零門檻的機器學習平臺:封裝頂尖AI專家能力、高效構建AI系統
機器學習是一項新興技術,擁有專業背景知識與研究經驗的人才非常稀缺,而想要培養一個合格的AI人才需要6-10年。因此很長一段時間,人工智慧都是巨頭的獨舞。與此相對的,是目前層出不窮的各開源工具,這些開源工具看似高效先進,但實際上,一個背景知識紮實的人使用起來都比較困難,需要完成大量學習、開發、試錯的工作,這本身就是一個較大的門檻。
先知公有雲版的開發目標,是讓沒有相關背景的人也可以創建出工業水準的機器學習模型,極大地降低人工智慧的應用門檻,基於此,先知公有雲版提供非常易用的操作方式。一方面,先知公有雲版通過容易理解的交互界面來建模,保證普通的業務人員都可以理解每一個步驟。另一方面,先知公有雲版通過更靈活的部署方式,提供的一鍵部署到雲端的實時預估服務,穩定無縫地嵌入到客戶的業務系統中,且無需人工幹預。
第四範式希望藉助於先知公有雲版,未來的網際網路公司不需要花費高昂的人力成本去爭搶稀缺的AI人才,不需要花費巨大的代價從0構建AI基礎設施,也能參與人工智慧時代的進程,分享人工智慧的價值,共同實現「AI for everyone」的最終目標。