在互聯網世界中,什么技術代表著人工智能被廣泛應用的未來?2012年12月22日,在以“推薦系統實戰”為主題的百度技術沙龍上,百度推薦與個性化部高級工程師們與來自亞馬遜、豆瓣網、清華大學等單位的技術專家們齊聚一堂,熱烈探討了個性化推薦領域的技術創新和實戰案例。
轉播到騰訊微博
百度技術沙龍現場
內容推薦系統:互聯網人工智能的潮流代表
目前主流的搜索引擎技術已經能夠較好地滿足用戶的主動表達的精確需求,而在挖掘并滿足用戶的潛在需求方面,則需要通過構建“推薦系統”來實現。實際上,隨著亞馬遜商品推薦、last.fm、Netflix、Pandora、百度推薦產品家族(百度視頻隨心看、百度音樂隨心聽、百度新聞新版客戶端等)、豆瓣電臺、優酷視頻猜你喜歡等內容推薦系統的興起,在全球互聯網市場,推薦系統已經成為炙手可熱的潮流新應用,代表著互聯網智能化的發展方向。
然而,建立大型內容推薦系統并不是一件輕松的事情。在系統的服務能力、算法的更新周期、交互和反饋的實時性方面,大型推薦系統都遭遇到一些獨特而有趣的挑戰。
當“大數據”遭遇“實時性”
鑒于推薦系統對提高用戶體驗的顯著作用,各家主要互聯網公司都投入巨資進行研究開發。伴隨著推薦系統的“軍備競賽”,一些幾年之前難以想象的怪獸級大型推薦系統被開發出來。這些系統具有龐大的規模,通常需要服務上千萬的活躍用戶、積累了PB級別海量用戶數據。如何將海量的用戶數據應用到實時的用戶交互中去以提高用戶體驗,成為了一個技術難題。
百度的工程師們分享了自身在Vortex流式計算系統和LISA實時索引架構上進行推薦系統開發的經驗。通過工程上的努力,推薦系統的更新周期從20小時縮短到5秒鐘,提速14400倍,由此用戶的轉化率提高了3倍。
思路創新:從推薦“系統”到可復用的推薦“引擎”
許多主流互聯網公司的推薦算法的更新周期從1個月到3個月不等,相對于搜索技術穩定的算法框架,推薦系統具有明顯的算法壽命縮短的跡象。其根本的原因在于推薦系統并不是基于相對靜態的內容數據,而是依賴動態的用戶內容互動來進行算法預測。不斷變化的用戶狀態和統計分布,導致不存在一種一統天下的推薦算法“銀彈”。這種動態的特性將對推薦系統的靈活性和成本控制的要求提高到了前所未有的高度。
針對這個問題,百度給出了自己的答案:那就是建立跨領域多媒體推薦引擎,同時支持多種內容推薦系統和推薦產品應用的構建,以大幅度節約成本、提升推薦效果。不同的推薦產品和子系統能夠復用同一套推薦引擎平臺,在用戶模型和內容模型上也可以泛化復用。每個推薦的產品都站在“巨人的肩膀”上,最大限度復用數據、算法、系統資源,避免重復發明輪子,同時也一定程度上解決了系統冷啟動問題。
由推薦系統向推薦引擎的變革,不僅可以攤低推薦系統工程成本,還可保障算法快速更新。此外,不同推薦應用共享數據,克服數據稀疏問題;推薦產品功能橫向打通,多領域立體滿足用戶需求。百度基于自身的推薦引擎平臺,在很短的時間內實現了電影推薦、資訊推薦、音樂推薦、視頻推薦、應用推薦、好友推薦等眾多功能,并在運營過程中不斷協同升級。
百度自身應用的典型案例如百度視頻隨心看。它通過推薦引擎實現了個性化電影推薦,采用了Item項目關聯和Ontology本體關聯復合技術,點擊率高于傳統列表頁數倍。
轉播到騰訊微博
另外是百度新聞。它通過機器學習用戶建模和本體關聯復合技術,實現了個性化資訊推薦和差異化競爭優勢。
轉播到騰訊微博
體系創新:構建互聯網內容推薦體系生態鏈
百度高級架構師現場透露,未來將在百度域內和百度域外同時推進推薦引擎的發展,形成有助于行業發展的良性生態鏈。
業內專家表示,百度推薦系統和推薦引擎相關的技術實力是處于世界領先水平的,而百度同時保持了一個開放的心態,向中國互聯網業界合作伙伴開放推薦引擎能力,支持國內推薦技術社區發展,是為行業之幸。互聯網內容推薦體系生態鏈的建立將極大推動中國互聯網的繁榮發展。