您的位置:上海上港对辽宁宏运 > 科技觀察 > 科技資訊 > 正文

上海上港对武汉卓尔比时间:對話英特爾戴金權:從大數據到深度學習,BigDL幫助實現跨越

上海上港对辽宁宏运 www.ssqduf.com.cn 2018-07-09 22:35:23   原文來源:中國財經觀察報

科技行者 7月9日 北京消息(文/黃當當):英特爾在很多重要的AI會議,都會提到一個專業名詞——BigDL。沒錯,是英特爾自己造的詞。有趣的是,你可以將它拆分理解為Big Data+Deep Learning——大數據+深度學習,事實上,BigDL的目標正是降低普通大數據用戶在使用深度學習進行數據分析和構建人工智能應用的門檻。

作為AI民主化戰略的重要實踐之一,英特爾在2016年的最后一天,選擇將基于Apache Spark的分布式深度學習庫BigDL開源。目前,這一項目受到了京東、AWS、世界銀行等眾多行業用戶的歡迎,是英特爾推動深度學習民主化的重磅武器,也是英特爾AI開發三大工具之一。

究竟BigDL神奇之處在哪里? 就在近日舉辦的2018 全球人工智能與機器人峰會(CCF-GAIR)上,我們與BigDL項目的負責人,同時也是英特爾高級首席工程師、大數據技術全球CTO戴金權進行了一次深度對話。

英特爾高級首席工程師、大數據技術全球CTO 戴金權

關于BigDL的三個疑問

1、究竟什么是BigDL?

這里需要提一下背景,近年來Spark已經成為了業內大數據處理分析的主流計算框架,它有大量的組件來提供豐富的功能。BigDL是英特爾在Spark上構建的一個面向Apache Spark的開源、分布式的深度學習庫。使用 BigDL,用戶可以像編寫標準 Spark 程序一樣編寫深度學習應用,并且可以直接將其運行在已有的 Spark 或 Hadoop 集群上。

英特爾希望將深度學習和大數據平臺相結合,提供一個統一的大數據分析平臺,使深度學習更易于普通的大數據用戶和數據科學家使用。通俗來說,從大數據到Deep Learning ,BigDL幫助實現了跨越。

2、BigDL有什么優點,與TensorFlow和Caffe的區別?

BigDL 程序是作為標準的 Spark 程序編寫的,并且不需要對底層 Hadoop/Spark 集群進行更改,因此它可以跟現有的大數據平臺無縫銜接。

對于公司而言,這意味著可以直接在存儲數據的同一個Hadoop/Spark集群上運行深度學習工作負載,使用深度學習來進行數據分析,不需要設置單獨的訓練集群,也無需在兩個集群之間拷貝多版本的數據和模型,從而減少了端到端的學習延遲,并降低了總體成本。

從BigDL本身來說,它具備和主流深度學習框架Caffe、Torch、TensorFlow等相同的功能,并且為大數據平臺或大數據集群、Hadoop集群、Spark集群進行了特別優化——這也正是BigDL和其他深度學習框架不一樣的地方。目前Hadoop大數據平臺上已經積累了大量用戶,如果能讓用戶直接在hadoop現有平臺進行深度學習,如此,簡化Hadoop用戶的AI之路。

除了成本節省之外,BigDL的另一個特點是可以大大降低Hadoop用戶的AI學習成本,比如,通過重用Hadoop平臺上的現有大數據工具和流程,包括工作流的管理、資源管理等,這樣可以大大提高用戶深度學習應用的開發效率以及應用部署的效率,還能提高端到端的數據處理分析效率。

目前,BigDL不僅能夠與現有大數據生態系統無縫集成,還支持TensorFlow (TensorBoard)、Caffe、Torch等一系列現有深度學習框架,并且能夠支持大量開箱即用的高級算法和模型,比如用于視覺處理的OpenCV、還有3D Convolution、Tree-LSTM等等。

3、BigDL能解決什么問題,有哪些應用?

目前,幾乎所有的公有云平臺,從AWS到阿里云等,用戶都可以通過不同的方式使用到基于BigDL的技術。對于AWS、阿里云、京東云這種向客戶提供深度學習平臺的云服務廠商來說,他們能夠讓深度學習在集群上運行得更快速、更高效、更受用戶歡迎。

在CCF-GAIR2018大會的首日演講中,戴金權就帶來幾個例子,其中一個案例是英特爾與京東展開的合作。京東大概有幾億張圖片存儲在分布式存儲系統當中,京東想要把這幾億張圖片從系統中讀取并處理,一開始京東是構建在GpU上,通過Caffe訓練來進行分布式處理,但原來方案在開發、部署、端到端性能方面出現了問題,當遷移到運行Spark的BigDL上后,跑在1200個邏輯的核,一臺服務器支持50個邏輯,大致用了24臺服務器。利用Spark這樣的端到端流水線處理,與之前用GpU的方案相比可以達到差不多3.8倍的性能提升。

除此之外,BigDL具有豐富的應用場景,包括電商、工業制造、3D醫療、情感分析等多個領域,比如欺詐交易偵測、工業制造中的產品缺陷檢測、3D醫療影像分析、自然語言的情感分析等等。

真正推動AI民主化,解鎖BigDL多個易用技能

BigDL項目在2016年12月30日正式在Github上開源,并且在Github上收到了眾多社區用戶對于該框架的代碼貢獻,用于BigDL的優化與迭代。

就在近日的2018 全球人工智能與機器人峰會上,戴金權又帶來一個好消息:在Apache Spark和BigDL的基礎上,又構建了一個大數據分析+AI平臺——Analytics Zoo。從某種意義上講,Analytics Zoo是Spark 和 BigDL上的擴充,目的是方便用戶開發基于大數據、端到端的深度學習應用。

英特爾要推動人工智能的民主化,就要做到高易用性、高效擴展、更低的TCO以及卓越的性能,如此來看,BigDL已經具備某些特質,使深度學習更易于大數據用戶和數據科學家使用:

1、在存儲數據的同一個Hadoop/Spark集群上使用深度學習來分析大數據。深度學習需要對大量的數據進行分析,BigDL能夠讓用戶在存儲數據的集群上直接運行深度學習,略去數據拷貝、模型拷貝等復雜、低效的工作。

2、在大數據(Spark)程序和工作流之中增加深度學習功能。構建真正完整的深度學習、機器學習能力,需要在現有大數據的工作流里增加深度學習功能,而BigDL能和Spark無縫結合,可以直接在工作流里面處理數據。

3、利用已有的Hadoop/Spark集群來運行深度學習應用。BigDL是一個標準的Spark上應用,可以在現有Hadoop、Spark集群上直接運行。BigDL把所有相關庫的文件打包到MKL架構,那么所有的EI都會被自動分發到機器和云平臺上,在使用BigDL時就不需要安裝任何額外的東西,讓用戶無痛使用BigDL。

4

、與其他用戶和任務動態共享計算資源。BigDL能直接在Hadoop、Spark集群上運行,和其他用戶共享計算資源,還可以重新利用大數據平臺現有的一整套機制,來很方便地運維、管理深度學習應用。

總而言之,BigDL不僅可以在Spark平臺上和其他組件方便的交流,還能讓企業建立起整套的端到端解決方案。其實,整個Hadoop生態環境也給用戶提供了很多組件,包括管理機器、引入數據、存儲數據以及分析等。這樣一個更大的平臺上,BigDL能夠嵌入進去,讓企業在現有的大數據生態上做研發,達到“深度學習民主化”。

當然,這還只是英特爾AI賦能其中的一小部分。正如戴金權所言,“英特爾一直致力于端到端、全棧式人工智能解決方案。在基于英特爾至強服務器的大規模的集群上,大家現有的數據架構基礎設施,完全可以使用英特爾開發并開源的BigDL、Analytics Zoo的技術,在現有的大數據平臺上構建新的大數據分析和人工智能的應用,提高資源利用率和端到端的開發效率,部署效率,同時,在端到端的性能上也會有非常大的優勢。 ”

版權與免責聲明:
1、凡本站及其子站注明"文章類型:原創"的所有作品,其版權屬于中國財經觀察網站及其子站所有。其他媒體、網站或個人轉載使用時必須注明:"文章來源:中國財經觀察網"。
2、凡本站未注明來源為"中國財經觀察網"的所有作品,均轉載、編譯或摘編自其它媒體,轉載、編譯或摘編的目的在于傳遞更多信息,并不代表本站及其子站贊同其觀點和對其真實性負責。其他媒體、網站或個人轉載使用時必須保留本站注明的文章來源,并自負法律責任。
3、如您不希望作品出現在本站,可聯系我們要求撤下您的作品。郵箱:[email protected]

相關閱讀

    無相關信息

網羅天下

投訴舉報:[email protected] 在線投稿:[email protected] 廣告投放:[email protected] 商業合作:[email protected]
版權聲明: 本網站部分文章和信息來源互聯網,并不意味著贊同其觀點或證實其內容的真實性,不構成投資建議。如轉載稿涉及版權等問題,請立即聯系管理員,我們會予以改正或刪除相關文章,保證您的權利!
版權所有: 中國財經觀察報·中國財經觀察網上海上港对辽宁宏运 www.ssqduf.com.cn (2012-2018)互聯網ICP備案 中ICP備120056699號-1