科創講堂

巨量資料之於半導體製造:儲存及計算平台開發、維運、及人才養成

講者/蕭宏章(成功大學資訊工程系教授)

撰文/整理/科學人

科創講堂

巨量資料之於半導體製造:儲存及計算平台開發、維運、及人才養成

講者/蕭宏章(成功大學資訊工程系教授)

撰文/整理/科學人


公元2000年左右,大家就在說晶片時脈上不去,晶片裡面可以裝的半導體數目則越來越多。另一方面,CPU裡RAM的存取速度呈指數成長,但磁碟的存取速度上不去。就資料來說,數量一直增加,明年的資料量是今年的K倍,後年則是今年的K2倍,10年後來看,現在的資料量只有一點點。


資料量一直增加,但CPU計算速度上不去、記憶體的速度上不去、磁碟存取速度上不去,怎麼辦?解決辦法是平行暨分散式系統:由幾十乃至於幾萬台伺服器組成的一套系統。「分散」是指空間計算和儲存的分佈,而「平行」是指在時間上同時執行某一分散任務。


蕭宏章舉例,平行暨分散式系統在巨量資料方面最有名的專案平台,是開源(Open Source)的作業系統Hadoop。Hadoop在2006年發佈,有很多大公司採用。就Hadoop的軟體堆疊來說,底下是檔案系統;中間是分散式資料庫、編譯程式,另外還有一些計算框架如Spark、MR(MapReduce),中間這部份稱為平台核心;上面則是應用層,可做樣式辨識、偵錯告警、備份稽核等。


開源軟體的合作模式


為什麼要用開放原始碼?原因很多,例如:它免費而自由、不會vendor lock-in(供應商綁定)、開發速度快、內容透明,是眾多公司的合作基礎,同時也是國外的業界標準。


Hadoop釋出之後,相關專案的數目就暴增,儼然成為一個生態系,我們在裡面可以找到很多工具。國際很多大公司也都採用Hadoop,如微軟、雅虎、Facebook、Google等,中國的BAT(百度、阿里巴巴、騰訊)也是。


蕭宏章在巨量資料平台方面曾和一些國內業者合作,例如:半導體製程商、高速公路收費ETC、IoT廠商。蕭宏章解釋他們團隊的經營模式:從開源社群取得軟體以服務業者,業者有維護需求就找第三方發行商(如Cloudera),如果業者有回饋意見,團隊就回過頭來修改開源軟體,屆時發行商會跟開源社群同步,更新軟體。


就半導體廠商來說,裡面有很多分析人員(使用R語言),他們要駕馭新興的分散式計算平台有難度,蕭宏章的解決方案是DRS(distributed R computing service)。DRS是一個類似MR的計算框架,能讓R語言分析程式平行化,但R語言不用改。


蕭宏章也幫忙做了巨量資料的資料服務,因為半導體廠商的專業是製造晶圓,要從頭學Hadoop實在太辛苦,蕭宏章就幫他們做中間軟體,隱藏Hadoop的技術細節,讓他們更方便存取Hadoop。這個解決方案就是HDS(web-based Hadoop data service),是以http協定構成的網路服務。


DRS與HDS還有額外的特色:水平擴充、容錯、負載平衡。DRS與HDS都是Hadoop平台的核心層。


人才需求孔急


至於大型開源軟體的開發規模,單就分散式資料庫Apache HBase來說,全球有150位contributor(貢獻者)、50位committer(貢獻較多的人),其中大概只有10位PMC(專案管理)。


台灣在Hadoop的PMC+committer才七位,分散在不同的專案裡,其中有一半是國外企業栽培,蕭宏章的實驗室培養過一位HBase的PMC+committer。蕭宏章說「我們在巨量資料開源軟體的人才太少,但使用者很多。」


蕭宏章指出,國內產學合作模式多半是委託,較少共同開發,因此業者在平台層或核心服務層所累積的經驗不多。共同開發的好處則是,平台很獨特的話,應用就會獨特。台灣在巨量資料開源軟體的人才極度缺乏,現在是進到社群幫忙貢獻的好機會。



更多相關文章

2018年9月199期腦中第七感 雜誌訂閱

本期最新文章