大數據(Big Data)成為商業科技的熱門名詞,但大數據的應用又豈只限於商界?其實在學術領域,數據收集和分析已是常態,把大數據應用在創新的研究項目自是理所當然。香港電腦學會於「2016國際IT匯」期間就舉行了「香港學術和研究機構的大數據創新」研討會,分享了學界在應用大數據的寶貴經驗。
隨著智能手機和平板電腦的普及應用,所產生的大量數據已令「數碼宇宙」爆炸性增長。學術研究要有公信力,客觀的數據分析是必須的,以前學界要收集數據很困難,但自從來到「大數據」的時代,怎樣正確分析大量的數據反而成為新的挑戰。
商界因為有利潤的誘因,因此大數據各種方案往往成為熱門的選擇,很多企業和方案商都樂意投放資源,研究如何更有效率地及正確地收集數據,及研發可處理海量式數據分析的系統軟件。但學界就未必有足夠的資源和人力去自行開發,在應用大數據時也有更多考慮,例如怎樣選擇平台以更有效率地管理大數據。
因此香港電腦學會於4月20 日假香港城市大學專業進修學院舉行了「香港學術和研究機構的大數據創新」研討會,邀請率先應用大數據的學者和技術人員,展示了香港著名的學術和研究機構在大數據、商業智能(BI)和分析技術的各種創新研發項目。
香港電腦學會大數據專題組主席湛家揚博士為研討會致開幕辭時表示,現在香港的大學均各自開辦數據科學和分析課程,反映此門學科可能快將成為新的「顯學」。湛家揚強調,香港電腦學會支持各種大數據研究,而且並非只著重為商業世界帶來利潤,也同樣重視在學界推動大數據研究,希望透過是次研討會為學界帶來大數據應用的新視野。
首位上台分享的 Sam Chan 是大數據分析師,也是麻省理工博士生。他表示大數據分析日益流行,但機構在建構大數據分析平台時卻難以入手,多個產品之間互不兼容,快速集成和維護也顯得困難。而作為開源軟件的 Ambari 便是 Sam Chan 推薦的平台,因它集成了 Hadoop 整個生態圈,令開發者及使用者更容易使用並輕鬆部署。
大數據其中一個常見方案便是社交平台分析,例如了解網民對某些商品、事情的正反意見,除了意見多寡外,情緒也很重要,但怎樣分析才比較準確呢?另一位講者 Raymond Lau 博士就解釋了在進行語意分析有時會出現盲點,例如「小」在形容不同商品時,可以是讚美亦可以是批評,如不仔細分析就很容易出錯。
另外,很多大數據分析技術都建基於「英文」,要做語意分析時也多從英文入手。但香港市民更普遍運用中文及廣東話,在大數據收集及分析時若直接採用以英文為出發點的方案,就很容易出問題。講者 Michelle Hong 博士就分享了利用廣東話做分析時需注意的事項,例如港人喜歡中英夾雜,同音錯別字也比英文串錯字難用軟件來分辨,因此分析中文語意的時候就需要更仔細的考慮。