資料開放就夠了嗎?-科學人雜誌 Back to Top
網路不打烊

資料開放就夠了嗎?

2015-04-01 陳穎青
琳瑯滿目的政府資料集,用起來效果如何?從出版產業統計先窺一二。

國家圖書館在2015年初發佈了上一年度「台灣圖書出版現況及其趨勢分析」,除了主題類別、常用分類、翻譯圖書的語文和來源國家地區等例行性資訊之外,今年最特別的訊息是,年度出版量連續兩年衰退,2014年是近三年來出版量最低的一年(從2012年的4萬2305種,到2014年的4萬1598種)。三年來年出版量減少了707種,衰退率1.6%。

這個衰退幅度看起來不是很厲害,但如果考慮到2014年出版了1640種電子書,且其中絕大部份是紙版已經出過的書種,那麼出版量的衰退率可能會高達5%之多。

但這樣估算並未解答產業問題,也就是書種衰退到底是市場衰退的結果,或者是編輯更加精選的表現?我們更需要知道真正實際的產值,那才是真正影響產業的資訊。

還好有另一個資料庫,根據財政部營利事業家數及銷售額資料庫(簡單說就是發票金額)的統計,書籍出版業(稅務分類標準5811~13)2013年總共有1745家出版社,總產值為269億9548萬2000元;2014年共有1721家出版社,總產值為226億9217萬6000元。出版家數少掉24家,營業產值則衰退43億元,年度成長率是-15.94%。

以上兩個經由政府部門公開釋出的資料,我在使用上至少有下列三大問題。

首先是資料派不上用場:資訊界有句話說「垃圾進,垃圾出」,意思是你送進去的資料如果空洞,產出的結果必然也是空洞。以國際標準書號(ISBN)中心在政府資料開放平台送出的資料集「台灣出版新書預告書訊」為例,欄位包括書名、作者、出版單位、版次、出版年月、標題、類號及ISBN,網頁上以XML格式呈現,如下方附圖。

可惜的是這個資料集對業界幾乎沒有多大用處。例如國家圖書館年度分析提到的翻譯書來源國,在這個資料集裡就完全無蹤影。表面上國家圖書館提供了符合開放資料要求的資料集,現實上那是個半吊子的產物。


更多文章
活動推薦更多
追蹤科學人