從登革熱病例統計公告資料看台南市開放資料品質問題

Screenshot from 2015-08-25 22:55:35

因為就住在目前登革熱疫情最嚴重的北區,所以對於相關資訊比較關心些,在知道衛生局有公佈村里層級的病例統計資料後就著手製作了 台南登革熱地圖 ,也因此持續下載最新的統計資料來更新這個地圖。

不確定是什麼原因, 8/22 公佈的資料簡化許多,只剩下以區為層級的統計數字,把問題反應給市政府之後 8/23 開始就又有村里層級的統計資料,只是格式已經不像 8/21 之前那樣完整,所以 8/22 的資料還是找不到。因為有 8/21 與 8/23 的資料,所以開始嘗試能否算出 8/22 的資料,但卻因此看到了更嚴重的問題。

比對了 8/21 與 8/23 的統計數字可以初步歸納出下面問題:

  • 安南區溪頂里 截至 2015-08-21 累積病例為 56 例, 2015-08-23 新增 1 例後累積數字仍為 56
  • 永康區復國里 截至 2015-08-21 累積病例為 5 例, 2015-08-23 沒有新增累積數字卻變成 4
  • 安平區安平里 截至 2015-08-21 累積病例為 1 例, 2015-08-23 沒有新增累積數字卻變成 0
  • 北區大山里 截至 2015-08-21 累積病例為 17 例, 2015-08-23 新增 1 例後累積數字仍為 17
  • 北區成功里 截至 2015-08-21 累積病例為 33 例, 2015-08-23 沒有新增累積數字卻變成 31
  • 中西區大涼里 截至 2015-08-21 累積病例為 8 例, 2015-08-23 沒有新增累積數字卻變成 5
  • 永康區鹽洲里 截至 2015-08-21 累積病例為 3 例, 2015-08-23 沒有新增累積數字卻變成 0
  • 安南區安慶里 截至 2015-08-21 累積病例為 19 例, 2015-08-23 新增 3 例後累積數字卻變成 21
  • 北區小康里 截至 2015-08-21 累積病例為 28 例, 2015-08-23 新增 2 例後累積數字卻變成 29
  • 安定區海寮里 截至 2015-08-21 累積病例為 1 例, 2015-08-23 沒有新增累積數字卻變成 0
  • 安南區興東里 截至 2015-08-21 累積病例為 1 例, 2015-08-23 沒有新增累積數字卻變成 0
  • 中西區三合里 截至 2015-08-21 累積病例為 15 例, 2015-08-23 新增 1 例後累積數字仍為 15
  • 永康區尚頂里 截至 2015-08-21 累積病例為 4 例, 2015-08-23 新增 1 例後累積數字仍為 4
  • 新營區新東里 截至 2015-08-21 累積病例為 2 例, 2015-08-23 沒有新增累積數字卻變成 1
  • 北區合順里 截至 2015-08-21 累積病例為 1 例, 2015-08-23 沒有新增累積數字卻變成 0
  • 東區泉南里 截至 2015-08-21 累積病例為 4 例, 2015-08-23 沒有新增累積數字卻變成 3
  • 安南區南興里 截至 2015-08-21 累積病例為 1 例, 2015-08-23 沒有新增累積數字卻變成 0
  • 永康區埔園里 截至 2015-08-21 累積病例為 2 例, 2015-08-23 沒有新增累積數字卻變成 1
  • 東區大智里 截至 2015-08-21 累積病例為 1 例, 2015-08-23 沒有新增累積數字卻變成 0
  • 七股區鹽埕里 截至 2015-08-21 累積病例為 1 例, 2015-08-23 沒有新增累積數字卻變成 0
  • 永康區二五里 截至 2015-08-21 累積病例為 2 例, 2015-08-23 沒有新增累積數字卻變成 0
  • 安南區溪西里 截至 2015-08-21 累積病例為 1 例, 2015-08-23 沒有新增累積數字卻變成 0
  • 新營區茄苳里 截至 2015-08-21 累積病例為 1 例, 2015-08-23 沒有新增累積數字卻變成 0
  • 楠西區楠西里 截至 2015-08-21 累積病例為 1 例, 2015-08-23 沒有新增累積數字卻變成 0

並沒有進一步去驗證過去的所有資料,但有這麼多的統計數字不連貫,可以想見資料的產出並沒有經過嚴謹的程序,而不同的檔案間也可以發現同樣一個村里的名稱會有不同的用字,應該很明顯這份資料是由人工所維護,而資料量成長的速度應該超過了經辦人員的負荷。

臺南市政府資料開放平台 也可以看到一個登革熱專區 ,裡面有一份 臺南市104年度本土登革熱病例資料 使用了比較容易處理的格式公開,只是裡面的資料還停留在 8/7 ,想必也是因為相關資料都透過人工整理,所以更新速度沒辦法太快。

理想的情況下,這些資料完全不需要市府額外的人工介入處理,如果原始醫院通報系統能夠直接產出可讀格式,直接將這份資料在隱藏相關個資後公開即可。不過預期取得的資料格式應該沒有這麼容易處理,大概還是需要經過一點人工輸入過程,即使是這樣,只要有每日新增的病例資料,延伸的統計數字都應該可以自動產生,不應該是由人工逐一計算結果。

地名的比對也是另外一個問題,因為許多地名使用了罕見字,在輸入時容易產生錯誤,也許在提供中文地名的同時也可以附上一個編號。行政院主計總處就有提供這樣的村里代碼表可以使用,當然,使用這個代碼的前提是系統化,透過人工方式查詢這樣大量資料很容易出錯。

雖然一般民眾大概只會關心每日新增病例的總數,但身在疫區的民眾或是家屬可能會希望更完整的資訊,期望相關單位能夠將這些資訊的產出系統化,避免用心製作的統計資料卻因為人工輸入錯誤而產生了反效果。

維護這樣資料的系統雛型我應該可以很快的、無償的提供,這樣的訊息歡迎幫忙提供給相關單位,這樣的舉手之勞也應該很多人可以做到,只是希望接下來能夠有更好的資料品質。

評論