データ解析を民主化せよ 新型コロナで重み増す「オープンデータ」
コメント
注目のコメント
大切なのは3点、
・何に使われるかわからないので、情報量の多いデータを出来る限り提供すること
・データの分別基準などを明確にすること
・データ発表元の解釈に合わせたデータ提供をしないこと
オープンデータの活用は最近多く見られますが、複数のオープンデータを掛け合わせて解析しようとしたときに、2つのデータの分類区分が不明瞭だと、どう掛け合わせて良いかわからなくなってしまう、という現象が、解析しようとしている界隈で多く見られます。
個人情報さえ伏せられていれば、纏まったデータを出す必要はなく、ログのようなものを適当に開示してあげるだけ、という形式でも、コンピュータでは十分に活用できます。というより、下手に統計を取ってしまうと扱える情報は減少します。
上記3点を意識して、多くの発信が行われるようになれば、より解析が活発化するのではないでしょうか?
ピッカーの方で、XMLやJSONで開示しよう!という意見があるのですが、これについては懐疑的です。
もともと「Excel」や「PDF」で管理されているデータ、という前提を持ったときに、もともと表になっていると思いますし、表になっているデータであれば、CSVで全然大丈夫かな、と思っています。
(数行~十数行の差は生まれると思いますが、それを理由にプログラムを組まなくなるエンジニアはどうせ大したものを組まないです。)
欠損データや特殊データが多い、表にしづらいデータであれば、JSONなどの形式のほうが扱いやすいですし、今まで「表にしづらく公表していなかったデータ」をJSONで公表してもらえたら、それはありがたいかな?と思います。「厚生労働省の方へ、CSVオープンデータ化で効率化しましょう! 」
とのことですが、可能であればXMLやJSONで公開されると汎用性がぐっと高まると思います。
いずれにしても、PDFはhuman friendlyだけどcomputer friendlyではないです。簡単にいわゆる使いにくい「神エクセル」的な構造になってしまいます。
XMLやJSONで公開したら簡単にXLSXやPDFに変換できるので人間が読めなくなる心配は無用です。
XMLやJSONはエクセルファイルやCSVファイルと何が違うの?って思われる方は下記をどうぞ。
【何が違う?】データ形式(CSV, XML, JSON)の特徴を知ろう
https://code-ship-blog.wemotion.co.jp/technology/%E3%80%90%E4%BD%95%E3%81%8C%E9%81%95%E3%81%86%EF%BC%9F%E3%80%91%E3%83%87%E3%83%BC%E3%82%BF%E5%BD%A2%E5%BC%8Fcsv-xml-json%E3%81%AE%E7%89%B9%E5%BE%B4%E3%82%92%E7%9F%A5%E3%82%8D%E3%81%86/行政、自治体がデータをオープン化し、一般のエンジニアやデータサイエンティストが分析できるようになるのは素晴らしいこと。が、実際の運用に落ちていない。。生データをアクセスできるようにするか、せめてcsvで公開するかなど、早期に提供方法の改善がなされると分析する側の工数が減ると思います。
‘’現在、都道府県別の患者数について、厚生労働省は日次で発表しているが、フォーマットはPDFファイルだ。‘’