今日のオリジナル番組


詳細を確認
どこでも栽培可能!?「農業イノベーション」
本日配信
279Picks
Pick に失敗しました

人気 Picker
大切なのは3点、
・何に使われるかわからないので、情報量の多いデータを出来る限り提供すること
・データの分別基準などを明確にすること
・データ発表元の解釈に合わせたデータ提供をしないこと

オープンデータの活用は最近多く見られますが、複数のオープンデータを掛け合わせて解析しようとしたときに、2つのデータの分類区分が不明瞭だと、どう掛け合わせて良いかわからなくなってしまう、という現象が、解析しようとしている界隈で多く見られます。
個人情報さえ伏せられていれば、纏まったデータを出す必要はなく、ログのようなものを適当に開示してあげるだけ、という形式でも、コンピュータでは十分に活用できます。というより、下手に統計を取ってしまうと扱える情報は減少します。
上記3点を意識して、多くの発信が行われるようになれば、より解析が活発化するのではないでしょうか?

ピッカーの方で、XMLやJSONで開示しよう!という意見があるのですが、これについては懐疑的です。
もともと「Excel」や「PDF」で管理されているデータ、という前提を持ったときに、もともと表になっていると思いますし、表になっているデータであれば、CSVで全然大丈夫かな、と思っています。
(数行~十数行の差は生まれると思いますが、それを理由にプログラムを組まなくなるエンジニアはどうせ大したものを組まないです。)

欠損データや特殊データが多い、表にしづらいデータであれば、JSONなどの形式のほうが扱いやすいですし、今まで「表にしづらく公表していなかったデータ」をJSONで公表してもらえたら、それはありがたいかな?と思います。
「厚生労働省の方へ、CSVオープンデータ化で効率化しましょう! 」
とのことですが、可能であればXMLやJSONで公開されると汎用性がぐっと高まると思います。

いずれにしても、PDFはhuman friendlyだけどcomputer friendlyではないです。簡単にいわゆる使いにくい「神エクセル」的な構造になってしまいます。
XMLやJSONで公開したら簡単にXLSXやPDFに変換できるので人間が読めなくなる心配は無用です。

XMLやJSONはエクセルファイルやCSVファイルと何が違うの?って思われる方は下記をどうぞ。

【何が違う?】データ形式(CSV, XML, JSON)の特徴を知ろう
https://code-ship-blog.wemotion.co.jp/technology/%E3%80%90%E4%BD%95%E3%81%8C%E9%81%95%E3%81%86%EF%BC%9F%E3%80%91%E3%83%87%E3%83%BC%E3%82%BF%E5%BD%A2%E5%BC%8Fcsv-xml-json%E3%81%AE%E7%89%B9%E5%BE%B4%E3%82%92%E7%9F%A5%E3%82%8D%E3%81%86/
行政、自治体がデータをオープン化し、一般のエンジニアやデータサイエンティストが分析できるようになるのは素晴らしいこと。が、実際の運用に落ちていない。。生データをアクセスできるようにするか、せめてcsvで公開するかなど、早期に提供方法の改善がなされると分析する側の工数が減ると思います。

‘’現在、都道府県別の患者数について、厚生労働省は日次で発表しているが、フォーマットはPDFファイルだ。‘’
ビッグデータのソースというのは信頼性が命です
これだけ政府によるメディアコントロールが定着する中、果たして正確なデータなのか?という疑念は持っておくべきです
あくまで”提供される情報”でしかない
この手のソース情報は可能な限り疑うことが必要です
サイバー攻撃対策もやっておかないとだめでしょう
敵対する国のデータ配布元サーバーの提供ファイルを差し替えるなどすれば多大な影響が出せますしね
その辺の対策をしないままやるのは少々勇み足かと思います
政府では、2021年3月までに地方公共団体のオープンデータ導入率100%を掲げています。2020年3月時点で、団体数ベースで40%、人口カバー率で75%です。

今回の感染症対策の中で、東京都の宮坂副知事など、トップがオープンデータの重要性を発信していただいているので、加速すると思います。
公共データのオープン化は記事に登場する福野泰介さんも参加するオープンデータ推進団体「VLED」で2012年から進めているが、今なおコンピュータで判読可能なデータを求める状況。それでも随分使えるようになってきました。
そしてコロナ対策では国・自治体など公的機関のデータだけでなく、グーグル、アップルや通信会社など民間のデータも有効に活用して、官民の知恵を総動員して当たることが必要です。
共感。
今回様々なところがオープンデータを進めている。大体のサイトはコード+データで出来ていて、その両方がGithubなどで公開されている。データをCSVなどでDLできるので、分析が極めてしやすい。
普段の統計も、どんどんこういう風にしてほしい。
国のリリースは本当にわかりにくい、官邸、内閣府、そして厚労省....せめて、データ化して公開してほしい。色々うがった見方もしてしまいます。
東京都の新型コロナウイルス感染症対策サイトは本当に良かったと思います。

インターネットを熟知した宮坂さんだからこそ出来た事ですし、国としてもっとこう言ったオープンデータの活用とエンジニアの活躍を支援していくべきだと思います。