丹青社参与的横滨市立大学研究生院数据科学研究生院Akihiro Sato教授的研究小组开发了能够利用网格统计*1的技术元素,并在网格统计基础上处理DoCoMo Insight Marketing Co.,Ltd。提供的移动空间统计 (R) *2,展示了东京奥运会期间活动情况的实时观测(图1和2)。根据这项研究的结果,预计将大大促进目前尚未使用的大量位置信息相关数据的社会利用。
本研究结果将发表在“应用统计学会期刊”期刊上,作为“使用自主分散的世界网格统计基础设施解决可持续发展目标”。(日本时间2022年7月31日)
研究结果的要点
1) 通过95%信赖区间*3将网状统计的统计品质评价方法公式化
2) 通过事例提示网状统计数据的有用领域在社会的广泛范围内存在
3) 通过自主分散的网状统计基础的费用分担模型将事业风险公式化

(图1) MESHSTATS *4的结构和验证机制(通过AWS提供的移动空间统计根据国内人口分布统计 (实时版) 每1小时提供的全国500m网格统计数据导入到MESHSTATS中,通过WebAPI可以在各种应用程序上进行可视化和分析。)

(图2) 利用移动空间统计 (R) 观察东京奥运会期间的活动情况(奥林匹克体育场将配合开幕式和闭幕式,确认相关流动人口。)
新闻稿
建立世界网格统计基础设施,利用未使用的位置信息数据
〜局部处理各种数据,开发高速廉价的方法〜
研究背景
虽然有几种日本独有的网格统计技术,但需要处理的数据量巨大,而且类型和格式极其多样。这需要大量的计算,从而阻碍了网格统计数据的使用。由横滨市立大学、株式会社丹青社、Recruit 株式会社、统计数学研究所和国家统计中心组成的研究小组正在进行跨学科的产官学合作研究和开发,目的是普及网格统计并利用未使用的数据。在本项目中,我们一直在研究和开发全球网状统计基础设施的自主分散架构设计以及验证所需的数据质量、计算机系统结构、人力组织结构、数据流之间的关系以及经济和社会可持续的生态系统。
本次研发项目设立了“昆虫视角”和“鸟瞰视角”两类应用群组。虫眼视图应用程序具有从各种网格统计数据中测量场景特征并将其反映在现实环境决策中的功能,而鸟瞰视图应用程序具有从各种网格中测量概览特征并从整体视角搜索最佳空间配置的功能(图3)。

(图3) 假定使用网格统计基础的应用程序分类(虫眼型,鸟眼型)的利用方案中的利用者
研究内容
1) 将网格统计的统计品质评价方法用95%置信区间进行公式化
为了使数据以“网格”这种数据格式更加流通,可靠性非常重要。横滨市立大学和统计数学科学研究所合作,关于网格统计的误差评估方法,基于使用95%置信区间的正态分布的近似计算方法,基于样本比率估计总体比率,分类误差的样本评估显示了考虑误差的校正方法的95%置信区间的计算原理。
(2) 提出一个案例研究,说明网状统计数据在社会中存在广泛的有用领域。
在构建自主分散式网状统计基础设施架构的过程中,我们采用敏捷开发方法开发了一个原型系统 MESHSTATS,并在原型开发和测试数据、应用程序代码和实际使用方法的同时,努力确定其需求。日本标准协会的 ISO/TC69 国家工作组委员会提出了一项题为 "网格统计及其应用 "的国际标准,作为日本的提案,日期为 2022 年 6 月 30 日。该委员会确认,它将提出一项题为 "网格统计及其应用 "的国际标准,作为日本的提案。目标是在未来将其作为正式国际标准发布。
此外,目前正在从若干业务问题和国家统计中心官方统计中的问题出发,研究各种应用。
作为使用自主分散式全球网格统计基础设施的一种方法,研究小组提出了一种将应用提供商持有的数据转换为网格统计数据的方法,通过简单地交换统计数据,在原始数据保密的情况下对数据进行评估,并发现有效的应用配对。这种方法有望克服城市操作系统*5 在智慧城市领域面临的与安全相关的数据链接问题。
此外,基于株式会社丹青社的案例研究,还介绍了半自动数据驱动数字设计工作室 WaaS(工作室即服务)的用例方案,作为自主分散网状统计基础设施功能的一部分。此外,还演示了使用移动空间统计国内人口分布统计(实时版)API 的东京奥运会现场活动监测系统、通过检索移动路线上的各种网状统计数据来权衡移动路线上的流动人口密度和地块密度*6 以及新的冠状病毒感染情况。作为示例,介绍了几个有用的应用及其机制和用途,例如与模拟基础设施的连接。
预计本文介绍的自主分散网状统计基础设施技术将能够在基础设施上构建多种有用的应用程序并提供服务。
3) 基于自主分散式网状统计基础的费用分担模型的事业风险的公式化
网状统计的数据流通模型由于数据量大,数据准备所需的时间和费用集中在使用者身上,因此其流通和利用至今没有进展。此外,要求用户进行大量前期投资也是传播的障碍。通过开发自主分布式世界网格统计基础设施,我们期望大大缩短数据准备时间,并计算每个数据成本分担模型的数据利用成本,并以实际成本使用应用程序它表明它是可能的。
表1显示了三种业务模式的成本回收期估计值。传统的服务I是预先购买所有必要的网格统计数据的情况,除了初始构建成本R之外,还需要数据购买成本Pi,并且它显示了通过用户的使用费c摊销的时间段。服务II是将建议的系统用作昆虫眼睛应用程序并按需购买必要的网格统计数据的情况,并显示初始构建成本R按每个用户的使用费c摊销的时间段。服务III显示了通过使用服务II的J次实现多区域鸟眼应用程序的搜索问题的折旧期限。模型计算表明,与预先购买数据的服务I相比,服务II和服务III可以显著缩短应用程序的开发成本回收期。

(表1) 每个商业模式的成本回收期估计
(T *:每个业务模型的成本回收期;κ:运营期间的平均使用人数;M:运营期间的平均运营成本;S:mesh统计数据i的数量;Q:部分数据购买成本)
未来发展
通过这项研究,我们能够提出自主分布式世界网格统计基础架构及其模型所需的功能,结构,技术和用户角色的要求。我们发现了自治分布式世界网格统计基础架构应该是什么以及所需的功能需求,并且还发现了可以在有用的网格统计基础架构上构建的应用程序以及如何使用它的多个场景示例。
从现在开始,通过根据本研究结果发现的各种要求开发和演示架构,我们将促进基于用例的网格统计数据的分发和利用,自动确定网格统计数据的价值尺度等。这是预料之中的。此外,随着基于自主分布式世界网格统计的技术的普及,使用大量数据计算可持续发展目标的各种指标,以决策者可以在时间和空间上使用的形式单独计算出的指标。它也有望应用于要提供的应用程序等。
谢词
本研究利用国立科学技术厅 (JST) 未来社会创造项目的合同研究经费,加速探索未来社会创造项目“实现超级智能社会”领域“充分利用不同领域的共同创造型AI·模拟技术建立一个健康的社会“:它是在研究课题”自主分布式世界网格统计基础架构架构的设计与演示“(研究课题编号:JPMJMI20B6,研究代表Akihiro Sato,研究期间:2020年〜)的支持下进行的。
https://www.yokohama-cu.ac.jp/news/2020/201216_satoakihiro.html
论文信息
标题:利用自主和分散的全球网状统计基础设施努力实现可持续发展目标
作者:佐藤明宏(横滨市立大学)、菅波纪宏(株式会社丹青社)、加藤茂宏(Recruit Co., Ltd.)、岩崎学(统计数学研究所)、西村正树(国家统计中心)
发表于:应用统计学
词汇表
*1网格统计:根据数据中的位置信息,对被称为网格的纬度和经度包围的矩形分区(在日本国内,矩形划分被定义为日本产业标准JIS X0410地域网格编码。)进行合计,从而生成的非常详细的分区统计。它具有网格统计数据的高连接耦合性,例如匿名性,重聚性和选择性,可计算性。
*2移动统计 (R) :提供使用NTT DOCOMO公司移动电话网络机制编制的统计信息的服务。作为其服务阵容之一,我们提供“国内人口分布统计 (实时版) ”,可以在最短的一小时前掌握人口分布。
*3 95%置信区间:用于评估统计值可靠性的区间估计值,以95%的概率找到统计值的区间。
*4 MESHSTATS:数据应用基础设施,可在全球范围内使用网格统计数据和各种数据。具有允许数据检索,组合,可视化,分析,聚合,应用程序开发和使用的功能的系统。
*5城市操作系统:一种在城市中使用的各种应用程序之间共享数据并实现相互灵活性的机制。由于不同的服务提供商可以共享数据,因此指出了隐私和安全问题。
*6掩蔽物密度:掩蔽物(建筑物、树木、铁路车站等自然或人工存在的地上物体)的存在密度。
参考文献等
·Akihiro Sato,网格统计,共立出版 (2019)
·Akihiro Sato, SDG 11.3.1验证工作报告,内政和通信部关于促进大数据利用的工业,政府和学术界协商的合作会议第6次观测数据利用验证工作组 (2022年2月22日举行)
https://www.soumu.go.jp/main_content/000794916.pdf
·新型冠状病毒传染病模拟基础设施
https://www.meshstats.org/covinfo/COVID-19/
·移动统计国内人口分布统计 (实时版)
https://mobaku.jp/service/rt_distribution/
※"Mobile Space Statistics (R) "是NTT DOCOMO公司的注册商标。
相关信息
企业社会责任倡议 > 促进创新 促进协作、合作与研究:数据科学联合研究
之后如有变更,恕不另行通知,敬请谅解。