网站首页 互联网 > 正文
假设你正在做一项需要数百万个地理标记的推特的研究。或者也许你是个记者想把2001年到现在芝加哥的谋杀案拍下来。您需要找到大型时空数据集-但在哪里?
虽然有数百个公开的数据集,定位它们可能需要几个月的搜索。当找到潜在的来源时,他们很少提供足够的信息供研究人员决定集合是否实际包含他们需要的那种数据,而不需要下载通常很大的文件并首先对其进行排序。
多亏了加州大学河滨分校(University of California,Riverside)的一位计算机科学家,现在找到正确的数据集就像给一个网站书签一样容易,而且它绝对不值钱。
Marlan和Rosemary Bourns工程学院的计算机科学助理教授Ahmed Eldawy和他的小组在过去三年里对互联网上的公共时空数据集进行了梳理,研究了它们的属性,并在交互式地图上总结了每组数据的结果,这些地图显示了用户的确切信息。
Eldawy说:“从事数据科学工作的人需要数据集,但可以花很多时间去寻找它们。”“我想建立一个他们能轻易找到的档案。”.
称为UCR时空活动存储库,或UCRSTA R,存档可作为一项服务提供给研究社区,以通过交互式探索接口提供对大型时空数据集的方便访问。用户可以搜索和过滤这些数据集,就像为他们的研究而购物一样,除了一切都是免费的。
埃尔达维说:“地图界面将数据可视化,这样你就可以看到它是否很适合。“这就像是数据集的目录。”
在UC R星的核心,地图为数据集提供了一个交互式的探索性接口。类似于谷歌地图或其他网络地图,用户可以放大、缩小和浏览,以快速了解数据的分布、覆盖范围和准确性。
一旦选择数据集,将显示重要的详细信息,如原始主页、原始下载源的链接、以字节为单位的大小、记录数量、文件格式和其他有用信息。子集下载功能允许用户在给定的地理区域内快速下载数据,减少了下载规模..他们还可以在网页上嵌入他们的定制视图,或者通过社交媒体共享链接,并将其书签,以便稍后重新访问。
UCR STAR包含102个数据集和50亿条记录。数据集是使用达芬奇映射的,达芬奇是一个开源框架,它建立在Apache Spark的基础上,Eldawy设计用于处理空间数据。UCRSTA R网站最好通过桌面浏览器访问,但也有一个有限的移动友好界面。
版权说明: 本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。
猜你喜欢:
- 2022-08-02 苹果有一个聪明的计划在增加电池容量的同时缩小苹果Watch的尺寸
- 2021-10-10 古今语言分析指出世界第二大语言群的开端
- 2021-08-27 8BitDo正在为xCloud项目更新它的一个蓝牙游戏手柄
- 2022-01-04 苹果在即将发布的Mac配置实用程序中增加了新的Mac Pro
- 2021-10-31 Linux补丁首次支持英特尔月亮湖下一代核心CPU
- 2022-08-22 Codemasters将控制台和PC的DIRT 5推迟了一周
- 2021-11-16 苹果最早可能在4月15日发布iPhone 9或iPhone SE 2
- 2022-07-25 分享时之扉:重启的玩法及时之扉:重启的一些游戏小知识
最新文章:
- 2023-03-08 常家庄园门票团购(常家庄园门票)
- 2023-03-08 杨凌农博会什么时间开(杨凌农博会)
- 2023-03-08 in the oceans deep
- 2023-03-08 你认为呢用英语怎么说(你呢用英语怎么说)
- 2023-03-08 晕皱是什么意思拼音(晕皱是什么意思)
- 2023-03-08 d color钻石(d c)
- 2023-03-08 暇步士狗头鞋(暇步士狗)
- 2023-03-08 桂鱼清蒸怎么做最好吃视频(桂鱼清蒸怎么做最好吃)
- 热点推荐
- 热评文章