天池精品数据集再次更新,48个稀缺数据集公布

简说Python

共 6175字,需浏览 13分钟

 · 2021-03-23

↑↑↑关注后"星标"简说Python

人人都可以简单入门Python、爬虫、数据分析
 简说Python推荐 
来源|大数据科研平台


数据是21世纪的燃料,更是AI发展必不可少的环节。


作为大数据众智平台,阿里云天池数据集目前已上线百逾个官方数据集,吸引了来自11个国家和地区的148家院校和19家企业申请,覆盖全部C9院校和海内外知名院校、实验室和企业,如伯克利大学、英伟达等。


这些数据,有的来自天池平台AI赛事的官方释出数据集,有的来自权威开源数据平台,有的来自阿里巴巴业务线业务场景脱敏后的真实数据,覆盖医疗健康、视觉识别、生活通用场景、自动驾驶社交媒体等领域,可以帮助开发者快速精准找到需要的数据。


以下,我们优选了以上行业中48个来自阿里巴巴经济体的稀缺数据集和行业核心场景的独家数据集。

更多行业场景的数据集,欢迎访问天池官方数据集精品集合页面,浏览器访问下方链接或者直接点击阅读原文即可。
https://tianchi.aliyun.com/specials/promotion/collectionofdataset_2021

医疗健康

2016-2018年全国各省份疫苗采购数据

    https://tianchi.aliyun.com/dataset/dataDetail?dataId=1427

2019-nCoV 新型冠状病毒基因测序数据

    https://tianchi.aliyun.com/dataset/dataDetail?dataId=51202

中医临床诊疗问题数据

    https://tianchi.aliyun.com/dataset/dataDetail?dataId=79670

颅骨医学图像数据集用于检测颅内出血

    https://tianchi.aliyun.com/dataset/dataDetail?dataId=82967

中风后病灶解剖追踪数据集

    https://tianchi.aliyun.com/dataset/dataDetail?dataId=82972

息肉医学影像数据集

    https://tianchi.aliyun.com/dataset/dataDetail?dataId=84385

医学影像和标题的语篇照应数据集

    https://tianchi.aliyun.com/dataset/dataDetail?dataId=86602

中文糖尿病标注数据集

    https://tianchi.aliyun.com/dataset/dataDetail?dataId=88836

中文临床自然语言处理算法评估基准

    https://tianchi.aliyun.com/dataset/dataDetail?dataId=90117

全国执业药师考试医学多选问答数据集NLPEC

    https://tianchi.aliyun.com/dataset/dataDetail?dataId=90134

中文医疗对话数据集

    https://tianchi.aliyun.com/dataset/dataDetail?dataId=90163

中文社区医学问答数据集

    https://tianchi.aliyun.com/dataset/dataDetail?dataId=90188

线上医学问答数据

    https://tianchi.aliyun.com/dataset/dataDetail?dataId=90202

肌肉骨骼医学影像数据集

    https://tianchi.aliyun.com/dataset/dataDetail?dataId=92011

中文电子病历的命名实体识别数据集

    https://tianchi.aliyun.com/dataset/dataDetail?dataId=92085

临床术语标准化数据集

    https://tianchi.aliyun.com/dataset/dataDetail?dataId=92094

中文医学意图数据集CMID

    https://tianchi.aliyun.com/dataset/dataDetail?dataId=92109

中文医疗对话数据集

    https://tianchi.aliyun.com/dataset/dataDetail?dataId=92110

乳腺癌数据集

    https://tianchi.aliyun.com/dataset/dataDetail?dataId=92212

心脏病数据集

    https://tianchi.aliyun.com/dataset/dataDetail?dataId=92232

中医文献问题生成数据集

    https://tianchi.aliyun.com/dataset/dataDetail?dataId=86895

中药说明书实体识别

    https://tianchi.aliyun.com/dataset/dataDetail?dataId=86819


视觉识别
密集标注视频分割数据集DAVIS
    https://tianchi.aliyun.com/dataset/dataDetail?dataId=91821
大型视频物体分割数据集Youtube VOS
    https://tianchi.aliyun.com/dataset/dataDetail?dataId=91865 
行为识别数据集UCF101
    https://tianchi.aliyun.com/dataset/dataDetail?dataId=92158
大型人类动作数据集HMDB
    https://tianchi.aliyun.com/dataset/dataDetail?dataId=92170
大型视频人物活动理解基准数据集ActivityNet
    https://tianchi.aliyun.com/dataset/dataDetail?dataId=92178
3D图形数据集
    https://tianchi.aliyun.com/dataset/dataDetail?dataId=92197
多物体数据集
    https://tianchi.aliyun.com/dataset/dataDetail?dataId=92210
手写数字数据集MNIST
    https://tianchi.aliyun.com/dataset/dataDetail?dataId=92224
环境常见物体数据集COCO
    https://tianchi.aliyun.com/dataset/dataDetail?dataId=92230
分层视频高细粒度动作理解数据集
    https://tianchi.aliyun.com/dataset/dataDetail?dataId=92297
优酷视频增强和超分数据集
    https://tianchi.aliyun.com/dataset/dataDetail?dataId=39568
视频字幕数据集
    https://tianchi.aliyun.com/dataset/dataDetail?dataId=75173
 
生活通用场景
红酒品质鉴别
    https://tianchi.aliyun.com/dataset/dataDetail?dataId=44
吸烟打电话行为图片数据集
    https://tianchi.aliyun.com/dataset/dataDetail?dataId=89271
摔倒姿态图片数据集
    https://tianchi.aliyun.com/dataset/dataDetail?dataId=89276
人群图片数据集
    https://tianchi.aliyun.com/dataset/dataDetail?dataId=89278
房间内移动的路径指示数据集
    https://tianchi.aliyun.com/dataset/dataDetail?dataId=90116

自动驾驶社交媒体
自动驾驶数据集KITTI
    https://tianchi.aliyun.com/dataset/dataDetail?dataId=92225
滴滴驾驶行为开放数据集
    https://tianchi.aliyun.com/dataset/dataDetail?dataId=92339
剑桥道路与驾驶场景图像分割数据集CamVid
    https://tianchi.aliyun.com/dataset/dataDetail?dataId=92341
伯克利深度驾驶数据集
    https://tianchi.aliyun.com/dataset/dataDetail?dataId=92344


科学地理

天文时域数据集
    https://tianchi.aliyun.com/dataset/dataDetail?dataId=88856
人体动力学行为视频数据集
    https://tianchi.aliyun.com/dataset/dataDetail?dataId=92003
谷歌地标数据集
    https://tianchi.aliyun.com/dataset/dataDetail?dataId=86611
街景图片中文识别数据集
    https://tianchi.aliyun.com/dataset/dataDetail?dataId=91978
悉尼城市物体数据集
    https://tianchi.aliyun.com/dataset/dataDetail?dataId=92310

更多行业场景的数据集,欢迎访问天池官方数据集精品集合页面,浏览器访问下方链接或者直接点击阅读原文即可。
https://tianchi.aliyun.com/specials/promotion/collectionofdataset_2021/

阿里巴巴经济体数据集集结了淘系技术、阿里妈妈、蚂蚁集团和本地生活等内部团队,覆盖商品信息、用户行为、基础设施等领域,涵盖图片、视觉、视频、搜索推荐和NLP等技术领域。

在这里,你可以找到电商图片、视频分割、用户搜索、物流配送等领域全量数据。行业核心场景数据集联动了城市大脑、万里云、妙健康等头部企业,链接了工业、医疗、金融、自然科学、交通等数字化转型的核心场景,推动相关行业提高效率和成果落地。开发者们可以利用这些数据训练模型或验证算法,找到现实问题的最优解法。
论文凝结了开发者的科研心血。近来大家也都热衷于复现论文来学习提升。在集合页面,我们整理了数据集相关的论文和开源代码,更有论文原作者的倾心推荐。

目前已上线集成隐式证据来预测临床结果、电商商品视频描述生成工具、阿里巴巴aBeacon系统的快递送达检测和M6-v0:多模态预训练的图像语言互动。随着优质数据资源的不断积累,天池数据集也成为阿里内部展示论文数据的首选平台,会定期更新,也欢迎大家投稿到公邮 tianchi_open_dataset@alibabacloud.com

2021中文医疗信息处理挑战榜
数据集打榜在原有数据基础上扩充强化,极大促进数据开源。斯坦福大学围绕ImageNet数据集发起的ILSVRC就一直是业内津津乐道的话题。

现在天池数据集平台已上线2个任务,包括脊柱疾病诊断和大麦遥感检测,可通过打榜数据集页面开始挑战。
在平台丰富的医疗数据基础上,天池联合中国中文信息学会医疗健康与生物信息处理专业委员会发起2021中文医疗信息处理挑战榜,由医渡云、妙健康和阿里巴巴达摩院等成员参与筹备。

挑战榜包括NER、QA等四大技术维度,覆盖药品说明书、电子病历、健康文章问答、科研文献等数据来源,涉及中医、糖尿病、新冠疫情以及常见疾病等领域,能较好地体现中文医疗信息处理的技术难点,是中文领域的首个权威的综合数据榜单。

挑战榜提供在线打榜、实时出分、综合排行等方式,广泛邀请相关研究机构参与排行,共同致力于推动中文医疗信息数据标准化,推动中文信息处理技术创新。

长按扫码直达挑战榜



创作不易,点赞支持
点赞+在看+转发

点击阅读原文

查看更多精品数据集

浏览 195
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报