首页 文章详情

AI 实战 | 数据集下载合辑(持续更新维护中)

大邓和他的Python | 101 2022-12-22 13:41 0 0 0
UniSMS (合一短信)


内容整理自

- 作者:韩信子
- 链接: https://www.showmeai.tech/article-detail/305
- 公众号: ShowMeAi研究中心

文章&数据集清单

[1] 使用 Mito 和 Bamboolib 进行超大量数据的处理(Python)

[2] 运动手环的数据分析挖掘与建模案例

[3] 钻石价格预测的ML全流程!从模型构建调优道部署应用!

[4] 机器学习建模应用流水线 pipeline

[5] 使用 Merlion 库快速开发时间序列模型

[6] 图数据挖掘!使用图分析+AI进行保险欺诈检测

[7] 人力资源流失场景机器学习建模与调优

[8] 音乐流派识别的机器学习系统搭建与调优

1. 使用Mito和Bamboolib进行超大量数据的处理(Python)

https://www.showmeai.tech/article-detail/294

Mito 和 Bamboolib 是 Python 库,可以快速流畅地处理大文件表格,功能性与易用性与 Excel 不相上下,但是可以避免出现 Excel 中的卡顿和崩溃。二者的安装和调用都非常简单,绝对值得一试~

Spreadsheets 数据集 https://pan.baidu.com/s/1_k2_mq_V6n0gxP2fmjPuTQ

提取码:show


2. 运动手环的数据分析挖掘与建模案例

https://www.showmeai.tech/article-detail/301

运动穿戴设备(比如小米手环、华为手表、fitbit、Apple Watch)中记录了大量的运动数据,也记录着佩戴者的身体状况。本文结合 Kaggle fitbit 数据集,分析运动规律和卡路里的消耗情况。

Fitabase 运动佩戴设备数据集https://pan.baidu.com/s/14QgitJVU7jQ39qE3_kI1MQ

提取码:show


3. 钻石价格预测的ML全流程!从模型构建调优道部署应用!

https://www.showmeai.tech/article-detail/302

本文结合 6000 颗钻石的数据,通过克拉重量、切工、颜色和其他特征等属性来预测钻石价格。这是一个完整的企业级建模案例,包含从探索性数据分析、数据准备、模型选择/训练/调优、模型保存和部署的全流程。案例用到的 PyCaret 和 FastAPI 是非常高效的工具,推荐!

pycaret-master 数据集https://pan.baidu.com/s/1Y9oszlUt6G4yvUxO-ZN-JA

提取码:show


4. 机器学习建模应用流水线 pipeline

https://www.showmeai.tech/article-detail/287

机器学习建模高级用法!构建企业级AI建模流水线,不同环节有序地构建成工作流(pipeline)。本文以『客户流失』为例,讲解如何构建 SKLearn 流水线。

Newspaper churn 数据集https://pan.baidu.com/s/1EUTjTY8SoVaSbfsxWqSFBQ

提取码:show


5. 使用 Merlion 库快速开发时间序列模型

https://www.showmeai.tech/article-detail/288

股市预测,销量预测,病毒传播...使用 Merlion 时间序列建模搞定全部!看看流程详解:加载和转换数据、建立和训练模型、模型结果后处理、评估模型性能。

Monthly Airline Passenger Numbers 

1949-1960 数据集https://pan.baidu.com/s/18AZK1YQyD66N79ZIkVS6XA

提取码:show


6. 图数据挖掘!使用图分析+AI进行保险欺诈检测

https://www.showmeai.tech/article-detail/307

本文将基于保险欺诈场景案例讲解如何进行有效的图挖掘,并将挖掘到的信息提供给AI模型,辅助精准检测和识别商业保险欺诈。

insurance claims 保险索赔数据集:https://pan.baidu.com/s/1SxDGYmtSJHWef6iC7BnU6w

提取码:show


7. 人力资源流失场景机器学习建模与调优

https://www.showmeai.tech/article-detail/308

本文通过数据科学和AI的方法,分析挖掘人力资源流失问题,构建基于机器学习的解决方案,并通过对AI模型的反向解释,深入理解导致人员流失的主要因素。

HR-Employee-Attrition 数据集:https://pan.baidu.com/s/1pOL-9cpB6XPzmwXBj7396w

提取码:show


8. 音乐流派识别的机器学习系统搭建与调优

https://www.showmeai.tech/article-detail/309

音乐领域,借助于歌曲相关信息,模型可以根据歌曲的音频和歌词特征,将歌曲精准进行流派分类。本文讲解如何基于机器学习完成对音乐的识别分类。

Spotify 音乐数据集:https://pan.baidu.com/s/1CIp2dilgDqnPxiCEyGyp4w

提取码:show


19. 基于TensorFlow搭建混合神经网络推荐系统

https://www.showmeai.tech/article-detail/310

本文从常见的推荐系统方法(基于内容、协同过滤等近邻算法、基于知识等)讲起,一直覆盖到前沿的新式推荐系统,不仅详细讲解原理,还手把手教大家如何用代码实现。

MovieLens 电影推荐数据集:https://pan.baidu.com/s/1HLwDdxmmSgokc1IUFEPMgQ

提取码:show


20. 基于深度学习的音频检索技术与系统搭建

https://www.showmeai.tech/article-detail/311

本文从常见的推荐系统方法(基于内容、协同过滤等近邻算法、基于知识等)讲起,一直覆盖到前沿的新式推荐系统,不仅详细讲解原理,还手把手教大家如何用代码实现。

音频检索示例数据集:https://pan.baidu.com/s/1bhwYrgq4vV3Caa4bBWmhqg

提取码:show




精选文章

管理世界 | 使用文本分析词构建并测量短视主义

管理世界 | 使用 经营讨论与分析 测量 企业数字化指标

支持开票 | Python实证指标构建与文本分析

推荐 | 社科(经管)文本分析快速指南

视频分享 | 文本分析在经管研究中的应用

转载 | 金融学文本大数据挖掘方法与研究进展

FinBERT | 金融文本BERT模型,可情感分析、识别ESG和FLS类型

BERTopic | 使用推特数据构建动态主题模型

JM2022综述 | 黄金领域: 为营销研究(新洞察)采集网络数据

可视化 | 绘制《三体》人物关系网络图

资料 | 量化历史学与经济学研究

长期征稿 | 欢迎各位前来投稿

1.5G数据集 | 200万条Indiegogo众筹项目信息

12G数据集 | 23w条Kickstarter项目信息

17G数据集 | 深交所企业社会责任报告

70G数据集 | 上市公司定期报告数据集

27G数据集 | 使用Python对27G招股说明书进行文本分析

1.5G数据集 | 200万条Indiegogo众筹项目信息

585w数据集 | 中国大陆企业工商注册信息

数据集 | 90w条中国上市公司高管数据

可视化 | 绘制《三体》人物关系网络图

Maigret库 | 查询某用户名在各平台网站的使用情况

MS | 使用网络算法识别创新的颠覆性与否

认知的测量 | 向量距离vs语义投影

Asent库 | 英文文本数据情感分析

PNAS | 文本网络分析&文化桥梁Python代码实现

PNAS | 使用语义距离测量一个人的创新力(发散思维)得分

tomotopy | 速度最快的LDA主题模型

Wow~70G上市公司定期报告数据集

100min视频 | Python文本分析与会计

安装python包出现报错:Microsoft Visual 14.0 or greater is required. 怎么办?

如何正确读入文本数据不乱码(解决文本乱码问题)

Faker库 | 生成实验数据


good-icon 0
favorite-icon 0
收藏
回复数量: 0
    暂无评论~~
    Ctrl+Enter