向AI转型的程序员都关注了这个号👇👇👇
人工智能大数据与深度学习 公众号:datayx
比赛将为参赛者提供一组用户在长度为 91 天(3 个月)的时间窗口内的广告点击历史记录作为训练数据集。每条记录中包含了日期 (从 1 到 91)、用户信息 (年龄,性别),被点击的广告的信息(素材 id、广告 id、产品 id、产品类目 id、广告主 id、广告主行业 id 等),以及该用户当天点击该广告的次数。测试数据集将会是另一组用户 的广告点击历史记录。提供给参赛者的测试数据集中不会包含这些用户的年龄和性别信息。本赛题要求参赛者预测测试数据集中出现的用户的年龄和性别。
1. 环境配置
Pytorch
Linux Ubuntu 16.04, 256G内存,4*p100
pip install transformers==2.8.0 pandas gensim scikit-learn filelock gdown
目标检测/文本检测系列算法讲解课程(13课时)
机器学习系列算法理论讲解课程(20课时)
深度神经网络算法(38课时)
知识图谱(11课时)
代码 获取方式:
分享本文到朋友圈
关注微信公众号 datayx 然后回复 广告 即可获取。
AI项目体验地址 https://loveai.tech
凡在本淘宝店:紫荷包饰 内购买任何一款包包
承诺赠送以下全套学习视频资料
店铺地址:
https://shop585613237.taobao.com
2. 模型介绍
3. 低配置资源建议
1)内存不足或者只是想简单跑下完整代码,请只使用初赛数据:
去掉src/prepocess.py的8, 15, 22行
2)如果显存不足,请下载10中的bert-small模型,并调整batch size
4. 运行完整过程
可运行以下脚本,运行整个过程并生成结果。或按照3-7节的说明依次运行。
bash run.sh
5. 数据下载
通过该网站下载数据集到data目录,或运行下面的命令进行下载
gdown https://drive.google.com/uc?id=15onAobxlim_uRUNWSMQuK6VxDsmGTtp4
unzip data.zip
rm data.zip
6. 数据预处理
合并所有文件,并分为点击记录文件(click.pkl),用户文件(train_user.pkl/test_user.pkl)
python src/preprocess.py
7. 特征提取
python src/extract_features.py
8. 预训练 Word2Vector 与 BERT
这里提供两种方式获得预训练权重: 重新预训练或下载预训练好的权重
注: Word2Vector和BERT权重必须一致,即要么全部重新预训练,要么全部下载
1) 预训练Word2Vector
预训练word2vector
python src/w2v.py
或下载预训练好的W2V
gdown https://drive.google.com/uc?id=1SUpukAeXR5Ymyf3wH3SRNdQ3Hl2HazQa
unzip w2v.zip
cp w2v/* data/
rm -r w2v*
2) 预训练BERT
预训练BERT (如果GPU是v100,可以安装apex并在参数上加--fp16进行加速)
10. 不同规模的预训练模型
由于此次比赛融合了不同规模大小的预训练模型,在此也提供不同规模的预训练模型:
BERT-small, BERT-base, BERT-large, BERT-xl
其中bert-base效果最好
#bert-small
gdown https://drive.google.com/uc?id=1bDneO-YhBs5dx-9qC-WrBf3jUc_QCIYn
#bert-base
gdown https://drive.google.com/uc?id=1ToAJwl_oRAeRNyYF_FK0B2APVXlPFTlq
#bert-large
gdown https://drive.google.com/uc?id=1yQeh3O6E_98srPqTVwAnVbr1v-X0A7R-
#bert-xl
gdown https://drive.google.com/uc?id=1jViHtyljOJxxeOBmxn9tOZg_hmWOj0L2
机器学习算法AI大数据技术
搜索公众号添加: datanlp
长按图片,识别二维码
阅读过本文的人还看了以下文章:
基于40万表格数据集TableBank,用MaskRCNN做表格检测
《深度学习入门:基于Python的理论与实现》高清中文PDF+源码
2019最新《PyTorch自然语言处理》英、中文版PDF+源码
《21个项目玩转深度学习:基于TensorFlow的实践详解》完整版PDF+附书代码
PyTorch深度学习快速实战入门《pytorch-handbook》
【下载】豆瓣评分8.1,《机器学习实战:基于Scikit-Learn和TensorFlow》
李沐大神开源《动手学深度学习》,加州伯克利深度学习(2019春)教材
【Keras】完整实现‘交通标志’分类、‘票据’分类两个项目,让你掌握深度学习图像分类
如何利用全新的决策树集成级联结构gcForest做特征工程并打分?
Machine Learning Yearning 中文翻译稿
斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)
中科院Kaggle全球文本匹配竞赛华人第1名团队-深度学习与特征工程
不断更新资源
深度学习、机器学习、数据分析、python
搜索公众号添加: datayx