【数据竞赛】kaggle竞赛宝典-多分类相关指标优化
机器学习初学者
共 2243字,需浏览 5分钟
· 2021-03-03
赛题理解,分析,规划之多分类相关指标优化
这是一个系列篇,后续我们会按照我们第一章中的框架进行更新,因为大家平时都较忙,不会定期更新,如有兴趣欢迎长期关注我们的公众号,如有任何建议可以在评论区留言。
1. kaggle竞赛宝典-竞赛框架篇!
4.1 kaggle竞赛宝典-样本筛选篇!
4.2 kaggle竞赛宝典-样本组织篇!
1. categorization accuracy
1.1 定义
其中,为测试样本的个数,为第个样本的标签,为预测的第个样本的类别。
1.2 案例
What's Cooking? Anomaly Detection Challenges 2015 - Challenge 2 Ghouls, Goblins, and Ghosts... Boo! Cdiscount’s Image Classification Challenge Sentiment Analysis on Movie Reviews
1.3 求解
使用multiclass第对应的损失函数,
表示第个样本标签为的情况,如果标签为则是1,反之为0。则是模型预测样本属于第的概率。
2. MultiLogloss
2.1 定义
其中,为测试样本的个数,为类标签的个数。
2.2 案例
San Francisco Crime Classification Telstra Network Disruptions TalkingData Mobile User Demographics Walmart Recruiting: Trip Type Classification Shelter Animal Outcomes The Nature Conservancy Fisheries Monitoring Two Sigma Connect: Rental Listing Inquiries Personalized Medicine: Redefining Cancer Treatment
2.3 求解
针对准确率问题,目前常采用的损失函数为multiclasslogloss ,其数学形式如下:
直接进行优化即可。
3. MAP(Mean Average Precision )
3.1 定义
其中为用户的个数,为在截止点处的精度(Precision),是预测物品的数量,是给定用户购买物品的数量。如果,则精度定义为0。
3.2 案例
Coupon Purchase Prediction Facebook V: Predicting Check Ins
3.3 求解
使用sigmoid_cross_entropy,注意与其它常用的多分类损失函数的区别。
4. Mean F1
4.1 定义
4.2 案例
Transfer Learning on Stack Exchange Tags
4.3 求解
Top5有一名开源的选手选用的是Mean square Loss进行的优化.
5. Average Jaccard Index
5.1 定义
两个区域和的Jaccard Index可以表示为:
其中TP表示True positive的面积,FP表示false positive的面积,FN表示false negative的面积。
5.2 案例
Dstl Satellite Imagery Feature Detection
5.3 求解
基于Sigmoid的损失函数。
参考文章
损失函数softmax_cross_entropy、binary_cross_entropy、sigmoid_cross_entropy之间的区别与联系:https://blog.csdn.net/sjyttkl/article/details/103958639 https://github.com/nagadomi/kaggle-coupon-purchase-prediction https://github.com/viig99/stackexchange-transfer-learning https://deepsense.io/deep-learning-for-satellite-imagery-via-image-segmentation/ https://arxiv.org/pdf/1505.04597.pdf https://github.com/toshi-k/kaggle-satellite-imagery-feature-detection
往期精彩回顾
本站qq群704220115,加入微信群请扫码:
评论
小美播报|3月IPTV数据排行榜发布!
小美播报3月IPTV数据排行榜:《与凤行》登顶连续剧榜榜首拥有4.05亿家庭用户的中国IPTV平台已经成为国内主流视听平台,IPTV平台数据对视听产业各环节都具有重要意义。截至2024年4月,全国已有29个省级IPTV加入“看中国”,覆盖全国超2.25亿户家庭、辐射近7亿人。点击查看详情湖南广电与马
流媒体网
0
面试官:MySQL 上亿大表,如何深度优化?
来源:cnblogs.com/YangJiaXin/p/10828244.html背景分析测试实施索引优化后delete大表优化为小批量删除总结前段时间刚入职一家公司,就遇上这事!背景XX实例(一主一从)xxx告警中每天凌晨在报SLA报警,该报警的意思是存在一定的主从延迟(若在此时发生主从切换,需要
好好学java
0
Excel 黑科技:轻松优化工作薄性能
随着时间的推移,大型工作表可能会收集不必要的格式和元数据,从而降低性能。当数据被删除但基础格式未被删除时,可能会发生这种情况。Excel 现在可以自动检测性能问题并提出解决方法。您还可以随时手动运行检查性能命令来识别和解决性能问题。当我们打开工作簿时,Excel 会自动检查具有不必要格式的单元格。如
PowerBI战友联盟
6
6大类最新AI工具,共计39个分类梳理!
你好,我是郭震俗话说,工欲善其事必先利其器,用好AI工具一定事半功倍!这也是AI技术革命带给我们最能感知到的地方之一。这篇文章总结了6大类AI工具,分别包括:问答,图像,视频,AI编程,AI提示词和AI大模型,一共梳理挑选了共计39个AI工具,其中很多都是开源!文末还包括完整思维导图,大家记得收藏这
Python与算法社区
10
python读取一个文件里面几百个csv数据集然后按照列名合并一个数据集
点击上方“Python爬虫与数据挖掘”,进行关注回复“书籍”即可获赠Python从入门到进阶共10本电子书今日鸡汤但使龙城飞将在,不教胡马度阴山。大家好,我是Python进阶者。一、前言前几天在Python最强王者交流群【FiNε_】问了一个Python自动化办公,问题如下:python 读取一个文
Python爬虫与数据挖掘
3
【用户画像、标签体系、CDP&DMP&CRM】相关资料汇总
用户画像、标签体系等相关资料概览,已同步到知识星球存储供下载,不断更新中;需要源文件的朋友可以公众号后台回复:报告以上为用户画像、标签体系等相关资料概览,已同步到知识星球存储供下载,不断更新中;需要源文件的朋友可以公众号后台回复:报告
数据D江湖
13
AKShare-股票数据-恐惧贪婪指数
作者寄语本次更新股票数据-恐惧贪婪指数接口。主要修复该接口,目前该接口可以获取 A 股 恐惧贪婪指数 数据。欢迎加入专注于财经数据和量化投资的【数据科学实战】社区,加入方式参见文末!更新接口"index_fear_greed_funddb" # 恐惧贪婪指数恐惧贪婪指数接口: index
数据科学实战
217
曲福田来盱调研国土空间规划等相关工作
4月19日,省人大常委会副主任曲福田带队来盱调研我县国土空间规划等相关工作。省人大常委会办公厅副主任徐洹,省人大环资城建委员会委员汤浩,省自然资源厅一级巡视员李如海,省生态环境厅总工程师王燕枫,市人大常委会常务副主任、党组副书记周毅,市人大常委会副主任赵权,市人大常委会秘书长殷强,以及县领导林波、袁
盱眙老妹
0