最新数据挖掘赛事方案梳理！-技术圈

本文共1500字，建议阅读9分钟
本文带你沉浸式感受糖尿病遗传风险预测赛题的从0到1的参赛过程。

赛题介绍

科大讯飞：糖尿病遗传风险检测挑战赛。背景：截至2022年，中国糖尿病患者近1.3亿。中国糖尿病患病原因受生活方式、老龄化、城市化、家族遗传等多种因素影响。同时，糖尿病患者趋向年轻化。

糖尿病可导致心血管、肾脏、脑血管并发症的发生。因此，准确诊断出患有糖尿病个体具有非常重要的临床意义。糖尿病早期遗传风险预测将有助于预防糖尿病的发生。

赛事地址：

http://challenge.xfyun.cn/topic/info?type=diabetes&ch=ds22-dw-gzh01

源代码：

https://github.com/datawhalechina/competition-baseline

赛题任务

在这次比赛中，您需要通过训练数据集构建糖尿病遗传风险预测模型，然后预测出测试数据集中个体是否患有糖尿病，和我们一起帮助糖尿病患者解决这“甜蜜的烦恼”。

赛题数据

赛题数据由训练集和测试集组成，具体情况如下：

训练集：共有5070条数据，用于构建您的预测模型
测试集：共有1000条数据，用于验证预测模型的性能。

其中训练集数据包含有9个字段：性别、出生年份、体重指数、糖尿病家族史、舒张压、口服耐糖量测试、胰岛素释放实验、肱三头肌皮褶厚度、患有糖尿病标识（数据标签）。

评分标准

采用二分类任务中的F1-score指标进行评价，F1-score越大说明预测模型性能越好，F1-score的定义如下：

其中：

赛题Baseline

导入数据


import pandas as pdimport lightgbm

数据预处理


data1=pd.read_csv('比赛训练集.csv',encoding='gbk')data2=pd.read_csv('比赛测试集.csv',encoding='gbk')#label标记为-1data2['患有糖尿病标识']=-1#训练集和测试机合并data=pd.concat([data1,data2],axis=0,ignore_index=True)
#特征工程"""人体的成人体重指数正常值是在18.5-24之间低于18.5是体重指数过轻在24-27之间是体重超重27以上考虑是肥胖高于32了就是非常的肥胖。"""def BMI(a):    if a<18.5:        return 0    elif 18.5<=a<=24:        return 1    elif 24<a<=27:        return 2    elif 27<a<=32:        return 3    else:        return 4
data['BMI']=data['体重指数'].apply(BMI)data['出生年份']=2022-data['出生年份']  #换成年龄#糖尿病家族史"""无记录叔叔或者姑姑有一方患有糖尿病/叔叔或姑姑有一方患有糖尿病父母有一方患有糖尿病
"""def FHOD(a):    if a=='无记录':        return 0    elif a=='叔叔或者姑姑有一方患有糖尿病' or a=='叔叔或姑姑有一方患有糖尿病':        return 1    else:        return 2
data['糖尿病家族史']=data['糖尿病家族史'].apply(FHOD)data['舒张压']=data['舒张压'].fillna(-1)"""舒张压范围为60-90"""def DBP(a):    if a<60:        return 0    elif 60<=a<=90:        return 1    elif a>90:        return 2    else:        return adata['DBP']=data['舒张压'].apply(DBP)data

训练数据/测试数据准备


train=data[data['患有糖尿病标识'] !=-1]test=data[data['患有糖尿病标识'] ==-1]train_label=train['患有糖尿病标识']train=train.drop(['编号','患有糖尿病标识'],axis=1)test=test.drop(['编号','患有糖尿病标识'],axis=1)

构建模型


def select_by_lgb(train_data,train_label,test_data,random_state=2022,metric='auc',num_round=300):    clf=lightgbm    train_matrix=clf.Dataset(train_data,label=train_label)
    params={            'boosting_type': 'gbdt',              'objective': 'binary',            'learning_rate': 0.1,            'metric': metric,            'seed': 2020,            'nthread':-1 }    model=clf.train(params,train_matrix,num_round)    pre_y=model.predict(test_data)    return pre_y

模型验证


test_data=select_by_lgb(train,train_label,test)pre_y=pd.DataFrame(test_data)pre_y['label']=pre_y[0].apply(lambda x:1 if x>0.5 else 0)result=pd.read_csv('提交示例.csv')result['label']=pre_y['label']result.to_csv('baseline.csv',index=False)

上分建议

本题中的模型部分用了相当简单的方法，lightgbm算法中没有进行交叉数据验证，同时也仅仅使用了默认参数，因此选手可以在这个Baseline的基础上进行进一步的参数优化与模型融合，同时注意到本公开的算法中特征工程构建进行了一部分的演示，选手可以根据糖尿病的相关医学特点进行对特征进一步挖掘，从而提升比赛的成绩~