没有数分分析项目经历,如何在面试展示自己?

数据管道

共 2952字,需浏览 6分钟

 · 2020-08-31


“找实习好难啊,没有相关经历是不是可以放弃了?”


“没有实习/项目怎么找第一份实习啊?”


“没有数据项目怎么在面试中展示自己呀?”


——这是我在公众号后台中收到最多的连环问题……



想必这张图道出了很多人的心声……

其实没有实习,也并不意味着数分岗位向你关上了大门。那些即使没有实习,但仍然能够利用有限资源,做出相关项目成果的同学,也能在面试中获得面试官的青睐。

我们2019届的校招里,没有实习,但仍然去了VIVO,去了滴滴,去了银联的大有人在。

“那,说这么多,没有数分相关项目,如何在面试展示自己呢?”

“还能咋办?从现在开始,自己动手找项目做。”

毕竟想要展示自己,首先你需要一个真实的项目……

对我们来说,最简单、快捷的方式就是利用kaggle和天池的数据集,参考优秀的代码以及答辩案例,融合自己的思路,整理出相关的数据项目经历。

敲重点,这里我所说的数据项目经历,是偏数据分析方向的,而非算法方向。

参考了许多的数据集和案例分享,我推荐几个比赛数据集给你们,想提升自己Python能力,或者想补充项目经历的同学,都可以试试~

天池-数智教育可视化



赛题链接:
https://tianchi.aliyun.com/competition/entrance/231704/introduction?spm=5176.12281965.1006.1.835b24484p6EER

之所以将这个比赛放在第一位,是因为:和其他动辄需要搭建模型优化参数的算法比赛相比,这个数智教育可视化像是一股清流,更加看重你的思维能力,分析能力,指标量化能力,不需要过多的考虑算法优化问题,反而和数据分析实际工作的相似度更近。

数据集共计7份,全面包含了:近五年各班各学科的教师信息、当前在校学生详细信息、学生考勤信息、学生成绩、学生消费信息。

为什么说这个比赛项目和数据分析师日常的工作更加接近呢?

第一:最终呈现的结果是数据可视化看板,并且是针对不同人群的看板。这种输出方式要求我们充分考虑受众的特征,而不是一股脑的将所有指标放在一个看板上,只有经过深入的思考,才能确定应该向每个层次的人群展示什么数据。

第二:我们常说,数据分析除了展示日常的指标,最好能够给出结论。什么是展示结论呢?如果两个人同时展示班级维度的成绩、考勤数据,第一个人仅仅展示每个班级各科分数,考勤率等指标;而第二个人在此基础上,为每个指标赋予一定权重计算了班级综合得分,最终选出优秀班级以及问题班级,很明显,第二个人给出了结论,至少在班级评优时可以参考采用。

第三:根据已有的数据做简单的预测。其实建模并不是绝大多数数据分析师(商业分析师)的工作重点内容,针对这份数据集,简单的ARIMA时序模型就可以完成学生成绩分析的预测,在现实中能够辅助教师做学生指导的决策,当然,你也可以上XGBOOST,GBDT。

所以利用这些数据,我们可以做的事情包括:量化指标&简单预测+可视化输出

    看了一下网上优秀的答辩案例,整理了一份可视化分析框架,有兴趣的同学可以动手开始做了~~


天池-aribnb短租数据集分析赛



赛题链接:
https://tianchi.aliyun.com/competition/entrance/231715/introduction?spm=5176.12281973.1005.9.3dd54c2ai3uqkT

因为自己在工作中会处理许多酒店相关的数据,在看见这个数据集的时候,有种莫名的熟悉感。

数据分为汇总版和明细版两类。可从汇总版入手熟悉后,进阶使用完整版挖掘更多信息。

listings 数据为短租房源基础信息,包括房源、房东、位置、类型、价格、评论数量和可租时间等等。

calendar 数据为短租房源时间表信息,包括房源、时间、是否可租、租金和可租天数等等。

reviews 数据为短租房源的评论信息。汇总版中仅包括房源 listing_id和评论日期,用来时间序列和数据可视化分析。明细版还包括评论相关的内容和作者信息。

neighbourhoods 数据为北京的行政区划。

那如何用这份数据集来体现数据分析的能力呢?我主要想到了以下可以做的事情:

【1】   计算房东的质量分数,实现房东的精细化运营管理

我们可以量化房东旗下房源数量,房源位置,房源价格,可租天数、房源评价等信息,为房东计算质量分数。有了这个质量分数,airbnb能够有针对性的维护高质量房东,为他们提供佣金折扣以及各种福利待遇;也能够惩罚低质量房东,督促房东改进房源,提升平台的整理质量。

【2】   同理,也可以通过对房源信息进行量化,挖掘最受用户欢迎的房源

比如我们可能发现,整屋出租更受客户的欢迎;市中心西边地段9比市中心东边地段3的房源更受客户欢迎……通过对房源的地理位置,类型,最小供应天数,价格等数据进行量化建模,得到房源的欢迎度评分。可以指导airbnb和房东更有针对性的运营房源资源。

【3】   向客户推荐各个地区“最便宜”、“最精致”、“最小资”、“最有性价比”……的房源

Kaggle – hotel booking demand




赛题链接:
https://www.kaggle.com/jessemostipak/hotel-booking-demand

我可能对酒店数据有偏好……

这份赛题提供的数据集,数据集里包括了城市酒店和度假酒店的预定维度数据,例如预定时间,停留时间,成人/儿童/婴儿数量,早餐,停车位等等。

不仅可以做酒店预订的预测,也可以做出一份用户预定酒店的行为分析。

在大脑里构想了一下,没有比赛的压力,没有排名的限定,完全可以用这份数据做出一份简易版本《酒店出行偏好分析报告》。

在分析报告的PPT里,可以展示用户提前预定时长偏好、餐饮偏好、预定时间(月份)偏好、用户出行结构、酒店类型偏好等维度的数据。

不过缺点就是数据集脱离了实际需求场景。针对以上分析出来的行为偏好,我们都需要自己做进一步的思考——数据能够为业务带来什么建议,想到这一层,才能够足够自信的在面试过程中展示自己的工作。




其实不论是天池还是kaggle,都为我们提供了丰富的数据集。但并不是所有的数据集都适合我们拿来练手作为项目经历的补充,绝大多数的数据集都是偏向于算法优化的,这就导致数据集本身的数据字段不一定能够挖掘出和很多业务思想相关的东西。

数据分析和算法的区别之一就在于,以算法岗为求职目标的同学在看见数据集的时候,脑子里想到的一定是“我要怎么做才能让模型预测的更好?”;而以数分(商分)为求职目标的同学在看见数据集的时候,应该去判断“这些数据对我优化业务管理有什么帮助?”

其实没有数分相关的实习或者项目经历并不可怕,花上1个月的时间,投入120%的精力选择一个数据集琢磨,体验“数据清洗->数据探索->数据建模(数据可视化)->输出结论”的过程技巧性的总结成项目文档,一定能有所收获。甚至在面试的过程中,自己探索数据集的经历,能够成为你的亮点项目。
浏览 42
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报