读博后降维打击数学建模!

数据管道

共 5969字,需浏览 12分钟

 · 2022-04-12


文章来自知乎提问:如何评价 2021 年美国大学生数学建模竞赛?今年赛情如何?

来凑个热闹降维打击美赛了,写一写前两题的思路。2018年读大二的时候拿了一次美赛H,现在已经读PhD了,再看当时做的跟屎一样。看了几个回答发现很多人甚至对题目的理解都是错的,私以为比赛最重要的是解决问题,而不是堆砌一堆花里胡哨的很Fancy的方法。

A题

第一问:描述 breakdown of ground litter and woody fibers 在  fungal activity in multiple species of fungi 下的情况

要解决这个问题首先要搞明白用什么来量化分解情况?有什么影响分解的情况?fungal activity真菌活动是什么?多种真菌到底是哪几种?

介于我们不是养蘑菇专家,我们能获取的信息基本都来源于A trait-based understanding of wood decomposition by fungi 这篇文章,下载下来看看有哪些信息。虽然我们不能抄袭论文里面的方法,但可以帮助我们了解一些基本概念。

在Introduction里面我们发现一句话:

Models traditionally used microbial biomass as a proxy of decomposer activity (3, 6), treating the microbial community as a single homogeneous group or a small number of functionally distinct pools (7).

传统方法一般使用 microbial biomass 生物量来代表分解者活动,这个问题里面显然fungi就是decomposer, 所以fungi的量应该就代表这个问题里面的真菌活动状况。阅读文章后,我们发现实验中的hyphal density(菌丝密度) 应该就是对应这个生物量。

To characterize the growth of each isolate, we quantified its hyphal extension rate and hyphal density (presented in ref. 34)

那么用什么来量化分解情况呢?论文里面是这样说的:

Here, we explore which fungal characteristics predict wood decomposition rate across a range of common wood decomposer fungi.

就是wood decomposition rate。具体的,这个根据木块被真菌吃掉的数量来计算的。

we measured the mass loss of wood blocks when colonized by each fungus to estimate a standardized wood decomposition rate

下一个问题是多种真菌到底有哪几种? 从第二题要求往模型里面加入Fungi不同种类之间的相互作用,我们可以大体推测第一问不需要考虑多种fungi的内部作用。

OK 第一问我们的思路已经清楚了,题目想让我们建立一个数学模型(回归模型)来刻画自变量(真菌的量fungi biomass)和因变量(分解率wood decomposition rate)的关系,这就是传统方法的做法。我觉得在下面两个文章有可能找到关于两个变量之间关系的一些基本假设。

K. L. McGuire, K. K. Treseder, Microbial communities and their relevance for ecosystem models: Decomposition as a case study. Soil Biol. Biochem. 42, 529–535 (2010)


S. Manzoni, A. Porporato, Soil carbon and nitrogen mineralization: Theory and models across scales. Soil Biol. Biochem. 41, 1355–1379 (2009).

第二问:考虑不同真菌间的相互作用,在模型里面加入Fig1和Fig2的信息

首先搞明白上一问中的遗留问题,真菌到底有哪些类型? 在文章中我们发现:

First, we use a database of 22 fungal traits previously measured in each of 34 wood rot fungi collected from a wide geographic range across North America (25, 34–36) to identify potential drivers of wood decomposition.

这里作者用了22种真菌特性进行研究,那真菌特性是什么东西?为什么里面没有出现真菌的类型?我们继续从论文中探索,发现这么一句话:

However, in recent years, the development of traitbased approaches has begun to transform our understanding of broad-scale functional patterns. By linking traits to ecosystem functioning, these approaches have been used in plant and animal ecology to infer the functioning of novel communities without prior knowledge of the taxa that are present.

大概就是现在一种新的 traitbased 研究方法,在仅知道一群真菌的特性的情况下(不需要考虑他们的种类),就可以代替知道真菌的种类进行研究。所以我们这一题的核心或许是不考虑具体的species,而是考虑一堆具有相同traits的不同类真菌(例如长得快的菌,抗冻的菌……等等),用他们的common trait作为种类的依据。

那么这些traits又是啥呢?从论文里我们发现这22种(2+11+9)traits可以分为三大类:

Hyphal extension rate and hyphal density reflect hyphal morphology and growth strategy,  ecological performance traits (11 in total) relate to combative ability.tolerance of a range of temperature and moisture conditions (25),  and finally, the production of oxidative and hydrolytic enzymes (9 traits) promotes nutrient acquisition from organic resources (26).

但要注意问题里面说了,我们只关注growth rate和moisture tolerance就好:

For this MCM Problem you should focus on just two traits of a fungus: the growth rate of the fungus and the fungus’ tolerance to moisture.

OK 那么问题明确了,这里我们需要加入growth rate和moisture tolerance到我们在第一问中建立的一元回归模型中,把它变成一个多元回归模型,相当于是在原来的传统方法上,引入这篇论文里的方法,因此需要使用这篇文章的数据:

https://www.pnas.org/lookup/suppl/doi:10.1073/pnas.1909166117/-/DCSupplemental

要注意你最后模型的结果,要对比一下原始论文里的Fig.3,看跟这个图是不是一致。

第三问,分析模型,并刻画不同种类真菌之间长期与短期的关系

第二问建完模型之后,分析下几个自变量之间的关系(相关性和独立性),看一看大概有什么关系,根据这些关系做一些统计分析。例如是否发现自变量之间存在此消彼长的情况,可以用不同菌之间的竞争来解释等等……

重要的是注意这几点:

  • 长期与短期的动态关系,要考虑他们的变化趋势(可以参考时间序列中提取趋势的方法)。考虑他们之间的竞争关系,作者进行了pair wise的竞争对比在这篇文了的Combative ability数据里面。
  • 检验 rapid fluctuations 对各个变量影响的sensitivity (引入噪声进行假设检验)
  • 分析气候变化带来的影响。此时再加入自变量温度、湿度等指标。要用到这篇论文里的Temperature and moisture niche数据。

……

后面两问也需要用到前三问建立的回归模型做一些预测。把基本概念搞清楚以后,思路就有了。

B题

B题看了半天,直接看不懂,先说说我对于题目的理解。

题目中出现了几种对象:

  • EOC:理解为救援指挥中心,应该是一些固定位置的站点,但是Google没搜到位置,也不知道是一个还是好多个。
  • SSA drones:带摄像头和传感器的无人机,用来监视救火队的,理解为在救火队附近使用的无人机(理解为0距离,摄像头一般看不了很远)
  • Radio Repeater drones:带中继器的无人机,用来帮助EOC和救火队交流的无人机,可以离救火队远一点(20KM)
  • Firefighters :救火队

我搜了搜SSA是啥,下面有个解释。情景感知是happening around you, at or near your physical location,应该是观测很近的那种。我觉得就像是美国特战队那种,自己拿着的小型无人机。

Situational Awareness is a concept closely involved with physical security information management (PSIM, see the white papers on this subject). It is usually defined as being aware of what is happening around you, at or near your physical location, or at some other location where you are supposed to be or where there are assets or people that you must protect. 

ref: https://www.titan-vision.com/pages/hot-topics/total-situational-awareness.html

几个很疑惑的问题:

  • 两种无人机之间有没有交流?在问题里面没看到。
  • 无人机从哪里开始飞? 是救火队拿着到时候飞,还是从EOC飞过去?我觉得应该是救火队拿着飞,而且从下面的飞机悬停也可以大概推测。

大概推测一下情景是这样的,K个带中继器的无人机悬停在距离EOC固定距离(20km)的圆内,保证加上救火队的交流半径(5km平地,2km市区)能够跟EOC交流。因为每个救火队拿着一个SSA无人机,所以直接把救火队小组抽象为SSA,SSA是需要跟着救火队移动的。

你要买很多SSA无人机,以及少量的带中继器的无人机。问题说带中继器和遥感的无人机一万美金很贵,应该是那种大型的用来运输东西的,SSA的小型无人机用来监视的带摄像头那种,类似大疆的,Amazon搜搜应该很便宜?

Akme Corporation's prototype WileE–15.2X hybrid drone is projected to cost approximately $10,000 (AUD) when equipped with either a radio repeater or video & telemetry capability.

损失函数可以定义一个 【失联的SSA(救火队)数量】【没有及时被救援的火场面积】 与 【买两种无人机花的钱】的加权,正好体现题目中要求的:

Your model should 【balance capability and safety】 with 【economics】,

你可以改变这三个权重去做trade-off,看看情况是什么样。

然后我想到的约束有下面几个:

  • 救火队(SSA)的距离(5km平地,2km市区)+  中继器的距离(20km) 小于与EOC的距离
  • 每个火点的多少距离内需要至少1个救火队
  • (SSA)救火队(SSA)赶到火点的时间需要小于K分钟

这些约束不需要完全满足,用拉格朗日松弛一下去求一个下界。

关于是不是SSA和中继器都用一种无人机,我倾向于不是使用一种无人机,否则第一问balance经济和安全就没法做了,只需要关注安全就好了。B题的思路是基于我理解正确的情况下,如果我理解的不对,那么思路就是不对的,大家参考下吧。

第二问我的理解是,去随机生成一些极端的大火情况,然后看第一问种哪些约束被打破了。根据那些打破的约束,看应当如何进行调整。

……

我知道美赛对于没有经过系统科研训练的本科生很难很头痛,但这也是这类比赛的意义所在,能够在三天的时间内专心独自解决一个实际问题,是很痛苦但结束后会觉得很享受的事情。贴一句我很喜欢的爆裂鼓手的一句话:"If you want the fucking core part, earn it! "

·················END·················

推荐阅读

  1. 我在字节做了哪些事

  2. 写给所有数据人。

  3. 从留存率业务案例谈0-1的数据指标体系

  4. 数据分析师的一周

  5. 超级菜鸟如何入门数据分析?


欢迎长按扫码关注「数据管道」

浏览 6
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报