37页pdf,埃默里大学最新「大数据时代事件预测」综述,ACM顶级期刊上发表
数据派THU
共 8763字,需浏览 18分钟
· 2021-08-04
来源:机器之心 本文约7800字,建议阅读10+分钟 本文为你全面总结了事件预测的问题定义,方法,应用,测评,数据,以及未来发展方向。
挑战 1:异构多输出预测问题。事件预测方法通常需要预测事件的多个方面,包括时间、地点、主题、强度和持续时间,每个方面都经常使用不同的数据结构。除了异构性,多个输出之前也有很强的相关性。另外,复杂的输出也导致了训练数据标注的难度和精度,以及预测准确性评估的难度。 挑战 2:不同输出之间的复杂关系。不同于机器学习里经常使用的传统的独立性假设,真实世界的事件预测往往是互相影响甚至互为因果。因此,除了建立当前观测与未来事件的前瞻性映射,未来事件之间的相关性也需要考虑。 挑战 3:实时预测的需求。事件预测一般需要对观测进行实施持续监控从而及时预报未来事件。然而在这个过程中,经过训练的预测模型逐渐变得过时,因为现实世界的规则和概念是持续变化的,数据的分布也是在变化的,比如社交媒体数据的用户年龄分布、全球气候情况等。 挑战 4:事件大数据本身的挑战。上述提到的挑战在事件预测的任务中进一步导致收集和利用事件数据的困难。这包括诸如带有异构噪声、数据不完整、多模态,多分辨率这些常见问题。同时事件的发生一般属罕见现象,因此样本的不平衡性是重要问题。另外在很多情况下会有对抗性数据引入,比如舆论监管导致的定向性数据缺失。
对现有技术的系统分类和总结。本文提供了事件预测方法的正式问题表述,并据此对当前技术进行系统性分类。同时本文讨论了不同子类别之间的关系、优点和缺点,以及每个子类别下技术的详细信息。稳重提出的分类法可以帮助领域专家找到合适的技术从而有针对性的解决问题。 主要应用领域的综合分类和总结。本文提供了对事件预测的应用领域详细分类。阐明每个应用领域的实际意义、难点、常用技术以及数据。这将有望帮助数据科学家和模型开发人员搜索其他应用领域和数据集来评估他们提出的方法,并扩展他们的先进技术以涵盖新的应用领域。 标准化的评估指标和程序。如前所述,事件预测的数据结构是复杂的,包含时间、位置、语义等。本文全面总结了事件预测的实验方法,从而标准化了事件预测的评估体系和方法。 对该领域研究现状和未来方向的深入讨论。基于对现有的工作的调查,本文总结和划定了当前事件预测技术和应用的研究前沿。文章最后提出对当前瓶颈、长期挑战和未来方向的讨论。
预测事件和真实事件的匹配
基于事件匹配结果的准确度指标计算
事件发生:关于事件在未来时间段内是否发生的二元值预测;
离散时间预测:事件将在未来的哪个时间段发生;
连续时间预测:未来事件将在哪个精确时间点发生。
基于栅格。这里会将连续空间划分成单元格网格,每个单元格代表一个空间区域。这个类型表示适用于事件的空间大小不可忽略的情况。
基于矢量。在这种情况下,每个位置都由一个无限小的抽象点表示 大小。这种表示方式最适合的情况包括事件的空间大小可以忽略不计或者事件的位置区域只能在离散空间,如网络节点等。
基于关联规则的方法。基于关联规则的方法是数据挖掘领域中最经典的事件预测方法之一,通常由两个步骤组成:首先学习前兆和目标事件之间的关联,然后利用所学的关联预测未来事件。 基于因果关系的预测。这种方法通常共享一个通用的基本步骤:(i) 事件表示. 这种方法通常从提取使用自然语言处理技术从目标文本中提取事件,标记化、词性标签分析和名称实体识别; (ii) 事件图构建. 这里的目标是推断历史事件之间的因果关系。由于其组合优化的性质,缩小候选对的数量是至关重要的。现有的工作通常首先将事件聚集成事件链,每个事件链由相关语义下的一系列事件按时间排序组成,他们通常共享相同主题、参与者和对象。然后可以通过各种方式推断事件对之间的因果关系。最简单的方法是基于贝叶斯推断的方式。其他方法利用 NLP 技术以及知识图谱来识别和扩展因果关系。(iii) 未来事件推理。给定一个任意的种子事件,我们会用它查询它可能导致的未来事件。 基于序列的预测。给定历史事件链的时间序列,这类方法的目标是预测使用序列预测的下一个事件。目前的方法来自两大类:全序列分类和序列预测。基于全序列分类的方法将事件语义预测表述为多类分类问题,其中有限数量的候选事件被排名,并且排名靠前的事件被视为未来事件语义。多类分类问题可以拆分为具有不同主题 / 语义含义的事件。当前方法主要分为如下三个子类,即基于特征的方法、基于原型的方法和基于模型的方法。序列预测主要探索如何预测序列的下一个元素,及其所代表的事件。序列预测方法主要分为两种类型,其中第一种需要人为定义关键属性,而更现代化的方法可以基于深度学习等学习序列的隐含表征以直接预测未来事件。
同时的时间和语义预测;
同时的时间和地点预测;
同时的时间、地点和语义预测。
事件预测模型的透明性以及预测的可解释行和可问责性。 对于噪声和对抗性数据的敏感性。 深度融合先验知识、机理模型和数据拟合技术。 规范性分析及反事实分析的重要性。 多目标训练的重要性。
编辑:黄继彦
校对:林亦霖
评论