卧龙大数据AI团队陈维龙勇夺WSDM大赛冠军

作者: 互联网资讯  发布:2019-11-06

墨尔本2019年2月18日电 /美通社/ -- 2月15日,在澳大利亚墨尔本圆满闭幕的第12届网络搜索与数据挖掘国际会议(WSDM 2019)上,卧龙大数据AI团队陈维龙获得 WSDM Cup 挑战赛第一名的成绩,这是中国企业参赛者首次在该赛事上取得的最高名次(去年WSDM 2018大赛上阿里AliOS 算法团队获得第二名)。

一、前 沿

图片 1

   数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。数据挖掘的任务是从数据集中发现模式,可以发现的模式有很多种,按功能可以分为两大类:预测性(Predictive)模式和描述性(Descriptive)模式。在应用中往往根据模式的实际作用细分为以下几种:分类,估值,预测,相关性分析,序列,时间序列,描述和可视化等。

卧龙大数据AI团队陈维龙领取奖项

   数据挖掘涉及的学科领域和技术很多,有多种分类法。根据挖掘任务分,可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等;根据挖掘对象分,有关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球网Web;根据挖掘方法分,可粗分为:机器学习方法、统计方法、神经网络方法和数据库方法。机器学习中,可细分为:归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。统计方法中,可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。神经网络方法中,可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是多维数据分析或OLAP方法,另外还有面向属性的归纳方法等等。

WSDM 被誉为信息检索领域最顶级的会议之一,会议的关注点为搜索、数据检索、数据挖掘、算法设计、算法分析、经济影响方面的实际且严谨的研究,以及对准确率和运行速度的深入实验探究,今年已经是 WSDM 的第十二届会议。

   二、数据挖掘技术简述

本次WSDM Cup 有来自全球 744 支队伍参赛,论文接收率约为16%。此次比赛的赛题内容是预测短视频APP应用在用户快速增长阶段中的用户留存率,从而进一步挖掘提高用户留存率及影响用户留存的原因。

   数据挖掘的技术有很多种,按照不同的分类有不同的分类法。下面着重讨论一下数据挖掘中常用的一些技术:统计技术,关联规则,基于历史的分析,遗传算法,聚集检测,连接分析,决策树,神经网络,粗糙集,模糊集,回归分析,差别分析,概念描述等十三种常用的数据挖掘的技术。

图片 2

       1、统计技术

陈维龙受邀赴墨尔本做口头报告

   数据挖掘涉及的科学领域和技术很多,如统计技术。统计技术对数据集进行挖掘的主要思想是:统计的方法对给定的数据集合假设了一个分布或者概率模型(例如一个正态分布)然后根据模型采用相应的方法来进行挖掘。

卧龙大数据陈维龙设计了一种实用的机器学习方法来应对这样的挑战,包括特征工程、Lightgbm、CatBoost等决策树方法,RNN-ManyToMany等深度学习的方法,以及学习模型的堆叠。决策树对于特征工程的挖掘具有非常好的效果体现,而RNN-ManyToMany相对于传统方式,不需要过多地处理输入序列,可以直接输入各种行为序列。通过余弦退火快照集成,从而以非常低的成本获得大量不同的局部最优值。通过多次优化完善,陈维龙最终算法组件和可解释性组件综合得分第一,取得冠军。

       2、关联规则

在此之前,卧龙大数据已经深度研究过该类问题并制定了解决方案,去年卧龙大数据就已经和本地运营商合作,建模研究运营商在网用户的离网概率和离网原因,最终获得了极高的准确率,并将之拓展应用到运营商、金融等多个领域的用户分析研究之中。

   数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之I司存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。

       3、基于历史的MBR(Memory-based Reasoning)分析

   先根据经验知识寻找相似的情况,然后将这些情况的信息应用于当前的例子中。这个就是MBR(Memory Based Reasoning)的本质。MBR首先寻找和新记录相似的邻居,然后利用这些邻居对新数据进行分类和估值。使用MBR有三个主要问题,寻找确定的历史数据;决定表示历史数据的最有效的方法;决定距离函数、联合函数和邻居的数量。

       4、遗传算法GA(Genetic Algorithms)

   基于进化理论,并采用遗传结合、遗传变异、以及自然选择等设计方法的优化技术。主要思想是:根据适者生存的原则,形成由当前群体中最适合的规则组成新的群体,以及这些规则的后代。典型情况下,规则的适合度(Fitness)用它对训练样本集的分类准确率评估。

       5、聚集检测

   将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其它簇中的对象相异。相异度是根据描述对象的属眭值来计算的,距离是经常采用的度量方式。

       6、连接分析

   连接分析,Link analysis,它的基本理论是图论。图论的思想是寻找一个可以得出好结果但不是完美结果的算法,而不是去寻找完美的解的算法。连接分析就是运用了这样的思想:不完美的结果如果是可行的,那么这样的分析就是一个好的分析。利用连接分析,可以从一些用户的行为中分析出一些模式;同时将产生的概念应用于更广的用户群体中。

       7、决策树

   决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法。

       8、神经网络

本文由金沙澳门官网dkk发布于互联网资讯,转载请注明出处:卧龙大数据AI团队陈维龙勇夺WSDM大赛冠军

关键词: