华钦科技研究课题分享:
基于大数据技术的人才智能推荐系统(IRST)
课题简介
华钦创新研究院(CLPS Innovation Lab)是华钦科技集团公司的技术研发中心,以金融科技领域前沿创新技术(如区块链、云计算、大数据、人工智能等)为主要研究方向,旨在通过技术创新促进企业解决方案和产品的全新升级。
本课题目标是将大数据技术在金融行业的精准营销、用户画像等实践经验,运用于技术项目的人才匹配环节。以华钦科技的实际运营作为应用领域,探索如何利用大数据技术提升运营效率,并拓展大数据技术的更多应用场景。
业务场景
对于一家集团化的IT服务提供商,在处理大量项目交付的过程中,存在人才和项目之间的信息不对等,制约了IT服务的交付效率。
一方面,人才库中数十万、上百万的人才资源覆盖了各类技能、各个地区,另一方面,不同行业对不同人员的需求,需要特定的技能支持。能否快速将合适的人才精准分配到各个项目中,是影响IT服务效率的主要因素之一。
以往为了实现人才与项目的匹配,首先需要对项目岗位进行分析,通过简单分类查找或复合搜索对人才进行初步筛选后,再逐步确定最合适的人选。
在这一过程中,人员的主观经验成为成功匹配的最大前提,如无法准确解析岗位需求,将导致查找的整体方向产生偏差;此外,传统的简单查找功能,无法给出准确结果;人才数据库庞大,往往需要多次筛选,费时费力。
引入大数据思维及平台组件,对原有人才系统的简历匹配功能进行升级,可有效实现人才与项目的精准匹配和智能推荐。
全新大数据思维的推荐方案制定
搭建一套成熟的推荐系统最大的难点是推荐方案的制定和核心算法的选择。考虑到本项目具备明显的特征——为IT项目匹配IT专门人才,考虑可以从IT领域入手,逐步精细化,最终实现智能推荐,优化思路如下:
- 构建IT技能关键词词典和同义词词典,以词典作为分词依据进行优化,提高分词准确度;
- 将词典作为人才大数据搜索引擎的扩充词库,提高搜索的匹配度;
- 引入项目需求全文本作为原始搜索条件,通过智能分析其中的技能信息作为人才大数据的匹配条件;
- 进一步分析并提取项目需求描述中的学历要求/工作年限等信息作为辅助匹配条件,有效改善最终匹配命中率;
- 挖掘更多人才字段(如期望工作地等),进一步提高结果匹配度;
- 自定义最大正向匹配算法,适用于英文/中文/中英文混合的数据分析场景;
- 构建动态权重规则,支持规则的热更新;
- 当项目需求达到一定量时,可将“向项目推荐人才”转换为“向人才推荐项目”,双向匹配共同作用,加速提升匹配效率。
基于大数据平台组件的人才智能推荐系统架构
使用具有快速搜索、高可靠性、强大灵活扩展性的ElasticSearch(下文简称ES)作为人才智能推荐系统(IRST)的基础平台。系统架构设计中充分考虑了数据同步、数据容错以及数据分析扩展等因素,架构图如下:
1.对外展现层
对外展现可在企业原有的人才资源库系统(如ERP)中实现,复用原有系统的架构及逻辑,保持用户的操作习惯不变。
2. 接口层
原人才资源库系统调人才智能推荐系统提供的API完成匹配和数据同步。API使用目前非常流行的SpringBoot构建,这个框架特别适合用于快速构造RESTFUL风格的web服务。
3. 核心功能层
Core Services完成对API发来的请求的实际处理工作,实现从ES中搜索人才数据,并将人才资源库系统的人才数据同步到ES和HBase。
Job for Batch Data处理人才数据中指标的预计算以及重新规范人才数据等工作。使用Scala语言(代码量少,开发效率高)开发,搭配Spark(高效的内存计算)组件来实现。
4. 基础平台层
使用基于Lucene的ES作为人才数据匹配的底层搜索引擎;
使用Zookeeper来统一协调基础设施的服务,同时用来进行动态参数和开关参数的管理,可以实现系统参数的热更新,避免系统重启;
使用Redis进行缓存处理,减少重复计算,降低系统负荷,提高系统响应;
利用性能优异的Kafka,实现数据链路解耦,简化内部模块单元的复杂度,同时可以防止数据冲击,提高系统整体的可靠性;
在此基础上,额外增加了HBase,构建于HDFS之上。一方面作为备库,另外后续可以基于HBASE,利用 Spark做一些离线分析。由于ES和HBase没有联系,这样的离线分析不会干扰主搜索。
根据对单服务节点性能测试结果(目前单服务器最大支持约440个并发匹配请求),以及实际业务对并发量需求的评估,生产环境配置3个服务节点,使用Nginx做反向代理和负载均衡,满足高可用(HA)和持续发布的需要。
简单易上手的操作方式
在全新升级的人才智能推荐系统(IRST)中,只需一键,即可自动生成匹配表单,并且有醒目的匹配度排序,便于决策。
升级后带来的显著提升
- 实现了项目解析过程的自动化和智能化,省去了人工分析的时间,避免了因经验、认知等主观因素可能导致的不可控影响;
- 实现数据库全面排查,大大缩小了筛选范围,减少了复查的人力和时间成本;
- 人才匹配效率大大提高:原来需要多人团队共同合作的项目解析工作,现可由一人在数秒内即可完成;
- 人才匹配的精准度大大提高:原先上万条结果减少为数百条,并可实现80%的匹配成功率;
- 对人员的要求大大降低:原先高度依赖人员的行业经验,现在只需具有少量行业经验或经过简单培训的初级人员就可完成操作;
- 具备与原有核心系统的高度兼容性,实现了两个系统间数据层和业务层的无缝衔接,在大大简化了原有操作流程的基础上,不影响用户原有的使用习惯。
引申课题
此次研究除获得阶段性成果外,还为以下课题带来扩展思路:
其他业务领域的智能推荐系统:在本系统侧重于IT项目与人才匹配的基础上,将精准匹配和智能推荐应用于更多业务场景。
技能知识地图:在本系统所采用的IT技能关键词词典基础上,通过人工构建+机器学习的方式,构建技能知识地图,显示技能与技能、业务与技术技能之间的关联关系,可以帮助技术及业务人员更好地了解不同技能之间的关联关系。
集成管理平台:在本系统开发中所采用的平台,一个界面解决开发、测试过程中的所有自动化操作,包括一键部署、进程操纵、进程/集群资源监控,高效完成对开发/测试/生产环境系统发布和监控工作。
Follow Us