男,94年生,现居北京海淀。

  • 本科(2012.9-2016.6) 信息工程学院 智能科学与技术
  • 硕士(2016.9-2019-6) 信息工程学院 软件工程
  • 联系方式: candnes@sina.com
  • 技能:
    • Python/Git/Linux/Markdown
    • Docker/Flask/FastAPI
    • Pytorch/Sklearn
  • 个人兴趣:
    • NLP相关
  • 爱好:游泳/Minecraft/Bushcraft

在校期间项目经历

基于协同过滤的图书推荐系统 (2015.09-2016.6)

任务:

  • 利用图书的标签和用户的信息对用户进行图书推荐。

工作:

  1. 数据获取:从豆瓣爬取部分图书及用户数据并进行清洗;
  2. 用户建模:根据用户属性描述用户偏好;
  3. 用户聚类:使用K-means算法对用户进行聚类;
  4. 推荐:对某个用户找到其相似用户;根据这些用户喜好推荐。

中文指代消解问题研究 (2017.12-2018.10)

任务:

  • 使用CoNLL2012中文数据集,对文本预处理,抽取待消解项,构建消解系统;
  • 对中文文本属性识别构建分类器,提升代词消解性能。

工作:

  1. 文本处理:进行分词、词性标注、命名实体识别等工作;
  2. 表述提取:对句法树解析,使用NLTK.Tree提取名词性短语构建表述;
  3. 指代消解:利用语言学的规则构建消解系统,对于提取出的表述进行分析和判别;
  4. 改进:对词语属性进行判别分类;将分类结果应用于代词消解上,提升代词消解的性能。

贡献:

  • 构建了一个完整的中文指代消解pipeline;
  • 使用BiLSTM-CRF提升表述提取的准确率;
  • 使用CNN对词语属性分类,提升代词消解结果。

实习经历

北京阿博茨科技有限公司 - 算法中心 - 自然语言处理实习生(2018.9-2018.11)

参与公司金融领域信息抽取平台的开发,该平台针对上市公司文档,抽取有用信息形成简报。在其中负责计算公式的代码实现及分类任务的研究。

职责:

  • 参与公司金融领域信息抽取平台的开发,跟进项目进度,根据需求完成工作。(非PDF解析)
  • 该平台针对上市公司文档,抽取有用信息,其中待抽取信息分为以下四类:
    1. 直接利用正则表达式进行抽取
    2. 利用正则表达式抽取多个候选,形成特征后调用sklearn的分类器进行筛选判别
    3. 根据12的结果,调用业务同事定义的公式计算结果

工作及项目经历

北京国双科技有限公司 - 数据科学部 - 高级自然语言处理工程师(2019.5至今)

1. 中石油勘探院知识共享中心建设项目(2021.3-2021.9)

该项目为中国石油勘探开发研究院研制一套知识共享平台,本人负责文档打标签功能的实现,主要工作包括:

  • 根据业务专家标注的数据确定参与训练的标签和参与训练的数据维度,划分数据集,构建基于Bert训练多标签分类模型;
  • 针对训练数据与标签分布不均的难点,借鉴机器学习中Ensemble的思想,在Infer部分选用多个模型进行投票确定最终标签结果。

2. 冀北电网智能工单系统项目(2021.4-2021.11)

该系统包括图谱平台、问答系统及智能工单判别等相关功能。本人负责工单判别需求的实现和法规条文知识点抽取,主要工作包括:

  1. 电网稽查工单智能判别:
    • 采用卷积神经网络方法实现分类任务;对于无法提供足量训练数据且无法用规则处理的分类子任务,通过近义词随机替换增强数据,工单判别平均准确率达到0.86,提升约3~5%;
    • 基于Flask框架+Gunicorn封装镜像,服务吞吐量约为550QPS。
  2. 电力行业知识点抽取
    • 为用户部署BRAT标注工具,编写工具使用文档并培训客户进行标注;
    • 使用BertForTokenClassification方法实现基准线模型,准确率为0.7;指导实习生实现Bert-BiLSTM(CRF)方法,准确率为0.82;最终根据客户要求,交付多个模型镜像并提供自动部署脚本。

3. 最高法出版社法信智能问答-意图识别服务(2020.8-2021.3)

该项目为最高法出版社提供智能问答系统。本人负责系统改进和交付支持,主要工作包括:

  • 接手工作后继续完善规则,响应并解决测试部门提出的缺陷;
  • 支持交付材料的编写,作为技术人员参与最高法出版社现场验收工作;
  • 为了后续项目的支持,重构意图识别服务,改为基于配置文件的方案部署公司问答平台。

4. Text to SQL研究(2020.10-2021.12)

该项目为公司内部预研项目,目的是对结构化数据建模 ,将针对数据库的自然语言问题转为可执行的SQL语句,从而实现针对表格型数据的问答,主要工作包括:

  • 基于Bootstrap+Flask框架,构建公司工时查询系统;开发公司内部专利数据查询模块,对接问答平台提供服务;
  • 基于RATSQL方法在百度中文数据集上训练Text to SQL模型,优化现有方法SQL条件语句抽取准确率低的问题,增强了公司产品的竞争力。

5. 公司内部内容营销部门技术支持(2019.5-2020.4)

为减轻内容营销部门业务人员的重复工作量,负责完成相关算法工具开发并指导业务同事使用,主要工作包括:

  • 基于词袋模型并用余弦相似度开发相似文本排序工具,帮助用户快速浏览大批量文本;
  • 利用ElasticSearch粗排+余弦相似度精排,开发了重复内容检测工具,鉴别用户编写的文章是否存在抄袭情况,支持内部智能写作平台需求;
  • 各类营销文本分类需求:对业务部门提供的营销类标注数据训练分类模型,包括母婴、美妆等业务领域,完成后封为镜像部署至公司服务平台进行支持。

6. NLP能力平台算法模块开发(2022.2至今)

在公司NLP能力平台算法开发项目中,本人负责聚类、相似度计算、关键词提取、文本摘要(mt5)、指代消解(e2e)等多个算法模块的开发

  • 所有功能均基于Fastapi提供web请求的调用方式,代码通过Sonarlint扫描;所有功能使用Docker进行封装,通过Jenkins+Spinnaker部署到集群进行使用

成果

论文

  1. Zhu Y. A Book Recommendation Algorithm based on Collaborative Filtering[C]. international conference on computer science and network technology, 2016: 286-289.(EI: 20180104610894)
  2. Zhu Y, Song W, Liu L, et al. Collaborative Filtering Recommender Algorithm Based on Comments and Score[C]. international symposium on computational intelligence and design, 2017.(EI: 20182105218451)
  3. Zhu Y, Song W, Liu X, et al. Improving anaphora resolution by animacy identification[C]//2019 IEEE International Conference on Artificial Intelligence and Computer Applications (ICAICA). IEEE, 2019: 48-51.

软件著作权

  1. 基于协同过滤的图书推荐系统V1.0(2016SR333795)

专利

  1. 文本处理方法、装置、计算机设备和存储介质(实审阶段)(201910918594.7)
  2. 一种数据库查询方法、装置、存储介质和电子设备(受理)(202210415076.5)
  3. 文本指代链的合并方法、合并设备及机器可读存储介质(受理)(202211719292.5)
  4. 数据表信息的选择方法、数据查询方法及其设备(受理)(202310373375.1)