福建天晴数码有限公司博士后 徐戈
2018-10-30
2018-05-18

徐戈博士主要研究领域为自然语言处理,侧重于将计算机算法和语言学知识融合,使用自动的方法从文本中抽取所需信息。目前已经在情感资源构建、语义相似度计算等方面进行了一些探索并取得若干成果。已在《计算机学报》、《软件学报》、COLING、Lingua Sinica等期刊和会议上发表论文20余篇。参与国家自然科学基金、国家社科基金和北京市自然科学基金项目多项。主持国家自然科学基金青年项目一项,以及省市、横向课题若干。
2016年12月,进入福建天晴数码有限公司博士后工作站与福州大学博士后流动站。在博士后期间的主要工作集中在两个方面:1.自然语言处理基础性研究工作。包括单词、句子语义相似度计算。积极开展智能问答系统的关键技术研究,为公司的研究战略服务。2.大规模数据加工。组织较大规模的标注团队,针对大规模语料标注任务能快速动员、培训和检验,保质保量完成文本、图像、音频以及知识图谱等多种资源加工工作。
在2017年NTCIR举办的短文本对话评测任务中,本人指导的公司团队Nders排名第四(全球共22支队伍,包括微软、哈工大等团队)。以博士后工作为研究背景,本人成功申请福州市科技局项目1项、入选福建省教育厅“新世纪优秀人才”项目,并承接了北京大学、鲁东大学、福州大学委托的多个横向研究课题,课题经费累计30余万元。发表博士后工作相关论文4篇;申报专利5项,其中4项进入实质审查阶段。
随着以海量数据和超强计算力为特征的大数据时代的到来,智能问答有了更加丰富的研究资源。目前,特定领域的自动客服系统主要以人工资源构建为主,辅以一定的效率优化手段。根据福建天晴数码有限公司在人工智能领域的发展要求,将对会话控制引擎、会话类别判定、面向对话的知识图谱构建、基于深度学习的生成式问答、问句的分类、个性化复述、面向问答的语义相似度计算等问题进一步展开研究。研究内容的主要创新点是:(1)个性化复述。随着需求的日益细化,用户希望客服机器人能够具备一定的情感甚至个性。目前的复述研究主要针对语义复述,个性化复述研究目前国内外仍然处于空白状态。(2)面向问答系统的语义相似度计算。在问答系统的检索中,语义的相似性需求与文本分类并不完全相同,还包括推导性、一致性、相关性等因素,需要进行有针对性的研究。