摘要:华为云PaaS技术创新团队基于UniXcoder模型,在公开测试数据集(CodeXGLUE)上的代码搜索任务评测结果上取得突破,在CodeXGLUE榜单上排名中第一。
本文分享自华为云社区《代码语义搜索算法哪家强?华为云UniXcoder-VESO-v1算法取得突破,问鼎CodeXGLUE榜单第一名》,作者:华为云软件分析Lab 。
(资料图片)
按照查询语句的类型,代码搜索可以分为代码关键字搜索和代码语义搜索。代码关键字搜索主要通过索引代码实体(如类、方法、变量等),查询定位代码实体的定义及引用;代码语义搜索的目标是支持开发人员基于自然语言方式来描述代码特性,从而进行相关代码的推荐与搜索。在开发人员编程过程中帮助其查找最佳代码示例实践和库使用示例,从而开发者可以通过功能描述搜索到代码。
目前,大多数代码搜索引擎仅支持代码关键字搜索,这需要开发者了解他们正在搜索的代码,例如类名、函数名、API调用等等,这具有很大的局限性。多数用户通常通过搜索代码示例来指导他们完成特定的编码任务,他们更倾向于使用自然语言来描述待编码实现的功能,从而借鉴开源社区中已存在的相关代码片段。代码语义搜索可以支持开发人员在不知道类或函数名称的情况下使用自然语言方式来描述所需的代码功能。借助于语言模型及不同自然语言之间的映射关系,开发者甚至可以基于中文描述搜索出包含英文功能描述的代码片段。
随着语言大模型(Large Language Model, LLM)技术的发展,一系列语言大模型(如BERT [1]、XLNet [2]、GPT [3]、RoBERTa [4]等)在自然语言处理任务上取得了巨大的成功,为源代码处理任务提供了技术基础。这些模型已经应用于代码摘要和代码语义搜索,打败了以前的最先进方法。语义搜索背后的想法是将语料库中的所有条目,无论是句子、段落还是文档,都编码到向量空间中。在搜索时,查询被编码到相同的向量空间中,并找到语料库中最近的向量。这些条目应与查询具有高度的语义重叠。代码语义搜索使用编码大模型将查询及代码片段编码成向量,使得语义相关或相近的代码片段和查询在向量空间内落在相近的位置。如下图所示:
有很多算法使用不同的编码器对代码片段和查询进行编码,最新和最有希望的研究集中在通用编码器和解码器上,这些编码器和解码器使用相同的神经网络来编码所有编程语言代码片段和文本。
Salza等人 [5]基于原始BERT[1]模型,用多种编程语言代码预训练一个新的BERT模型,并用两个编码器(一个处理自然语言,另一个处理代码片段)精调该模型,首先证明了处理自然语言的基于Transformer架构的模型可以被直接应用到代码搜索任务中。
CodeBERT [6]是在自然语言和编程语言序列数据上进行训练的大型语言模型之一,它在代码搜索方面表现较为出色。此外,还发展演化出RoBERTa [4]、TreeBERT [7]、GraphCodeBERT [8]、UniXcoder [9]等在代码搜索方面表现出色的自然语言与编程语言结合训练的模型。
华为云PaaS技术创新团队基于UniXcoder模型,通过混淆代码片段、增加海量开源代码作为训练集、提高批尺寸等精调方法,实现了UniXcoder-VESO-v1算法,该算法在公开测试数据集(CodeXGLUE [10])上的代码搜索任务评测结果上取得突破:平均倒数排序值(MRR)达到0.58,CodeXGLUE榜单上排名中第一(如下图所示: UniXcoder-VESO-v1, 详见https://microsoft.github.io/CodeXGLUE/)。我们将持续推进该工作的技术创新与突破,会选择合适方式披露内部技术细节,如感兴趣,欢迎持续关注我们的订阅号文章。
文章来自:PaaS技术创新Lab,PaaS技术创新Lab隶属于华为云,致力于综合利用软件分析、数据挖掘、机器学习等技术,为软件研发人员提供下一代智能研发工具服务的核心引擎和智慧大脑。我们将聚焦软件工程领域硬核能力,不断构筑研发利器,持续交付高价值商业特性!加入我们,一起开创研发新“境界”!(详情欢迎联系mayuchi1@huawei.com;guodongshuo@huawei.com)
PaaS技术创新Lab主页链接:https://www.huaweicloud.com/lab/paas/home.html
点击关注,第一时间了解华为云新鲜技术~
标签:
精彩推荐
摘要:华为云PaaS技术创新团队基于UniXcoder模型,在公开测试数据集(CodeXGLUE)上的代码搜索任务评测结果
1、喜洋洋、春节序曲、安妮的仙境、网游天龙八部中剑阁的背景音乐“蝶舞莺歌”、和兰花在一起、雅尼的《...
新地旗下十五大商场,包括观塘apm、铜锣湾wwwtcmall、大埔超级城、元朗广场、柴湾新翠商场及石门新都广场等
1、河南大学国际学院在哪1国际学院应该是河南师范大学下设的一个学院,主要面向国际化管理、外语语言和文化
投资摘要:降本能力或成锂电中游厂商核心竞争力。中国动力电池行业因下游新能源汽车需求增长实现了跨越式发
新效果旧效果近日,为推进新型装备海事应用,提升海事电子巡查效能,常州海事局在常泰长江大桥施工水域监管
巴西龟开心时会有什么表现?当巴西龟开心时,它会表现出十分兴奋的样子,可能会在水里、陆地上四处乱爬,这时建
为推进校园透明管理,切实做好公共企事业单位信息公开。今年3月份以来,栖霞市组织全市各中小学校集中开展
香格里拉市气象台2023年5月15日09时30分发布暴雪蓝色预警信号:预计未来12小时,香格里拉市海拔3000米以上
对转基因产品进行安全评价是国际通行做法,国际上建立了科学严谨的评估程序和评估标准,就是为了确保通过安
乖巧懂事的魏诗卉不吵不闹,她很好地处理了学习、生活上的困难。在3年时间里,她仔细摸索,认真研究,逐渐
今天来聊聊关于aswellas就近原则例句,aswellas就近原则的文章,现在就为大家来简单介绍下aswellas就近
科技日报讯(记者操秀英)5月13日,在南海东部海域,重量超过15000吨的恩平20-4钻采平台上部组块与导管架完
1、你好!这东西无法预测。2、如果能预测,自己早成百万富翁了,何必告诉别人呢!这说明自己没把握,自己都
想必现在有很多小伙伴对于求美军勇士之歌和硬汉[emailprotected]��,[emailprotected]�[e
512GB手机已经是多数消费者都会直接选购的机型了。所以,无论是从市场销量还是关注度层面,都会成为用户心
1、小型企业和微型企业根据企业的工作人数、营业收入状况、企业资产总额等方面进行划分。2、小微型企业是指
1、消防演习是为了增强人们的安全防火意识的活动,让大家进一步了解掌握火灾等突发事件的处理流程,以及提
欢迎观看本篇文章,小升来为大家解答以上问题。山雨欲来风满楼是什么意思,山雨欲来风满楼的出处很多人还不
本文内容是由小编为大家搜集关于酷基金网我的基金,以及的资料,整理后发布的内容,让我们赶快一起来看一下
资讯News
07-08
11-03
11-03
11-03
11-03
11-03
11-03
11-03
11-03
11-03
11-03
聚焦Policy
当好农民工的“护薪人” 近日,罗某等7名农民工在收到被拖欠的工资后,纷纷打电话向江西省南昌市...
“通讯录里所有人都知道我欠钱了” □ 本报记者 韩丹东 □ 本报见习记者 张守坤 ...
大连宝马车撞人案肇事司机被判死刑 本报讯 记者韩宇 10月29日,辽宁省大连市中级人民法院一审...
医院财务迷上网络赌博输光5000万元公款 □ 本报记者 马维博 □ 本报通讯员 汪宇堂 曹...
辊环车削 雕琢毫厘(工匠绝活) 【绝活看点】 23年来,雷虎始终扎根一线,改进钢材轧制工艺...
交警严查超标电动自行车挪用“白牌” 截至昨晚6时,处罚电动自行车违法行为共计6585笔;下一步将...
明起寒潮来袭 北方气温普降10℃以上 中央气象台预计,本周日北京平原地区最低气温降至-4℃左右...
多种蔬菜价格降幅达五成 包括菠菜、蒿子秆等 预计本月中旬蔬菜恢复供需平衡 本报讯(记者...
北京周日最低气温或达-4℃ 本报讯(记者 赵婷婷)北京青年报记者昨天从中央气象台获悉,新一股...
昌平一家四口确诊新冠肺炎 天通北苑第二社区升级为中风险地区 朝阳两涉疫校区及16所学校停课 ...