天天看点

TPU编程竞赛系列|2023社会计算创新大赛社会关系抽取赛题指南

作者:算能开发者
本次大赛由CAAI社会计算与社会智能专委会主办,算能与浙江大学、杭州一蓦信息科技有限公司共同承办,并在Momodel平台和SOPHON.NET特设“算法与模型”赛道。

本次主要为大家介绍社会科学计算大赛的赛题之一——社会关系抽取。

一、赛题背景

> 技术发展

• 关系抽取(Relationship Extraction, RE)是信息抽取的一个重要任务,其目标是从文本中抽取实体之间的关系。RE技术发展历程主要有以下几个阶段:

1. 规则与模板匹配阶段。早期的RE系统主要依赖人工构建的规则和模板来识别关系,代表系统包括FASTUS、SRV等。这类方法高度依赖领域知识,移植性差,不适合大规模应用。

2. 特征工程阶段。随着机器学习的发展,特征工程阶段的RE系统开始应运而生,依靠NLP特征与机器学习算法识别关系,代表系统包括 minipar、Snowball等。这类方法效果有所提高,但特征工作量较大,探索效率较低。

3. 核方法阶段。21世纪初,核方法在机器学习领域获得广泛应用,核方法也被引入RE任务,利用多类分类与回归方法进行关系分类,代表系统包括SVM-RBF、SVR等。这类方法在多个数据集上取得了最先进的成绩。

4. 神经网络方法阶段。近年来,深度学习技术飞速发展,各种神经网络也被广泛应用于NLP任务,RE也不例外。基于CNN、RNN和注意力机制的深度神经网络已成为RE的主流建模方法,代表系统包括CNN、LSTM、BiLSTM、BERT等。这类方法在多个RE数据集上取得了state-of-the-art的结果。

5. 迁移学习与多任务学习阶段。最新阶段的RE方法开始考虑不同类型关系间的内在关联,采用迁移学习与多任务学习的思想,让RE模型可以在学习一种关系的同时学习到其他关系的知识,从而提高整体效果。这是RE技术发展的新趋势。

所以,RE技术发展经历了规则到深度学习,从单任务到迁移学习的过程。随着模型与技术的发展,RE系统的效果也在持续提高。

>技术难点

由于现实世界中关系比较复杂多样,隐式的间接的关系容易忽略并且关系数据相较于实体数据更为稀疏,因此关系识别比较困难。在本次比赛中使用迁移学习来泛化在新数据上的关系识别,推荐大家借鉴迁移学习的思路来训练模型。

二、赛题baseline

>如果你选择的是关系抽取的baseline,那么可以看这份指南!

• 步骤一:在官网下载、组建队伍、报名;

(https://momodel.cn/competition)

• 步骤二:选择关系抽取的赛道,进入环境,等待初始化完成;

• 步骤三:在左侧目录栏中选择main.ipynb,阅读main.ipynb中的代码

TPU编程竞赛系列|2023社会计算创新大赛社会关系抽取赛题指南

• 步骤四:使用Shift+Enter依次运行每一个代码块

TPU编程竞赛系列|2023社会计算创新大赛社会关系抽取赛题指南

• 步骤五:可以根据自己实际的情况,设置相关参数,这里为了简便起见,将num_epochs设置为1

TPU编程竞赛系列|2023社会计算创新大赛社会关系抽取赛题指南

• 步骤六:运行训练的cell,开始对预训练模型进行微调

TPU编程竞赛系列|2023社会计算创新大赛社会关系抽取赛题指南

• 步骤七:微调完毕之后可以在uie_nano_pytorch下看到训练好的模型

TPU编程竞赛系列|2023社会计算创新大赛社会关系抽取赛题指南

• 步骤八:继续运行cell,将torch模型转换为onnx模型

TPU编程竞赛系列|2023社会计算创新大赛社会关系抽取赛题指南

• 步骤九:可以在uie_nano_pytorch下面看到导出的inference.onnx

TPU编程竞赛系列|2023社会计算创新大赛社会关系抽取赛题指南

• 步骤十:开始进行onnx转bmodel,首先开一个新的terminal,切换到convert目录下,执行以下四行代码

TPU编程竞赛系列|2023社会计算创新大赛社会关系抽取赛题指南
TPU编程竞赛系列|2023社会计算创新大赛社会关系抽取赛题指南

• 步骤十一:之后你就可以在convert目录下看到bmodel文件

TPU编程竞赛系列|2023社会计算创新大赛社会关系抽取赛题指南

• 步骤十二:现在我们开始提交,首先我们点击提交,并生成提交文件

TPU编程竞赛系列|2023社会计算创新大赛社会关系抽取赛题指南

• 步骤十三:选择main.ipynb文件,我们只提交最后一个cell

TPU编程竞赛系列|2023社会计算创新大赛社会关系抽取赛题指南
TPU编程竞赛系列|2023社会计算创新大赛社会关系抽取赛题指南

• 步骤十四:之后进行测试,我们全部勾选

TPU编程竞赛系列|2023社会计算创新大赛社会关系抽取赛题指南

• 步骤十五:测试完成之后就可以开始提交了~

• 步骤十六:你也可以生成py文件,使用GPU来进行模型的训练

三、赛题提交

当你完成以上任务后,你就可以准备提交了。提交清单如下:

• 转换的bmodel模型文件

• 包含 bmodel_name 和 model_name 的 main.py 文件

>其他相关模型权重及文件

接下来你可以点击项目左侧的测试按钮,查看模型是否通过接口测试以及在测试集上的分数。需要提醒大家一点,模型的测试次数每天是没有限制的,可以测试无数次,不断地提高自己模型的表现。模型的推理环境是一个 CPU 环境,推理使用的模型为转换之前的原始模型文件,而非 bmodel 格式的模型。 当您完成测试,认为模型已经满足自己的预期时,就可以进行提交。

请注意,初赛截止日期为5月26日,初赛过程中只有一次提交机会,因此需要选手们慎重考虑。我们建议您在提交前仔细检查模型的结果,确保其准确性和完整性。

继续阅读