介绍
如何使用无监督的方式来判断两个句子的相似度呢?simcse给你答案!
相关资料:
中文任务还是SOTA吗?我们给SimCSE补充了一些实验
paddleNLP simcse
流程
请先看in-batch-negative数据增强这篇文章,模型,推理,所有步骤都不变,就一个地方:构造训练数据集
。
train.tsv如下所示:
第一列为query,第二列为doc
1 | 如何使用无监督的方式来判断两个句子的相似度呢?simcse给你答案! 如何使用无监督的方式来判断两个句子的相似度呢?simcse给你答案! |
query和doc是一模一样的!
那这个模型是如何工作的呢?
分别对同一个句子进行两次dropout,然后判断这两个向量的相似度。
评估
评估和in-batch-negative数据增强里面的评估部分一模一样。
完结。。