贪心科技|让每个人享受个性化教育服务贪心科技|让每个人享受个性化教育服务Contents贪心科技|让每个人享受个性化教育服务Abstract1.在内领域(in-domain)数据上继续预训练模型可以提升效果(DAPT-domain-adaptivepretraining)2.在任务适应性(task-adaptive)无标注数据上继续预训练模型可以提高效果(TAPT-task-adaptivepretraining)3.结合二者预训练(DAPT+TAPT)可以进一步提高效果;4.对TAPT任务进行数据增强DAPT+dataagumentTAPT=bestresult•biomedical•computersciencepublications•news•reviews8个分类任务贪心科技|让每个人享受个性化教育服务Introduction•原始预训练LM领域分布•目标领域分布•任务数据集分布•任务数据集通常从目标领域的一个较宽分布内(浅灰色部分)进行采样•目标领域和原始LM领域可交叉重叠。贪心科技|让每个人享受个性化教育服务IntroductionInsummary,ourcontributionsinclude:•athoroughanalysisofdomain-andtask_x0002_adaptivepretrainingacrossfourdomainsandeighttasks,spanninglow-andhigh-resourcesettings;•aninvestigationintothetransferabilityofadaptedLMsacrossdomainsandtasks;and•astudyhighlightingtheimportanceofpre_x0002_trainingonhuman-curateddatasets,andasim_x0002_pledataselectionstrategytoautomaticallyapproachthisperformance.RoBERTa直接对生物医学领域的某个分类任务(低资源设置)进行finetune时,f1只有79.3,而采取DAPT+Curated-TAPT后,指标提升至83.8!提升居然有4.5个percent!效果也是杠杠的~贪心科技|让每个人享受个性化教育服务Background贪心科技|让每个人享受个性化教育服务DAPT领域自适应预训练(Domain-AdaptivePretraining,DAPT),即在领域相关的大规模无标注语料继续进行预训练,然后再对特定任务进行finetune。论文选取了4个领域语料库,分别为生物医学(BioMed)领域、计算机科学(CS)领域、新闻(NEWs)领域、评论(Reviews)领域,如图2所示。我们采取RoBERTa作为基准的预训练语言模型,其预训练语料库相比于BERT数量更大、更具多样性贪心科技|让每个人享受个性化教育服务DAPT不同领域间的词汇重叠度(选取每个领域TOP10K个高频词,计算词汇重复度),可以发现RoBERTa语料与NEWs和Reviews领域相似度高,而与BioMed和CS领域相似度较低。贪心科技|让每个人享受个性化教育服务DAPT论文对每个领域选取2个特定分类任务进行实验,并进行了高资源和低资...