0718 Don’t stop pre-training.pptxVIP免费

下载本文档

阅读 1
下载 0
格式 pptx
大小 4.14 MB
约22页
2024-04-29
收藏
评论
点赞(0)
海报
举报

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

/22

文本预览下载提示常见问题

贪心科技|让每个人享受个性化教育服务贪心科技|让每个人享受个性化教育服务Contents贪心科技|让每个人享受个性化教育服务Abstract1.在内领域（in-domain）数据上继续预训练模型可以提升效果（DAPT-domain-adaptivepretraining）2.在任务适应性（task-adaptive）无标注数据上继续预训练模型可以提高效果(TAPT-task-adaptivepretraining)3.结合二者预训练（DAPT+TAPT）可以进一步提高效果；4.对TAPT任务进行数据增强DAPT+dataagumentTAPT=bestresult•biomedical•computersciencepublications•news•reviews8个分类任务贪心科技|让每个人享受个性化教育服务Introduction•原始预训练LM领域分布•目标领域分布•任务数据集分布•任务数据集通常从目标领域的一个较宽分布内（浅灰色部分）进行采样•目标领域和原始LM领域可交叉重叠。贪心科技|让每个人享受个性化教育服务IntroductionInsummary,ourcontributionsinclude:•athoroughanalysisofdomain-andtask_x0002_adaptivepretrainingacrossfourdomainsandeighttasks,spanninglow-andhigh-resourcesettings;•aninvestigationintothetransferabilityofadaptedLMsacrossdomainsandtasks;and•astudyhighlightingtheimportanceofpre_x0002_trainingonhuman-curateddatasets,andasim_x0002_pledataselectionstrategytoautomaticallyapproachthisperformance.RoBERTa直接对生物医学领域的某个分类任务（低资源设置）进行finetune时，f1只有79.3，而采取DAPT+Curated-TAPT后，指标提升至83.8！提升居然有4.5个percent！效果也是杠杠的～贪心科技|让每个人享受个性化教育服务Background贪心科技|让每个人享受个性化教育服务DAPT领域自适应预训练(Domain-AdaptivePretraining，DAPT)，即在领域相关的大规模无标注语料继续进行预训练，然后再对特定任务进行finetune。论文选取了4个领域语料库，分别为生物医学（BioMed）领域、计算机科学（CS）领域、新闻（NEWs）领域、评论（Reviews）领域，如图2所示。我们采取RoBERTa作为基准的预训练语言模型，其预训练语料库相比于BERT数量更大、更具多样性贪心科技|让每个人享受个性化教育服务DAPT不同领域间的词汇重叠度（选取每个领域TOP10K个高频词，计算词汇重复度），可以发现RoBERTa语料与NEWs和Reviews领域相似度高，而与BioMed和CS领域相似度较低。贪心科技|让每个人享受个性化教育服务DAPT论文对每个领域选取2个特定分类任务进行实验，并进行了高资源和低资...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容