自然语言处理技术在时空数据治理中的应用易智瑞研究院产品咨询推广部陈竞男GeoScene结合NLP的探索实践NLP在时空数据治理中的应用潜力目录自然语言处理技术的概念和发展020301内容总结0401NLP的概念和发展•自然语言处理(NaturalLanguageProcessing,简称NLP)是一门集语言学、数学及计算机科学于一体的科学,旨在让计算机能够理解(NLU)和生成(NLG)人类语言。•NLP是人工智能的一个重要分支,被誉为“人工智能皇冠上的明珠”,该领域体现了人工智能的最高任务与境界,也就是说,只有当计算机具备了处理自然语言的能力时,机器才算实现了真正的智能。自然语言处理的概念机器翻译NLP应用场景知识图谱搜索理解邮件分类拼写检查(文本纠错)语音识别、舆情分析、推荐系统、文案生成……自动问答NLP技术的发展历程20世纪50年代手写规则时代20世纪70年代统计语言模型时代2003年深度学习时代1过渡期-向量法NPLM,word2vec2013年深度学习时代2RNN及类RNN时期(RNN(LSTM))2015年深度学习时代3预训练模型时期Transformer(ChatGPT)三个大的阶段:规则化、统计化、深度学习•词嵌入(WordEmbedding),即将词映射到一个向量空间,形成词向量•用实数把词汇表示成普通的向量形式,就可以在有限维度表达任意词深度学习时期的NLP技术-词嵌入词嵌入模型:Word2vecFasttextGloVe能捕获词语之间的语义和语法关系:近义词的向量会在空间中更靠近,而反义词则会更远离词向量特点:呼喊歌唱树木花猫狗兔基本原理:输入大规模无监督语料,考虑单词的上下文信息,采用神经网络模型进行词向量模型训练•2017年谷歌在论文《AttentionisAllYouNeed》提出的序列模型•是一种优秀的神经网络架构,能够解决并行训练问题以及上下文长程依赖问题深度学习时期的NLP技术-Transformer代表模型:BERTGPT…•通过对输入序列中的每个词进行注意力权重的计算,来确定该词与其他词的相关程度。•这种机制允许模型根据上下文动态地调整对不同元素的关注度,从而更好地捕捉句子中单词之间的句法特征以及语义特征Self-attention机制:•命名实体识别(NamedEntityRecognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、时间、机构名、专有名词等。NLP常见任务-命名实体识别•文本分类是指用计算机对文本(或其他实体)按照一定的分类体系或标准进行自动分类标记。应用场景:•情感分析(积极、消极、中性)•主题分类(金融、体育、军事、社会)•...