首页
技术小册
AIGC
面试刷题
技术文章
MAGENTO
云计算
视频课程
源码下载
PDF书籍
「涨薪秘籍」
登录
注册
51 | 神经网络的构建:Residual Connection和Dense Connection
52 | 神经网络的构建:Network in Network
53 | 神经网络的构建:Gating Mechanism和Attention
54 | 神经网络的构建:Memory
55 | 神经网络的构建:Activation Function
56 | 神经网络的构建:Normalization
57 | 神经网络的训练:初始化
58 | 神经网络的训练:学习率和Warm-up
59 | 神经网络的训练:新的PyTorch训练框架
60 | Transformer:如何通过Transformer榨取重要变量?
61 | Transformer代码实现剖析
62 | xDeepFM:如何用神经网络处理高维的特征?
63 | xDeepFM的代码解析
64 | 时序建模:如何用神经网络解决时间序列的预测问题?
65 | 图嵌入:如何将图关系纳入模型?
66 | 图网络简介:如何在图结构的基础上建立神经网络?
67 | 模型融合基础:如何让你所学到的模型方法一起发挥作用?
68 | 高级模型融合技巧:Metades是什么?
69 | 挖掘自然语言中的人工特征:如何用传统的特征解决问题?
70 | 重新审视Word Embedding:Negative Sampling和Contextual Embedding
71 | 深度迁移学习模型:从ELMo到BERT
72 | 深度迁移学习模型:RoBERTa、XLNet、ERNIE和T5
73 | 深度迁移学习模型:ALBERT和ELECTRA
74 | 深度迁移学习模型的微调:如何使用TensorFlow在TPU对模型进行微调
75 | 深度迁移学习模型的微调:TensorFlow BERT代码简析
76 | 深度迁移学习的微调:如何利用PyTorch实现深度迁移学习模型的微调及代码简析
77 | 优化器:Adam和AdamW
78 | 优化器:Lookahead,Radam和Lamb
79 | 多重loss的方式:如何使用多重loss来提高模型准确率?
80 | 数据扩充的基本方法:如何从少部分数据中扩充更多的数据并避免过拟合?
81 | UDA:一种系统的数据扩充框架
82 | Label Smoothing和Logit Squeezing
83 | 底层模型拼接:如何让不同的语言模型融合在一起从而达到更好的效果?
84 | 上层模型拼接:如何在语言模型基础上拼接更多的模型?
85 | 长文本分类:截取、关键词拼接和预测平均
86 | Virtual Adverserial Training:如何减少一般对抗训练难收敛的问题并提高结果的鲁棒性?
87 | 其他Embedding的训练:还有哪些Embedding方法?
88 | 训练预语言模型
89 | 多任务训练:如何利用多任务训练来提升效果?
90 | Domain Adaptation:如何利用其它有标注语料来提升效果?
91 | Few-shot Learning:是否有更好的利用不同任务的方法?
92 | 半监督学习:如何让没有标注的数据也派上用场?
93 | 依存分析和Semantic Parsing概述
94 | 依存分析和Universal Depdency Relattions
95 | 如何在Stanza中实现Dependency Parsing
96 | Shift Reduce算法
97 | 基于神经网络的依存分析算法
98 | 树神经网络:如何采用Tree LSTM和其它拓展方法?
99 | Semantic Parsing基础:Semantic Parsing的任务是什么?
当前位置:
首页>>
技术小册>>
NLP入门到实战精讲(中)
小册名称:NLP入门到实战精讲(中)
### 70 | 重新审视Word Embedding:Negative Sampling与Contextual Embedding 在自然语言处理(NLP)的广阔领域中,词嵌入(Word Embedding)技术占据着举足轻重的地位。它不仅为文本数据提供了丰富的数值表示形式,还极大地促进了深度学习模型在NLP任务中的性能提升。从传统的静态词嵌入如Word2Vec到近年来兴起的上下文相关词嵌入(如BERT、GPT系列),词嵌入技术经历了从简单到复杂、从静态到动态的深刻变革。本章将深入探讨两种关键技术:负采样(Negative Sampling)和上下文词嵌入(Contextual Embedding),以期为读者提供一个全面而深入的理解。 #### 70.1 引言 词嵌入的基本思想是将词汇表中的每个单词映射到一个高维空间中的向量上,使得语义上相似的单词在向量空间中距离较近。Word2Vec是这一领域的里程碑式工作,它提出了两种主要模型:Skip-Gram和CBOW(Continuous Bag of Words)。然而,随着NLP任务的日益复杂,传统的Word2Vec模型因其静态性(即每个单词仅对应一个固定向量)和计算效率问题,逐渐显露出局限性。因此,负采样技术和上下文词嵌入的兴起,为词嵌入领域带来了新的活力。 #### 70.2 负采样(Negative Sampling) ##### 70.2.1 背景与挑战 在原始的Skip-Gram模型中,为了预测中心词周围的上下文词(或反之),需要计算中心词与整个词汇表中每个单词的条件概率。当词汇表非常大时,这种计算变得极为昂贵且效率低下。负采样技术正是为了解决这个问题而提出的。 ##### 70.2.2 基本原理 负采样通过随机选择一定数量的“负样本”(即那些实际上并未出现在当前上下文中的单词)来简化训练过程。具体来说,对于每个正样本(中心词-上下文词对),模型会额外选择几个负样本,并优化模型以区分正样本和负样本。这样,模型的学习目标就变成了最大化正样本的似然概率同时最小化负样本的似然概率。 ##### 70.2.3 实现细节 - **选择负样本**:通常,负样本的选择遵循词汇表中单词的频率分布,但会进行适当的平滑处理,以避免过于频繁地选择高频词。 - **损失函数**:负采样通常与二元逻辑回归相结合,使用sigmoid函数作为激活函数,并定义损失函数为对数似然损失,即最大化正样本的对数概率同时最小化负样本的对数概率。 - **参数调整**:负样本的数量是一个超参数,需要根据具体任务进行调整。过多的负样本会增加计算量,而过少的负样本则可能导致模型过拟合。 ##### 70.2.4 优点与局限 **优点**: - 显著提高了训练速度,尤其是在词汇表很大的情况下。 - 通过引入负样本,增加了模型的泛化能力。 **局限**: - 负样本的选择具有一定的随机性,可能影响模型的稳定性。 - 仍然基于静态词嵌入的框架,无法处理一词多义的问题。 #### 70.3 上下文词嵌入(Contextual Embedding) ##### 70.3.1 背景与动机 传统词嵌入的一个主要缺陷是它们无法捕捉到单词在不同上下文中的不同含义。例如,“bank”在“river bank”和“bank account”中的含义截然不同,但Word2Vec等静态词嵌入模型会赋予它们相同的向量表示。为了解决这个问题,研究者们提出了上下文词嵌入技术。 ##### 70.3.2 关键技术 **BERT(Bidirectional Encoder Representations from Transformers)**: BERT是近年来最受欢迎的上下文词嵌入模型之一,它通过预训练大量文本数据来学习单词在不同上下文中的表示。BERT的核心在于其双向Transformer编码器结构,能够同时考虑单词的左侧和右侧上下文信息。此外,BERT还采用了遮蔽语言模型(Masked Language Model, MLM)和下一句预测(Next Sentence Prediction, NSP)两个预训练任务,进一步增强了模型的上下文理解能力。 **GPT(Generative Pre-trained Transformer)系列**: 与BERT不同,GPT系列模型采用自回归语言模型的方式,即根据已知的上文预测下一个单词。GPT-3等模型通过极大规模的预训练数据集和强大的Transformer结构,实现了对自然语言的高度理解和生成能力。尽管GPT系列模型在生成任务上表现出色,但其在处理双向上下文方面不如BERT灵活。 ##### 70.3.3 应用与影响 上下文词嵌入技术的出现,极大地推动了NLP领域的发展。它们不仅在传统的分类、命名实体识别等任务上取得了显著的性能提升,还在问答系统、文本摘要、机器翻译等复杂任务中展现了强大的潜力。此外,这些技术还促进了多语言处理、零样本学习和少样本学习等研究方向的进步。 ##### 70.3.4 挑战与展望 尽管上下文词嵌入技术取得了巨大成功,但它们也面临着一些挑战。例如,模型规模庞大导致计算和存储成本高昂;模型的可解释性较差,难以直接理解其决策过程;以及如何处理长尾词汇和罕见词等问题。未来,随着计算能力的提升和算法的创新,我们有理由相信上下文词嵌入技术将在NLP领域发挥更加重要的作用,推动该领域向更加智能化和人性化的方向发展。 #### 70.4 总结 本章对负采样技术和上下文词嵌入进行了全面的审视。负采样通过引入负样本来简化训练过程,提高了模型的训练效率和泛化能力;而上下文词嵌入则通过捕捉单词在不同上下文中的不同含义,突破了传统静态词嵌入的局限,为NLP任务提供了更加精准和丰富的词表示。这两种技术各有千秋,共同构成了现代NLP技术体系的重要组成部分。随着技术的不断进步和应用的不断拓展,我们有理由相信词嵌入技术将在未来发挥更加重要的作用,推动NLP领域实现更加辉煌的成就。
上一篇:
69 | 挖掘自然语言中的人工特征:如何用传统的特征解决问题?
下一篇:
71 | 深度迁移学习模型:从ELMo到BERT
该分类下的相关小册推荐:
一本书读懂AIGC提示词
大模型应用解决方案-基于ChatGPT(下)
AI-Agent智能应用实战(上)
秒懂AI提问:人工智能提升效率
AI 大模型企业应用实战
AI 绘画核心技术与实战
AI时代产品经理:ChatGPT与产品经理(下)
AI时代项目经理:ChatGPT与项目经理(上)
AI时代产品经理:ChatGPT与产品经理(中)
推荐系统概念与原理
AI 时代的软件工程
python与ChatGPT让excel高效办公(下)