大家好,我是 Bob! 😊 一个想和大家慢慢变富的 AI 程序员💸 分享 AI 前沿技术、项目经验、面试技巧! 欢迎关注我,一起探索,一起破圈!💪
最近笔者波波自己也有在好好学习喔,你也不能落下,所以把自己汇总的资源分享给大家参考。
https://blog.csdn.net/v_JULY_v/article/details/129508065
建议看这一篇。汇总了很多大厂经典论文。
https://github.com/liguodongiot/llm-action
这个项目有9.9k的star。很适合大模型NLP学习者
主要掌握 深度学习的基础知识,了解神经网络的原理。
动手学深度学习:
三方应用: https://zh.d2l.ai/
Pytorch 是大模型重要的框架 ,所有重要的模型都几乎采用Pytorch 实现,对此框架的掌握,有助于了解模型和编写模型代码,相关学习资料如下:
https://github.com/fendouai/PyTorchDocs https://pytorch.org/tutorials/beginner/pytorch_with_examples.html
提示工程(PE)是与 AI 进行有效沟通已实现预期结果的过程。随着 AI 技术持续快速的发展,掌握提示工程技能变得尤为重要。提示工程技术可以应用于各种各样的任务,使其成为任何寻求提高日常和创新活动效率的人的有用工具。在数据集增强和对大模型调优阶段会大量涉及到提示工程方面的知识。 学习资料:
https://learnprompting.org/zh-Hans/docs/intro
默认 transformer 起初采用的是绝对位置编码,但随着用户对大模型上下文和效率的追求,行业在不断改进,绝对位置编码依然淘汰。了解最新的位置编码算法对于认识当前大模型有很好的帮助。
相关学习资料:
**相对位置编码:**https://arxiv.org/abs/1803.02155
ALiBi位置编码:https://arxiv.org/abs/2108.12409
Sandwich位置编码:https://arxiv.org/abs/2106.12598
旋转位置编码:https://arxiv.org/abs/2104.09864
注意力是transformer很重要的一个概念,如果没有注意力的改进,大模型不会出现如此好的效率和智能,所以对注意力算法的了解也是至关重要 相关学习资料:
自注意力机制(Self-Attention):https://arxiv.org/abs/1706.03762
MQA (Multi-Query Attention):https://arxiv.org/abs/1911.02150
GQA (Global Query Attention) :https://arxiv.org/abs/2002.09752
MLA(Multi-head Latent Attention) : https://arxiv.org/abs/2405.04434
FlashAttention : https://arxiv.org/abs/2205.14135
PageAttention:https://arxiv.org/abs/2205.09729
RAG (Retrieval-Augmented Generation) 是一种结合信息检索和生成的技术,旨在提升大语言模型(LLM)的准确率和性能,可以实现对模型的免微调进行知识的注入。
RAG相关论文
https://arxiv.org/abs/2310.01352 https://arxiv.org/abs/2305.02437 https://arxiv.org/abs/2401.15884 https://arxiv.org/abs/2310.11511
Embedding 模型将文本数据转换为高维向量表示,捕捉语义信息和相似性,广泛用于文本表示、信息检索、推荐系统等自然语言处理任务,提高模型性能和计算效率,一般我们用 Embedding 模型 进行RAG 检索。
相关学习资料: https://arxiv.org/pdf/2309.07597 https://arxiv.org/pdf/2310.07554
Embedding 模型训练框架
https://github.com/FlagOpen/FlagEmbedding
github 上关于LLM 训练和微调的一系列知识学习
https://github.com/mlabonne/llm-course
训练框架学习:
https://github.com/hiyouga/LLaMA-Factory
对于一些在微调阶段,模型一直做不好的问题,我们可以利用偏好学习算法来解决这样的问题,进一步对模型进行调优。 以下是关于偏好学习的一些重要方法和相关论文地址:
DPO (Direct Preference Optimization) DPO是一种用于直接优化偏好数据的算法,通过将奖励函数转换为策略优化问题来简化模型的训练过程。相比传统的强化学习方法,它能够更稳定且高效地对齐语言模型与人类偏好。
RLHF: Reinforcement Learning with Human Feedback: Learning Dynamic Choices via Pessimism RLHF是一种通过从人类反馈中学习奖励信号来训练模型的方法,常用于提升生成模型的对话质量和任务完成度。
ORPO: Optimized Reinforcement Preference Optimization ORPO是一种结合了强化学习和偏好优化的方法,旨在通过优化奖励信号和策略来提升模型在偏好数据上的表现。
KTO (Kahneman-Tversky Optimization) KTO是一种基于Kahneman-Tversky偏好模型的优化方法,通过考虑人类偏好的不对称性和不一致性来优化模型的表现。
大模型这块,数据质量很重要,如何自动生成和筛选出高质量的数据对大模型来说至关重要。
Self-Instruct
Self-Instruct 是一种通过模型自身生成指令数据来对预训练语言模型进行对齐的方法。它旨在减少对人工注释数据的依赖,从而提高模型的指令跟随能力。 论文: Self-Instruct: Aligning Language Models with Self-Generated Instructions
Evol-Instruct Evol-Instruct 是一种通过进化生成指令数据的方法,以提升语言模型在应对复杂任务时的表现。这个方法通过逐步演化和筛选高质量的指令数据,优化模型的指令理解和执行能力。 论文地址: https://arxiv.org/abs/2304.12244
Instruct-Fusion Instruct-Fusion 结合多种指令数据源,通过融合多样化的训练数据来增强语言模型的指令跟随能力。这种方法可以提高模型在广泛任务上的泛化能力。 论文地址: https://arxiv.org/abs/2312.15692 Magicoder: Source Code Is All You Need 论文地址: https://arxiv.org/abs/2312.02120
Instruction-Following Difficulty (IFD) IFD 是一种评估指令样本难度的指标,通过计算模型在给定指令下生成响应的难度来衡量样本的挑战性。该指标可以帮助选择高质量的训练数据以提高模型的指令跟随能力。 论文: From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning
Data-Efficient Instruction Tuning for Alignment (DEITA)
DEITA 是一种通过高效的数据使用来对齐模型的方法,旨在使用最少量的数据实现最佳的指令跟随效果。通过精心选择和优化数据,DEITA 可以显著提高模型的性能。 论文地址:https://arxiv.org/abs/2312.15685
Model-oriented Data Selection for Instruction Tuning (MoDS) MoDS 是一种面向模型的数据选择方法,旨在从大规模数据集中选择最有效的指令数据,以优化模型的指令跟随能力。该方法结合了质量评估、多样性选择和必要性评估来挑选数据。 论文: Model-oriented Data Selection for Instruction Tuning
模型量化后可以极大的减少内存占用,可以在较小的显卡跑较大的模型,是一种模型部署的优化技术,对于大模型开发者来说,掌握必不可少。
GPTQ (Accurate Post-Training Quantization) GPTQ 是一种用于生成预训练变换器(GPT)模型的高效量化方法。它利用近似的二阶信息进行量化,能够在保持模型精度的同时显著减少计算和存储需求。 论文: GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers
GGUF (Global Gradient Update Frequency) 目前关于 GGUF 的具体论文地址未找到,但它通常涉及在分布式深度学习训练中优化梯度更新频率,以提高训练效率和模型性能。建议查看相关领域的最新研究和预印本服务器。 学习地址:https://github.com/ggerganov/llama.cpp
AWQ (Adaptive Weight Quantization) AWQ 是一种自适应权重量化方法,旨在通过对模型权重进行量化处理来减少计算开销和内存使用。该方法适用于大规模深度学习模型,在保持模型精度的同时,提高了计算效率。 论文: https://arxiv.org/abs/2306.00978
1.【Bob 的 AI 成长陪伴群】门票 99/年
🔴AI 变现项目、AI 前沿技术、NLP 知识技术分享、前瞻思考、面试技巧、找工作等
🔴 个人 IP 打造、自媒体副业、向上社交、以及我的日常生活所见所闻,所思所想。
2.一对一的一小时咨询服务(49/次)
找一群人一起走,慢慢变富。期待和同频 朋的 友一起蜕变!
本文作者:Bob
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!