avatar
文章
95
标签
30
分类
27

首页
时间轴
标签
分类
关于
谨慎谦虚
首页
时间轴
标签
分类
关于
PAGE_NAME
# 保研# 神经网络

Transformer神经网络

发表于2023-03-14|更新于2024-05-07|学习笔记神经网络
|字数总计:15|阅读量:1|评论数:
Transformer神经网络
https://jjq0425.github.io/post/39650/
作者
谨慎谦虚
发布于
2023-03-14
更新于
2024-05-07
许可协议
CC BY 4.0
# 保研# 神经网络
cover of previous post
上一篇
HuggingFace NLP Course
cover of next post
下一篇
RNN循环神经网络
相关推荐 随便逛逛
cover
2023-03-13
CNN卷积神经网络
cover
2023-03-14
RNN循环神经网络
cover
2023-02-25
神经网络入门
cover
2023-03-26
HuggingFace NLP Course
cover
2023-07-15
保研记录贴
cover
2024-03-29
数据结构刷题日记基础篇

评论
avatar
谨慎谦虚
等风来不如追风去
文章
95
标签
30
分类
27
公告& 提示
👋若博客界面加载延迟,建议您刷新页面并清除缓存。图片展示依赖于Github图床,如遇加载困难,不妨尝试调整DNS设置。
愿知识的星火,永远照亮前方。
目录
  1. 1. 传统方案为什么不行?
  2. 2. 大模型基础(Transformer)
  3. 3. Transformer
    1. 3.1. 模型结构
    2. 3.2. 开始输入
    3. 3.3. Attention 注意力机制
      1. 3.3.1. 自注意力如何计算
        1. 3.3.1.1. 第一步:对编码器的每个输入向量都计算三个向量
        2. 3.3.1.2. 第二步:计算注意力得分
        3. 3.3.1.3. 第三步:将计算获得的注意力分数除以8。并归一化
        4. 3.3.1.4. 第四步:将每个value向量乘以注意力分数。结果相加,输出本位置的注意力结果
        5. 3.3.1.5. 综合来看
      2. 3.3.2. 多头注意力机制
        1. 3.3.2.1. 多头注意力给了注意层多个“表示子空间”。
    4. 3.4. 位置编码
    5. 3.5. 残差链接
  4. 4. 动画图解——文字翻译
最新文章
大模型框架基础
大模型框架基础2025-06-02
SCRAPS适用于具有不可信代理验证者的发布-订阅物联网网络的可扩展集体远程证明
SCRAPS适用于具有不可信代理验证者的发布-订阅物联网网络的可扩展集体远程证明2025-05-20
模型上下文协议MCP:现状、安全威胁及未来研究方向
模型上下文协议MCP:现状、安全威胁及未来研究方向2025-04-29
算法JAVA常用库语法
算法JAVA常用库语法2025-04-23
LeetCode-Hot100思路复习
LeetCode-Hot100思路复习2025-03-26

源于 热爱而去
寻找探索发现生活感受创造闪耀成长

©2022 - 2025 By 谨慎谦虚
框架 Hexo|主题 butterfly
本地搜索
数据库加载中

复制
昼夜切换阅读模式随机文章