文章
93
标签
29
分类
25
首页
时间轴
标签
分类
关于
谨慎谦虚
首页
时间轴
标签
分类
关于
PAGE_NAME
# 保研
# 神经网络
Transformer神经网络
发表于
2023-03-14
|
更新于
2024-05-07
|
学习笔记
神经网络
|
字数总计:
15
|
阅读量:
1
|
评论数:
🔑需要一把钥匙,芝麻开门可行不通.
Transformer神经网络
https://jjq0425.github.io/post/39650/
作者
谨慎谦虚
发布于
2023-03-14
更新于
2024-05-07
许可协议
CC BY 4.0
# 保研
# 神经网络
上一篇
HuggingFace NLP Course
下一篇
RNN循环神经网络
相关推荐
随便逛逛
2023-03-13
CNN卷积神经网络
2023-03-14
RNN循环神经网络
2023-02-25
神经网络入门
2023-03-26
HuggingFace NLP Course
2023-07-15
保研记录贴
2024-03-29
数据结构刷题日记基础篇
评论
谨慎谦虚
等风来不如追风去
文章
93
标签
29
分类
25
公告& 提示
👋若博客界面加载延迟,建议您刷新页面并清除缓存。图片展示依赖于Github图床,如遇加载困难,不妨尝试调整DNS设置。
愿知识的星火,永远照亮前方。
目录
1.
传统方案为什么不行?
2.
大模型基础(Transformer)
3.
Transformer
3.1.
模型结构
3.2.
开始输入
3.3.
Attention 注意力机制
3.3.1.
自注意力如何计算
3.3.1.1.
第一步:对编码器的每个输入向量都计算三个向量
3.3.1.2.
第二步:计算注意力得分
3.3.1.3.
第三步:将计算获得的注意力分数除以8。并归一化
3.3.1.4.
第四步:将每个value向量乘以注意力分数。结果相加,输出本位置的注意力结果
3.3.1.5.
综合来看
3.3.2.
多头注意力机制
3.3.2.1.
多头注意力给了注意层多个“表示子空间”。
3.4.
位置编码
3.5.
残差链接
4.
动画图解——文字翻译
最新文章
模型上下文协议MCP:现状、安全威胁及未来研究方向
2025-04-29
算法JAVA常用库语法
2025-04-23
LeetCode-Hot100思路复习
2025-03-26
重温算法(基础知识)
2025-03-15
大模型安全研究报告2025
2025-03-13
%
本地搜索
数据库加载中
复制
昼夜切换
阅读模式
随机文章