网站地图官方微信:
网站首页 通达镇 良口乡 瑞溪镇 清流镇 丹桂镇 中铺镇

当前位置: 首页 >

为什么我还是无法理解transformer?

不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。

反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。

总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。

为什么我还是无法理解transformer?

  • | 海胆到底是什么味道? |

    本人海胆狂魔。 海胆,只要吃马粪海胆这个品种就行了,一定要...

    查看详情>>
  • | 女生真正的完美身材是什么样子? |

  • | 腾讯开源的 libco 号称千万级协程支持,那个共享栈模式原理是什么? |

  • | 阿里云为什么没有一年的免费云服务? |

  • | 坚持使用 PHP 的你,如今有什么感悟? |

  • | 2025年小米su7 性价比很低了,为何还不更新改款? |

  • | 为什么***骂 Ubuntu,但是 Ubuntu 一直是所有 Linux 发行版中知名度、热度最高的? |

  • | 预测一下,下一次阅兵会出现什么武器震惊世界? |

  • | 为什么手机动辄都 1T 存储了,为啥电脑还在死磕 512G 呢? |

  • | 为什么 macOS 并不差,可市场总敌不过 Windows? |

  • | Rust 使用 Result 的错误处理方式与 Golang 使用 error 的方式有什么本质区别? |

  • 想跟大家来聊聊刚发布的HarmonyOS 6开发者beta版...

    2025-06-21
  • 大家可以在评论区投票,评选你心中最美和最丑的战斗机。 每个飞...

    2025-06-21
  • 如果是当家用媒体服务器,比如跑个plex server,或者...

    2025-06-21
  • 她突然凑近问我:“你是做网络安全的呀?具体负责哪块呀?” 我...

    2025-06-21

关注我们

添加微信好友,关注最新动态