transformer 为什么使用 layer normalization,而不是其他的归一化方法?

sq-feng / 2024-09-27 / 原文

原文链接

感觉写的深得我心,点赞之余把链接放到blog上,方便日后查看,欢迎大家前去点赞打卡收藏。