LLM论文笔记 15: Transformers Can Achieve Length Generalization But Not Robustly

news/2025/2/22 1:03:53
  • Arxiv日期:2024.2.14
  • 机构:Google DeepMind / University of Toronto

关键词

  • 长度泛化
  • 位置编码
  • 数据格式

核心结论

1. 实验结论:十进制加法任务上的长度泛化最佳组合:

  • FIRE位置编码

  • 随机化位置编码

  • 反向数据格式

  • 索引提示(index hints,辅助定位)

2. 在适当的配置下,Transformer模型可以泛化到训练序列长度的2.5倍(例如从40位加法训练成功泛化到100位加法)

3. 长度泛化的表现高度依赖于随机权重初始化和训练数据的顺序,导致不同试验之间的性能差异显著

4. 增大模型规模对长度泛化的提升有限,且有时可能导致性能下降

主要方法

主要探讨Transformer模型在长度泛化(length generalization)上的表现,特别是在整数加法任务中的应用。

长度泛化指的是模型从训练中的短序列泛化到测试中的更长序列的能力。

研究通过调整位置编码(position encoding)和数据格式,证明了Transformer在长度泛化上的潜力,但同时指出了其鲁棒性较差的问题。

注:本系列不包括基础的知识点讲解,为笔记/大纲性质而非教程,用于论文知识点和思想和快速记忆和回顾,更多细节建议阅读论文原文


http://www.niftyadmin.cn/n/5861480.html

相关文章

【并发测试】Redis并发性能测试

arthas 测试示例 Redis配置类 Slf4j Configuration public class RedisConfig {BeanJedisConnectionFactory jedisConnectionFactory() {RedisStandaloneConfiguration configuration new RedisStandaloneConfiguration();configuration.setHostName(redisHost);configuratio…

三甲医院网络架构与安全建设实战

一、设计目标 实现医疗业务网/卫生专网/互联网三网隔离 满足等保2.0三级合规要求 保障PACS影像系统低时延传输 实现医疗物联网统一接入管控 二、全网拓扑架构 三、网络分区与安全设计 IP/VLAN规划表 核心业务配置(华为CE6865) interface 100G…

一文讲解Redis中的基本数据类型

Redis 有五种基本数据类型,这五种数据类型分别是:string(字符串)、hash(哈希)、list(列表)、set(集合)、sorted set(有序集合,也叫 zs…

C++蓝桥杯基础篇(四)

片头 嗨~小伙伴们,大家好!今天我们来学习C蓝桥杯基础篇(四),继续练习相关习题。准备好了吗?咱们开始咯~ 题目1 连续整数相加 思路分析: 这道题,我们可以把从键盘中读取n写在while循…

Spring Boot ShardingJDBC分库分表(草稿)

ShardingJDBC分库分表 1.Maven 引用 <dependency><groupId>org.apache.shardingsphere</groupId><artifactId>sharding-jdbc-spring-boot-starter</artifactId><version>4.1.1</version></dependency><dependency><…

Nginx稳定版最新1.26.2源码包安装【保姆级教学】

Nginx安装及配置 开源Nginx官网地址(https://nginx.org) Nginx源码包下载地址(https://nginx.org/en/download.html) Mainline version 主线版本 Stable version 稳定版本 Legacy versions 陈旧版本 下载Nginx源码文件 curl -O https://nginx.org/download/nginx-1.26.2.t…

机器视觉3D深度图颜色含义解析

在机器视觉中&#xff0c;3D深度图颜色变化通常表示以下含义&#xff1a; 1.深度信息变化 颜色深浅&#xff1a;颜色越深&#xff0c;物体越近&#xff1b;颜色越浅&#xff0c;物体越远。 颜色渐变&#xff1a;平滑的渐变表示深度连续变化&#xff0c;突变则表示深度不连续。 …

Linux-ubuntu系统移植之Uboot启动流程

Linux-ubuntu系统移植之Uboot启动流程 一&#xff0c;Uboot启动流程1.Uboot的两阶段1.1.第一阶段1.11.硬件初始化1.12.复制 U-Boot 到 RAM1.13.跳转到第二阶段 1.2.第二阶段1.21.C 语言环境初始化1.22. 硬件设备初始化1.23. 加载环境变量1.24. 显示启动信息1.25. 等待用户输入&…