什么?Scaling Law 最早是百度 2017 年提的?!学妹超乖
Meta 研究员翻出经典论文:
大大量东谈主可能不知谈,Scaling law 原始研究来自 2017 年的百度,而非三年后(2020 年)的 OpenAI。
此研究由吴恩达主抓,来自百度硅谷东谈主工智能履行室 ( SVAIL ) 系统团队。
他们磋议了深度学习中考验集大小、计算限制和模子精度之间的干系,况且通过大限制实证研究揭示了深度学习泛化舛错和模子大小的缩放律例,还在图像和音频上进行了测试。
只不外他们使用的是 LSTM,而不是 Transformer;也莫得将他们的发现定名为「Law」。
再回头看,其中一位作家 Gregory Diamos 给我方往常在百度的先容照旧LLM Scaling Law Researcher。
又有一网友发现,OpenAI 论文还援用了 2019 年这位作家 Gregory Diamos 等东谈主的拜访。但却不知谈他们 2017 年就有了这样一项职责。
网友们纷纷暗意这篇论文相配值得一读,而且皆备被低估。
来飞快望望这篇论文。
欧美日韩中文字幕在线,播放深度学习 Scaling 是可瞻望的
在深度学习界限,跟着模子架构的不休探索、考验数据集的不休增大以及计算才能的不休普及,模子的性能也在不休提高。
可是,关于考验集大小、计算限制和模子精度之间的具体干系,一直缺少深远的默契。
本文通过大限制的实证研究,对多个机器学习界限(如机器翻译、谈话建模、图像分类和语音识别)进行了测试,发现了一些律例:
泛化舛错(模子在新数据上的推崇舛错)与考验集大小呈现幂律干系,即跟着考验集的增大,泛化舛错会以一定的幂次下落。
模子大小与与数据大小也存在 Scaling(缩放)干系,通常模子大小的增长速率比数据大小的增长速率慢。
具体来说,说合以往职责,团队将耀目力辘集在准确臆测学习弧线和模子大小的缩放趋势上。
按照一般测量步履,是遴荐发轫进的 SOTA 模子,并在考验集的更大子集(碎屑)上考验这些模子的 "超参数缩减 "版块,以不雅察模子的准确性奈何跟着考验集的大小而增长。
因此针对这四个界限,机器翻译、谈话建模、图像分类和语音识别,找到了他们在大型数据集上通晓出 SOTA 泛化舛错的模子架构。
这里的 "大型数据集 "是指限制不错减弱 2-3 个数目级,但仍足以进行有价值的模子架构研究的考验集。他们为某些 ML 界限遴荐了一种以上的模子架构学妹超乖,以相比它们的膨胀算作。
机器翻译
团队醒目到,跟着考验集限制的增大,优化变得愈加贫瘠,而且模子会出现容量不及的情况,因此教化舛错会偏离幂律趋势。
词谈话模子
这一效力标明,最好拟合模子随考验分片大小呈次线性增长。
字符级谈话模子
为了测试字符级谈话建模,他们考验了深度为 10 的轮回高速公路相聚(RHN),效力发现该相聚在十亿单词数据集上能达到发轫进的(SOTA)准确率。
图像分类。
图像分类雷同呈现出幂律学习弧线和模子大小的缩放干系。况且还标明,在相配小的考验集上,准确率会在接近速即猜想的水平上趋于沉稳。
语音识别。
团队考验了一系列跨度较大的模子尺寸,是以针对每个考验数据大小得出的模子尺寸缩放效力,其真理不像在谈话模子(LMs)或图像分类中那么显然。
跟着数据量的加多,大大量模子会履历幂律泛化检阅,直至数据量接近其有用容量。在这种情况下,参数为 170 万的模子的准确率在简略 170 小时的音频数据时运转趋于沉稳,而参数为 600 万的模子在简略 860 小时的音频数据时趋于沉稳(也即是说,简略是前者的 5 倍,这与模子尺寸的互异情况肖似)。更大的模子(举例,参数为 8700 万的模子)在更大的数据集限制下,其泛化舛错也更接近最好拟合趋势。
终末关于这一发现,他们暗意,这些比例干系对深度学习的研究、实施和系统都有要紧影响。它们不错匡助模子调试、设定准确度筹办和数据集增长决议,还不错调换计算系统假想,并强调抓续计算膨胀的要紧性。
博客致谢中还有 Ilya 的名字
这次研究主淌若由往常吴恩达主抓下,百度硅谷东谈主工智能履行室 ( SVAIL ) 系统团队。
那时的一群合著者们照旧各自去到各个机构履行室、大厂不时从事大模子辩论的研究。
在往常博客致谢中,还出现了 Ilya 的名字,感谢他们参与了这一商讨。
两年后,也即是 2019 年,其中一位作家 Gregory Diamos 又指导团队磋议了深度学习的计算挑战。
背面的 OpenAI 论文恰是援用了这篇论文的拜访商讨了 Scaling Law。
值得一提的是,Anthropic CEODario Amodei在百度研究院吴恩达团队职责过,他对 Scaling Law 的第一印象亦然那时研究语音模子产生的。
Amodei 刚运转研究语音神经相聚时有一种"生手撞大运"的嗅觉,尝试把模子和数据限制同期扩大,发现模子性能跟着限制的加多而不休普及。
当先,他觉得这仅仅语音识别系统的特例。但到了 2017 年,看到 GPT-1 的效力后意志到这种赋闲在谈话模子上雷同适用。
往常(2015 年)他一作发表的论文 Deep Speech,合著者中这位 Sharan Narang 恰是两年后这篇论文的主要作家之一。如今后者先后去到了谷歌担任 PaLM 面孔 TL 大模子认真东谈主,然后当今是 Meta 当研究员。
如今这一"冷学问"再次出当今人人的视线,让不少东谈主回溯并重温。
这当中还有东谈主进一步暗意:果真的 OG 论文使用了seq2seq LSTM,况且笃定了参数计算弧线。
往常的一作恰是 Ilya Sutskever。
参考勾通:
[ 1 ] https://arxiv.org/abs/1512.02595 [ 2 ] https://arxiv.org/abs/1909.01736
[ 3 ] https://research.baidu.com/Blog/index-view?id=89
[ 4 ] https://www.linkedin.com/in/gregory-diamos-1a8b9083/ [ 5 ] https://www.linkedin.com/in/dario-amodei-3934934/
[ 6 ] https://x.com/jxmnop/status/1861473014673797411?s=46&t=iTysI4vQLQqCNJjSmBODPw
— 完 —
「MEET2025 智能畴昔大会」
火热报名中
定档 12 月 11 日!李开复博士、周志华训诲、智源研究院王仲远院长都来量子位MEET2025 智能畴昔大会磋议行业破局之谈了!
最新嘉宾声势在此,不雅众报名通谈已开启!接待来到 MEET 智能畴昔大会,期待与您总共预念念智能科技新畴昔
傍边滑动检验最新嘉宾声势
点这里� � 激情我,记起标星哦~
一键三连「点赞」、「共享」和「在看」
科技前沿进展日日再见 ~