永利棋牌官网版AI热门论文
2024-10-16 次 中国案例库官网
Knowledge Overshadowing Causes Amalgamated Hallucination in Large Language Models
我们通过理论计算机科学的视角来看待意识■■◆◆★◆,这是数学的一个分支■■★★◆,研究资源受限条件下的计算■■■■★。从这个角度出发,我们为意识开发了一个正式的机器模型★★◆■。这个模型受到了艾伦·图灵简单而强大的计算模型和伯纳德·巴尔斯的意识剧院模型的启发。尽管非常简单,但是该模型在高层次上与许多人类和动物意识的主要科学理论相一致,支持我们的观点◆◆■■★,即机器意识是不可避免的。
Scaling A Simple Approach to Zero-Shot Speech Recognition
DiLoCo: Distributed Low-Communication Training of Language Models
一般认为,大型语言模型(LLMs)比规模较小的模型更好。然而★★■★◆★,大型模型在推理期间需要更多的时间和计算资源■◆■★。这就引发了一个问题:当两个模型在相同的预算下运行时会发生什么?为了解决这个问题★★★,我们分析了各种规模的代码生成LLMs,并进行了比较,例如运行一次70B模型与从13B模型生成五个输出并选择一个的情况。我们的研究发现■■◆,在标准的单元测试设置中,反复使用较小的模型可以产生一致的改进■◆★■◆,五项任务的收益最高可达15%★◆◆■★。另一方面■★■■◆,在无法进行单元测试的情况下■■★,从较小模型中选择候选人的排名方法不如从较大模型中选择单个输出的性能好。我们的结果凸显了使用较小模型而非较大模型的潜力,以及研究对LLM输出进行排名的方法的重要性■◆。
智能电视采用一种称为自动内容识别(ACR)的独特跟踪方法来对其用户的观看活动进行分析。ACR是一种类似于Shazam的技术,它通过定期捕捉电视屏幕上显示的内容,并将其与内容库进行匹配,以检测任何给定时间点上正在显示的内容◆■★■★。虽然先前的研究已经调查了智能电视生态系统中的第三方跟踪◆◆★,但它没有研究由智能电视平台直接进行的二方ACR跟踪◆★■◆■。在这项工作中,我们对智能电视上的ACR客户端和ACR服务器之间的ACR网络流量进行黑盒审计■■◆★。我们使用我们的审计方法系统地调查ACR跟踪是否对用户观看电视的方式(例如线性观看、流媒体观看★◆■、HDMI观看)不加区分◆■■,智能电视提供的隐私控制是否会对ACR跟踪产生影响,以及英国和美国之间是否存在ACR跟踪方面的差异■★★★◆◆。我们在两个主要智能电视平台Samsung和LG上进行了一系列实验◆★◆◆★★。我们的结果表明,即使智能电视被用作“哑”外部显示器,ACR也可以工作,选择退出可以停止与ACR服务器的网络流量★◆★◆◆★,并且ACR在英国和美国的工作方式存在差异。
对于部署LLM来说★◆■◆◆■,快速响应工程至关重要,但其在数学上的理解还很不完善。我们将LLM系统形式化为一类离散随机动态系统■★,通过控制理论的视角探索快速响应工程。我们研究了输出记号序列的可达集合$R_y(\mathbf x_0)$,并证明了对于其中的每个$\mathbf y \in R_y(\mathbf x_0)$,都存在一个控制输入序列$\mathbf u$◆■,可以从初始状态序列$\mathbf x_0$将LLM引导输出$\mathbf y$。我们对自注意力的可控性进行了限制性的分析,证明了输出可达集合$R_y(\mathbf x_0)$的上限,其取决于参数矩阵的奇异值。我们还对一系列LLM进行了补充的实证分析★■■★,包括Falcon-7b、Llama-7b和Falcon-40b。我们的结果展示了关于初始状态序列$\mathbf x_0$的输出可达集合$R_y(\mathbf x_0)$的下限。我们发现,使用$k\leq 10$个记号的提示时,可以在97%以上的情况下找到下一个Wikitext记号。我们还确定◆■,使用$k\leq 10$个记号的提示时,根据LLM本身的估计,最可能的前75个下一个记号在85%以上的情况下都是可以到达的。有趣的是,短提示序列可以极大地改变特定输出的可能性,甚至使最不可能的记号变成最可能的★◆★。这种以控制为中心的LLM分析展示了输入序列在引导输出概率方面的重要而不完全理解的作用■◆★★◆■,为增强语言模型系统的能力提供了基础性的视角■★■。
Small Molecule Optimization with Large Language Models
Whats the Magic Word■◆◆◆■■? A Control Theory of LLM Prompting
最近大型语言模型的进展为生成性分子药物设计开辟了新的可能性。我们提出了Chemlactica和Chemma两种语言模型■■★★■,它们在一个包含计算属性的新型1.1亿分子语料库上进行了微调,总计40B个标记■◆■★■◆。这些模型在生成具有指定属性的分子和从有限样本中预测新的分子特性方面表现出强大的性能。我们介绍了一种新颖的优化算法,利用我们的语言模型在有限的黑盒oracle访问下优化分子的任意属性。我们的方法结合了遗传算法、拒绝抽样和提示优化的思想。它在多个分子优化基准测试中实现了最先进的性能,包括在实用分子优化方面比以前的方法提高了8%★★◆。我们公开发布了训练语料库■■◆■★★、语言模型和优化算法。
大型语言模型已经成为许多机器学习应用的关键组成部分。然而,训练LLM的标准方法需要大量紧密连接的加速器★★◆■■■,设备在每次优化步骤中交换梯度和其他中间状态。虽然建立和维护一个承载许多加速器的单个计算集群很困难,但可能更容易找到几个承载较少设备的计算集群。在这项工作中,我们提出了一种分布式优化算法,分布式低通信(DiLoCo),它可以在设备连接较差的岛屿上训练语言模型。该方法是联合平均的变体★■★■,其中内部步骤的数量很大,内部优化器是AdamW,外部优化器是Nesterov动量。在广泛使用的C4数据集上,我们展示了8个工作人员的DiLoCo表现与完全同步优化相当,同时通信次数减少了500倍。DiLoCo对每个工作人员的数据分布具有很强的鲁棒性。它也对资源随时间变得不可用具有很强的鲁棒性,反之亦然,它可以在训练过程中无缝地利用变得可用的资源。
在支撑ChatGPT和Llama等大型神经网络的扩展规律范式中,我们考虑了一个监督回归设置■★,并建立了一种强形式的模型崩溃现象,即由于训练语料库中的合成数据而导致的关键性能下降◆◆★★★★。我们的结果表明,即使是最小比例的合成数据(例如,总训练数据集的1%),仍然可能导致模型崩溃:越来越大的训练集并不能提高性能。我们进一步研究了增加模型大小是否会加剧或减轻模型崩溃◆★■★■◆,这是与当前大型语言模型训练趋势一致的方法。在一种简化的情况下★◆■■■★,通过可调大小的随机投影逼近神经网络,我们在理论和实证上都表明◆◆◆■★,更大的模型可能会放大模型崩溃。有趣的是,我们的理论还表明,在插值阈值之上(对于非常大的数据集可能非常高),更大的模型可能会减轻崩溃,尽管它们并不能完全防止崩溃。我们的理论发现通过对语言模型和图像的前馈神经网络进行实验进行了实证验证。
The Larger the Better★■? Improved LLM Code-Generation via Budget Reallocation
尽管自动语音识别的语言覆盖范围正在快速扩大,但该领域仍远未覆盖所有已知书写文字的语言。最近的研究展示了一种零-shot方法◆■★◆,只需要少量文本数据就能取得有希望的结果,然而,准确性很大程度上取决于所使用的音素转换器的质量,而对于未知的语言,这一质量通常较差。在本文中,我们提出了MMS Zero-shot,这是一种基于罗马化和在1,078种不同语言的数据上训练的声学模型的概念上更简单的方法,比之前的最佳工作相比,MMS Zero-shot将平均字符错误率降低了相对46%以上,针对100种未知语言■◆,而我们的方法在评估语言方面完全没有使用标记数据◆★★■■★,而我们的方法的错误率仅比域内监督基线倍。
AI Consciousness is Inevitable◆■◆■◆★: A Theoretical Computer Science Perspective
幻觉通常被认为是使用大型语言模型(LLMs)的主要障碍,尤其是对于知识密集型任务而言。即使训练语料库仅包含真实陈述,语言模型仍会生成多个事实的混合形式幻觉■★■■◆◆。我们将这种现象称为“知识掩盖■★★◆◆”:当我们使用多个条件从语言模型中查询知识时永利棋牌官网版永利棋牌官网版,某些条件会掩盖其他条件,导致产生幻觉输出。这种现象部分源于训练数据不平衡,我们在预训练模型和微调模型上进行验证,在LM模型家族和大小的广泛范围内都能得到验证■■◆◆。从理论上讲,知识掩盖可以解释为主导条件(模式)的过度泛化。我们表明,幻觉率随着流行条件和不流行条件之间的不平衡比率以及主导条件描述的长度增加而增加■★★■■,这与我们推导的泛化界限一致★◆■■◆■。最后,我们提出利用掩盖条件作为信号,在产生幻觉之前捕获幻觉■★◆◆,以及一种无需训练的自对比解码方法来缓解推理过程中的幻觉★★。我们提出的方法在不同的模型和数据集上展示了高达82%的幻觉预测F1和11■◆.2%到39■★■■★◆.4%的幻觉控制。
Watching TV with the Second-Party: A First Look at Automatic Content Recognition Tracking in Smart TVs
REAPER: Reasoning based Retrieval Planning for Complex RAG Systems
复杂的对话系统通常使用检索到的证据来促进事实性回答。这种检索增强生成(Retrieval Augmented Generation,RAG)系统从大规模异构数据存储中检索,这些存储通常被构建为多个索引或API★■◆■,而不是单一的整体源。对于给定的查询,需要从可能的一个或少数几个检索源中检索相关证据。复杂的查询甚至可能需要多步检索。例如◆■★★,一个在零售网站上回答客户有关过去订单的问题的对话代理将需要首先检索适当的客户订单,然后在产品订购的上下文中检索与客户问题相关的证据。大多数RAG代理通过交替推理和检索步骤来处理这种思维链(Chain-of-Thought,CoT)任务。然而,每个推理步骤直接增加了系统的延迟★★★★■。对于大型模型■★◆■■,这种延迟成本是显著的,达到多秒级别。多代理系统可以将查询分类到与检索源相关联的单个代理中,尽管这意味着(小型的)分类模型决定了大型语言模型的性能★★■。在这项工作中,我们提出了基于推理的规划器REAPER(REAsoning-based PlannER)◆★◆■,用于在对话系统中生成检索计划■◆★◆★★。我们展示了与基于代理的系统相比显著的延迟优势,并且能够轻松扩展到新的和未知的用例,相比基于分类的规划更具优势。尽管我们的方法可以应用于任何RAG系统,但我们在对话式购物助手的背景下展示了我们的结果◆◆★★■。