每个企业和政府能够利用他们的专有数

由 iqvdm · 发布日期 29 9 月, 2024 · 已更新 29 9 月, 2024

以下为这次对话的主要内容，enjoy～ B端产品经理的能力模型与学习提升 B端产品经理面临的第一大挑战，是如何正确的分析诊断业务问题。这也是最难的部分，产品设计知识对这部分工作基本没有帮助，如果想做好业务分析诊断，必须具备扎实 … 查看详情 > David George：我总是很喜欢和你聊天，每次都能学到很多。我们可以先聊聊你在 Scale AI 正在构建的东西，然后深入探讨。 Alexandr Wang：好的，在 Scale ，我们正在为 AI 构建数据铸造厂。

从大的层面来看归结

为三大支柱：计算、数据和算法。我们所看到的所有进展都来自这三个方面：计算由像 Nvidia 这样的公司推动，算法的进步由像 OpenAI 这样的大型实验室引领，而数据则由 Scale 提供。我们的目标是生产前沿数据，以推动与各大实验室合作的前沿水平进步，并使据来推动自己的前沿 AI 发展。

希望在阿富汗拓展业务。经过验证的阿富汗电话阿富汗电话号码列表号码列表对于成功的营销和推广至关重要。这是一个品牌产品。通过准确的联系信息与潜在客户建立联系，提高客户参与度并推动转化。使用可靠的电话号码数据库确保您的营销活动有效且有针对性。

关于前沿数据这个话题，实际上你是

如何获得这些数据的呢？ Alexandr Wang：是的，我认为这印度尼西亚 bc 用户联系人列表是我们这个时代的伟大人类项目之一。如果这有意义的话，我认为目前唯一的智慧模型就是人类，而前沿数据的生产很像是人类专家与技术和算法技术的结合，以生产大量此类数据。顺便说一句，迄今为止我们所产生的所有数据，互联网也是类似的。在很多方面，互联网是机器和人类合作产生大量内容和数据的成果。而未来的情况可能就像增强版的互联网：如果互联网不仅仅是一个人类娱乐设备，而是一个大规模的数据生成实验，会怎样呢？ David George：你对行业现状有独特的见解，你如何描述当前语言模型的状态呢？我很想谈谈市场结构，但可以先从你对行业的整体看法开始。

是的，我认为我们可能正接近语

言模型开发的第二阶段末期。第一阶段是早期几乎完全 bmb目录的研究阶段，标志性的成果包括最初的 Transformer 论文和对 GPT 的早期小规模实验，直到 GPT-3 发布为止。这是一个专注于小规模实验和算法进步的阶段。然后，第二阶段大致从 GPT-3 开始到现在，进入了初始扩展阶段。 GPT-3 表现得相当不错，接着 OpenAI 及其他公司开始大规模扩展这些模型，像Google、Anthropic、 Meta 和 xAI 等许多公司也加入了这个竞赛，将模型的能力提升到极限。

过去两三年间，几乎完全是执行

层面的工作，涉及如何使大规模训练顺利进行，如何避免代码中的怪异错误，如何设置更大的集群等。接下来我认为我们将进入一个研究和执行之间更多交替的阶段，各实验室将朝着不同的研究方向发展，并在不同时期取得各自的突破，因此这是一个激动人心的转折期。 David George：他们已经达到了一个阶段，虽然不能说计算资源是丰富的，但已经足够支撑模型的发展，基本不再是一个限制。而在数据方面，所有前沿实验室已经尽可能地挖掘了可用的数据资源。接下来就是在数据方面取得突破，对吗？：是的，基本上是这样。

如果你看这三大支柱，计算方面我

们显然会继续扩大训练集群的规模，这个方向是比较明确的。算法方面，我认为将会有很多创新。事实上，很多实验室现在都在这一领域进行深入的研究。而关于数据，你提到的很对，我们已经用尽了所有容易获取的公开数据。 David George：是的，所有人都可以获得相同的数据。没错，很多人称之为“数据墙”，我们已经利用了所有公开的数据资源。而下一阶段的标志之一将是数据生产。每个实验室将如何生成所需的数据以实现更高的智能水平，这将是一个关键问题，我们如何朝着数据丰富迈进？这将需要多个领域的前沿研究。我认为，首先是推动数据复杂性的提升，迈向前沿数据。我们希望在模型中构建的许多能力，其最大的障碍其实是数据的缺乏。比如说，过去两年内， Agent 一直是一个热门话题，但实际上几乎没有 Agent 能很好地运作。

原因是网络上根本没有大量有

价值的 Agent 数据。这些数据不在那里，所以我们需要生产高质量的 Agent 数据。 David George：能举个例子，说明我们需要生产什么样的数据吗？ Alexandr Wang：我们即将发布的一项研究表明，目前所有前沿模型在工具组合上的表现都很差。比如它们需要先查找信息，然后编写一个 Python 脚本，再绘制图表，使用多个工具串联起来解决问题时，模型表现得非常糟糕。而这对人类来说是非常自然的。 David George：是的，但这些操作没有被记录下来，是这个意思吗？也就是说，模型无法学习到这些步骤。 Alexandr Wang：完全正确。这些推理链条在人类解决复杂问题时非常常见，我们会自然地使用一系列工具，思考问题并推理下一步需要做什么。

如果遇到错误，我们会回

过头重新考虑。很多这样的智能链条数据今天根本不存在。这是一个需要生成的数据例子。退一步讲，首先需要在数据上取得的进展是增加数据的复杂性，朝前沿数据迈进。其次是增加数据的生产量，捕捉更多人类在实际工作中的行为。 David George：更多捕捉人类在工作中的实际操作？ Alexandr Wang：是的，捕捉更多人类的操作行为，同时投资于合成数据或混合数据。利用合成数据，同时让人类参与其中，从而生成更高质量的数据。我们需要像对待芯片生产一样看待数据生产。就像我们讨论芯片生产的边界，确保有足够的生产能力来制造芯片。对于数据也是一样的，我们需要有效的数据生产边界，能够生成海量数据来支持模型训练。

最后一个经常被忽视的方面是对

模型的测量，确保我们能够科学地分析模型的不足之处，从而精确确定需要添加哪种数据来提高模型的性能。 David George：大科技公司相对于独立实验室，在数据资源上有多大的优势呢？ Alexandr Wang：大公司在利用现有数据资源时面临很多监管问题。你可以看到，在生成式 AI 之前， Meta 曾利用所有公开的Instagram照片及其标签来训练非常优秀的图像识别算法，但这在欧洲遇到了许多监管问题，最终变得非常麻烦。所以如何处理这些数据优势从监管角度来看，特别是在欧洲，还需要进一步观察。我认为大实验室的真正优势在于它们有非常盈利的业务，能够为 AI 项目提供几乎无限的资金来源。对此，我非常关注，也很好奇它将如何发展。

每个企业和政府能够利用他们的专有数

从大的层面来看归结

关于前沿数据这个话题，实际上你是

是的，我认为我们可能正接近语

过去两三年间，几乎完全是执行

如果你看这三大支柱，计算方面我

原因是网络上根本没有大量有

如果遇到错误，我们会回

最后一个经常被忽视的方面是对

您可能还喜欢...

发表回复取消回复

Recent Posts

Recent Comments

Archives

Categories

每个企业和政府能够利用他们的专有数

从大的层面来看 归结

关于前沿数据这个话题，实际上你是

是的，我认为我们可能正接近语

过去两三年间，几乎完全是执行

如果你看这三大支柱，计算方面我

原因是网络上根本没有大量有

如果遇到错误，我们会回

最后一个经常被忽视的方面是对

您可能还喜欢...

过推动一个设备升级周期轻松回收投

而且我认为这背后还有更深层次的原

何雨手机里仅“何秋亊”的相关素材就占了

发表回复 取消回复

Recent Posts

Recent Comments

从大的层面来看归结

发表回复取消回复