采访 | 大型科技公司正在用垃圾数据训练人工智能:直觉

AI模型正变得越来越强大,但它们所训练的数据却越来越差,直觉创始人比利·卢德克表示。 摘要

  • AI的表现完全取决于我们提供给它的数据,Intuition的创始人Billy Luedtke表示。
  • 我们正处于一个 “随来随走” 的时代,因为人工智能变得递归
  • 去中心化模型在技术和用户体验方面具有优势

随着人工智能系统变得越来越普遍,用户越来越多地遇到难以解决的局限性。尽管模型在不断改进,但这些模型训练所用的基础数据却保持不变。更重要的是,递归,或者说人工智能模型在其他人工智能生成的数据上进行训练,实际上可能会使情况变得更糟。

关于人工智能的未来,crypto.news采访了Intuition的创始人Billy Luedtke,Intuition是一个去中心化协议,专注于为人工智能带来可验证的归属、声誉和数据所有权。Luedtke解释了为什么当前的人工智能数据集在本质上是有缺陷的,以及可以采取什么措施来修复它。

Crypto.news:现在每个人都专注于 AI 基础设施——GPU、能源、数据中心。人们是否低估了信任层在 AI 中的重要性?它为什么重要?

比利·吕特克:100%。人们确实低估了这一点——这有几个原因很重要。

首先,我们正进入我所称之为的“混入,混出”时代。人工智能的能力取决于它所消耗的数据。但是这些数据——尤其是来自开放网络的数据——在很大程度上是被污染的。它并不干净。它并不反映人类的意图。很多数据来自于在线的游戏化行为:点赞、评论、参与黑客——所有这些都经过关注优化算法的过滤。

所以,当人工智能抓取互联网时,它看到的并不是我们是谁的整体画面。它看到的是人们在玩这个平台。我在Twitter上的行为与我在现实生活中的行为不同。我们都不是。我们是在为算法优化——而不是表达真实的想法。

这也是递归的。这些平台训练我们,而我们又将更多扭曲的行为反馈进去。这创造了一个反馈循环——一个螺旋——使得人工智能对人性的感知更加扭曲。我们并不是在教它我们所认为的,而是在教它我们认为会得到点赞的东西。

普通用户并不在谷歌搜索、比较来源或进行批判性思考。他们只是问ChatGPT或其他模型,然后照单全收。

这很危险。如果模型是不透明的——一个黑箱——而控制它的公司也控制着你看到或没看到的信息,那么这就是完全的叙事控制。这是中心化的,不可追责的,且极其强大。

想象一下,问Grok哪个是最好的播客,答案是支付给Elon最多的人。这不是智能——这只是伪装的广告。

CN: 那我们该如何解决这个问题呢?我们如何构建优先考虑真相和价值而不是参与度的系统?

BL:我们需要改变激励机制。这些系统应该服务于人们——而不是机构,不是股东,不是广告商。这意味着为互联网构建一个新的层次:身份和声誉原语。这就是我们在Intuition所做的。

我们需要可验证的归属:谁在什么时间、什么背景下说了什么。我们需要一种可移植的、去中心化的声誉,帮助判断我们对任何特定数据源的信任程度——这不是基于感觉,而是基于实际的上下文记录。

Reddit 是一个完美的例子。它是模型训练数据的最大来源之一。但是如果用户讽刺地说:“就 k*** 自己吧”,这可能会被抓取并出现在向某人寻求医疗建议的模型推荐中。

这太可怕了 — 当模型没有上下文、归属或声誉加权时就会发生这种情况。我们需要知道:这个人在医学领域是否可信?他们在金融领域是否享有声誉?这是一个可信的来源,还是仅仅是另一个随机评论?

CN: 当你谈论归属和声誉时,这些数据需要存储在某个地方。你认为在基础设施方面应该如何处理这个问题 — 尤其是涉及版权和赔偿等问题时?

BL: 这正是我们在 Intuition 所解决的问题。一旦你拥有可验证的归属原语,你就知道谁创建了什么数据。这使得知识的代币化拥有成为可能——并由此实现补偿。

因此,您的数据不是存储在谷歌的服务器或OpenAI的API上,而是存储在一个去中心化的知识图谱中。每个人都拥有他们所贡献的内容。当您的数据被遍历或用于AI输出时,您将获得其产生的价值的一部分。

这很重要,因为现在我们是数字农奴。我们花费最宝贵的资源——时间、注意力和创造力——生成别人变现的数据。YouTube 并不是因为它托管视频而有价值;它的价值在于人们对其进行策展。如果没有点赞、评论或订阅,YouTube 就毫无价值。

所以我们希望一个每个人都能从他们创造的价值中获益的世界——即使你不是一个影响者或外向的人。例如,如果你总是能提前发现新的艺术家,你的品味就有价值。你应该能够围绕这一点建立声誉并将其货币化。

CN:但是即使我们获得了透明度,这些模型仍然很难解释。OpenAI 本身也无法完全解释其模型是如何做出决策的。那么会发生什么呢?

BL:很好的观点。我们无法完全解释模型行为——它们实在是太复杂了。但我们能控制的是训练数据。这就是我们的杠杆。

我给你举个例子:我听说有一篇研究论文,其中一个人工智能痴迷于猫头鹰,而另一个则擅长数学。他们只在与数学相关的任务上一起训练。但最后,那个擅长数学的人工智能也开始喜欢猫头鹰——仅仅是通过吸收另一个的模式。

这些模式是多么潜意识和微妙,这真是疯狂。因此,唯一真正的防御就是意图。我们需要对我们提供给这些模型的数据保持谨慎。我们需要以某种方式“治愈自己”,以便在网上以更真实、更有建设性的方式出现。因为人工智能将始终反映其创造者的价值观和扭曲。

CN: 让我们谈谈生意。OpenAI正在烧钱。他们的基础设施非常昂贵。像Intuition这样的去中心化系统如何在财务和技术上竞争?

BL:我们拥有两个核心优势:可组合性和协调性。

去中心化生态系统——尤其是在加密领域——在协调方面表现得非常出色。我们拥有全球分布的团队,各自在为同一个更大问题的不同组成部分而努力。与其让一家公司花费数十亿与世界对抗,不如让数百位目标一致的贡献者共同构建可互操作的工具。

这就像一个马赛克。一个团队专注于代理信誉,另一个团队专注于去中心化存储,还有一个团队专注于身份原语——我们可以将这些拼接在一起。

那就是超能力。

第二个优点是用户体验。OpenAI 被锁定在其护城河中。他们不能让你将上下文从 ChatGPT 移植到 Grok 或 Anthropic——这会削弱他们的防御能力。但我们不在乎供应商锁定。

在我们的系统中,您将能够拥有您的上下文,随身携带,并将其插入您想要的任何代理。这将带来更好的体验。人们会选择它。

****CN:基础设施成本如何?运行大型模型的费用非常高。你认为会有一个小型模型在本地运行的世界吗?

BL: 是的,100%。我实际上认为这就是我们前进的方向——朝着许多小模型在本地运行,像分布式群体中的神经元一样相互连接。

与其拥有一个庞大的单一数据中心,不如有数十亿个消费设备在贡献计算力。如果我们能够协调它们——这正是加密货币擅长的——那么这将成为一种更优越的架构。

这就是我们为什么还在构建代理声誉层的原因。请求可以被引导到合适的专业代理来完成任务。你不需要一个庞大的模型来做所有事情。你只需要一个智能的任务路由系统——就像跨越数百万代理的API层。

CN: 确定性怎么样?大型语言模型在数学等需要精确答案的任务上表现不佳。我们能将确定性代码与人工智能结合吗?

BL:这就是我想要的。我们需要把确定性带回循环中。

我们从符号推理开始——完全确定性——然后我们猛然转向深度学习,这是一种非确定性。这给了我们现在看到的爆炸性增长。但未来是神经符号学——结合了两者的最佳优势。

让AI处理模糊推理。但也要让它触发确定性模块——脚本、函数、逻辑引擎——在您需要精确度的地方。想想:“我的哪些朋友喜欢这家餐厅?”那应该是100%确定性的。

****CN:放眼未来:我们看到公司在其运营中整合了人工智能。但结果参差不齐。你认为当前这一代大语言模型真的能提高生产力吗?

BL:绝对如此。奇点已经到来——只是分布不均。

如果您在工作流程中不使用人工智能,尤其是用于代码或内容,您工作的速度只是一小部分其他人的速度。技术是真实的,效率提升是巨大的。颠覆已经发生。人们只是还没有完全意识到这一点。

CN:最后一个问题。很多人说这是一个泡沫。风险投资正在减少。OpenAI 正在烧钱。Nvidia 正在为自己的客户融资。这将如何结束?

BL:是的,确实存在泡沫——但技术是真实的。每个泡沫都会破裂,但留下来的都是基础技术。人工智能将成为其中之一。那些没有真正创新的包装应用——那些傻钱——正在被冲走。但深层基础设施团队?他们会生存下来。

事实上,这可能有两种结果:我们经历一次温和的修正,回归现实,但仍在不断进步。或者,生产力的提升巨大到人工智能成为经济的通缩力量。GDP的产出能力可能增长10倍或100倍。如果那样发生,支出就是值得的——我们作为一个社会将会升级。

无论如何,我是乐观的。确实会有混乱和工作流失——但如果我们建立正确的基础,也有可能实现一个丰盈的、后稀缺的世界。

ON-11.3%
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)