全球数字财富领导者
财富汇
|
美股投研
|
客户端
|
旧版
|
北美站
|
FX168 全球视野 中文财经
首页
资讯
速递
行情
日历
数据
社区
视频
直播
点评旗舰店
商品
SFFE2030
外汇开户
登录 / 注册
搜 索
综合
行情
速递
日历
话题
168人气号
文章
DAOrayaki|加密中观经济学、第五权利及更有效的DAO
go
lg
...
言模型的 RLHF 大规模数据集(来自
Anthropic
)和几个较小规模的任务特定数据集(例如来自OpenAI的摘要数据)。RLHF 数据挑战是标注者的偏见。几个人类标注者可能有不同意见,导致了训练数据存在一些潜在差异。 RLHF 可以应用于自然语言处理 (NLP) 之外的机器学习。例如,Deepmind 探索了将其用于多模态代理。同样的挑战适用于这种情况: 可扩展强化学习 (RL) 依赖于查询成本低廉的精确奖励函数。当 RL 可以应用时,它已经取得了巨大的成就,创造了可以匹配人类才能分布极值的 AI(Silver 等人,2016 年;Vinyals 等人,2019 年)。然而,对于人们经常参与的许多开放式行为,这种奖励功能并不为人所知。例如,考虑一种日常互动,要求某人“将杯子放在你附近”。对于能够充分评估这种交互的奖励模型,它需要对以自然语言提出请求的多种方式以及满足(或不满足)请求的多种方式具有鲁棒性,同时对不相关的变化因素(杯子的颜色)和语言固有的歧义(什么是“接近”?)不敏感。 因此,为了通过 RL 灌输更广泛的专家级能力,我们需要一种方法来生成精确的、可查询的奖励函数,以尊重人类行为的复杂性、可变性和模糊性。除了对奖励函数进行编程之外,一种选择是使用机器学习来构建它们。我们可以要求人类评估情况并提供监督信息以学习奖励函数,而不是尝试预测和正式定义奖励事件。对于人类可以自然、直观、快速地提供此类判断的情况,使用此类学习奖励模型的 RL 可以有效地改进智能体(Christiano 等人,2017 年;Ibarz 等人,2018 年;Stiennon 等人,2020 年;) 导致奇点的许多因素有待进一步发展,我们可以比实施它们所花费的时间框架更有把握地确定它们是什么。Chris Lattner从他的 POV中提到了“稀疏门控的专家组合”: 简单地描述一下,也许有一个中介可以策划和组合许多“专家”的输入。 这为进一步研究提供了广阔的设计空间。也许中间层应该以不同的方式进行选择。 如,利用空间数据。 一项特别引人入胜的工作是Nethack Learning Environment。就像Twitch Plays Pokemon是可行的,因为 JRPG 是回合制的,输入相对简单,NLE 也是回合制的,只需要键盘输入。此外,它在游戏的不同阶段的多个环境中具有程序生成,使其成为训练 AI 的极其有用的熔炉。根据我自己玩这个游戏的经验,你必须在回合制的基础上策划和组合许多策略。借助 polypiling 和 bones harvesting 等元博弈策略(作弊),AI 可以通过多种方式在逐场游戏的基础上进一步学习。 *拍击界面*“这个 Unicode 可以容纳这么多对象” 如Tesla和Neuralink最近开发的企业级机器学习。工业规模的生产需要工业规模的反馈增强强化学习。Optimus 可能是一个噱头,但它可能比Atlas在过去 9 年中对机器人的改进更多。Neuralink 植入物可能会杀死受试者,但它们会推动极其精确的手术机械和零件的发展。 制造业的反馈很好,但卫生部门的需求最大。现在,我们是零售生物传感器的早期采用者。随着时间的推移,同态密码学将使机器学习能够利用大量健康数据。数万年来,我们已经将药物消费众包,但我们如何与人工智能共存仍有待观察,人工智能可以在任意时间跨度内管理任意物质的剂量。与此同时,同态加密因效率问题仍然没有被使用。 Google Brain 刚刚发布了Robotics Transformer-1。在第一个版本中它可能只是一个执行简单任务的手臂,但显然有可能在常见的构建环境中使用更多的标记化操作进行迭代。由于全球经济以货运为中心,与目前全球约6000艘集装箱船相比,如果最终在这样的设施中建造100多艘“零排放”集装箱船,也属于正常。这也将是住房危机中一个巨大的潮流变化,分区条例允许它完全生效。 另外,不得不提阿尔伯塔计划, 12 个合理的 AGI 能力发展步骤。 “路线图”一词暗示绘制一条线性路径,即应按顺序采取和通过的一系列步骤。这并非完全错误,但它没有认识到研究的不确定性和机遇。我们在下面概述的步骤具有多重相互依赖性,而不是从头到尾的步骤。路线图建议一种自然的顺序,但在实践中通常会偏离这种顺序。可以通过进入或附加到任何步骤来进行有用的研究。举个例子,我们中的许多人最近在集成架构方面取得了有趣的进展,尽管这些进展只出现在排序的最后一步。 首先,让我们尝试全面了解路线图及其基本原理。共有十二个步骤,标题如下: 1. 表示 I:具有给定特征的持续监督学习。2. 表示 II:监督特征发现。3.预测一:连续广义价值函数(GVF)预测学习。4. 控制 I:持续的演员-评论家控制。5. 预测二:平均奖励 GVF 学习。6. 控制 II:持续控制问题。7. 计划 I:平均奖励的计划。8. 原型-AI I:具有连续函数逼近的基于模型的一步强化学习。9. 规划二:搜索控制与探索。10. 原型-AI II:STOMP 进程。11. 原型-AI III:Oak。12. 原型-IA:智能放大。 这些步骤从开发用于核心能力(用于表示、预测、规划和控制)的新型算法,发展到将这些算法组合起来,为持续的、基于模型的 AI 生成完整的原型系统。 简而言之,从 ANI 到 AGI 再到 ASI 的方法和技术的转折点将是不言自明的。 ChatGPT 的输出 “指数级进步” 上述阿尔伯塔计划是一种理想情况。人类已经很复杂,作为个体使用稀疏神经网络工具;作为团体,具有自组织的、社会学习和环境工程特性。在密码学和分布式(对抗性)计算的最新发展中,人类的自治程度仅可以维持图灵完备的全局状态(历史) 。还有一种被称为机械土耳其人的现象。关键是, AI 产品在任意时间跨度内的下降,都会有一个成熟的开发人员生态系统,可以通过协调执行超越现有的水平,并通过同期的 AI 工具和可验证的工作得到增强。 这促成了当前的思想实验:我们甚至需要在 The Singularity™ 之前实现每个预测的拐点吗?对于商业化模型训练中的每一项专有改进,都可能有一种可行的方法在公共领域实现。StableDiffusion 已经引发了围绕这一概念的对话。众包在过去十年中已经充分加速(正如 Twitch Plays Pokemon、社交网络和 DAO 所证明的那样),奇点已经是一个转移注意力的问题。正如以太坊扩展解决方案尝试使用像zk-SNARKs这样的密码学为了减少网络的基础设施需求,我们将尝试实施轻量级解决方案,以减少现有大型企业对 AI 进行暴力破解和货币化的需求。 事实上,反驳OpenAI 模型最好方法之一是,金融市场和社交网络上类似的社会资本系统在某种程度上是可预测的行为。Twitter 汇总新闻是因为它的用户可以在全球范围内通过合法人物进行广播和放大。随着 COVID 封锁和央行货币政策等全球趋势,成长型股票可能会大幅上涨和下跌。不需要太多想象力就能在很短的时间内想象出一家初创公司,它可以将类似人工智能的PMF表现为一个自我调节、自我编排的社区。可能有数千亿美元的运营成本可以通过现有技术和进一步的业务发展在许多部门中释放出来。 在电视剧《西部世界》中,名为 Rehoboam 的人工智能系统通过分析大型数据集来操纵和预测未来,从而对人类事务施加秩序。自工业革命以来,颠覆性创新一再出现在官僚机构之外;今天,它们正在以越来越快的速度发生。近几十年来,公共领域的深度和范围不断扩大,许多技术无论其商业化程度如何都在被迫开源。 来源:金色财经
lg
...
金色财经
2023-01-28
上一页
1
•••
52
53
54
55
56
下一页
24小时热点
美国重大突发!洛杉矶爆发“暴乱”,特朗普紧急出兵 警方向抗议人群开枪
lg
...
中美重磅!特朗普称习近平已同意重启稀土供应 并确定中美贸易谈判日期
lg
...
中美突传重磅消息!华尔街日报:出口管制将是美中贸易谈判首要议题
lg
...
中国最新数据出炉!5月CPI连续四个月下降,PPI通缩加剧 中美谈判今日重启
lg
...
黄金抛售潮突袭!金价刚刚跌破3300美元 FXStreet分析师金价技术分析
lg
...
最新话题
更多
#Web3项目情报站#
lg
...
6讨论
#SFFE2030--FX168“可持续发展金融企业”评选#
lg
...
34讨论
#链上风云#
lg
...
109讨论
#VIP会员尊享#
lg
...
1989讨论
#CES 2025国际消费电子展#
lg
...
21讨论