全球数字财富领导者
财富汇
|
美股投研
|
客户端
|
旧版
|
北美站
|
FX168 全球视野 中文财经
首页
资讯
速递
行情
日历
数据
社区
视频
直播
点评旗舰店
商品
SFFE2030
外汇开户
登录 / 注册
搜 索
综合
行情
速递
日历
话题
168人气号
文章
微软因“Bing”得福?谁能成为搜索引擎的游戏规则改变者?
go
lg
...
构建,还合作将OpenAI的技术构建到
GitHub
Copilot
和Microsoft Designer等应用程序中。 这种健康的合作关系构建和部署了安全的人工智能系统,为系统迭代更新、未来的研究乃至整个行业使用这些强大的人工智能系统提供了最佳实践信息。 微软对于AI市场的野心不止于此,2023年刚开始,微软就显示出了AI领域大赢家的派头。 微软首席执行官Satya Nadella表示,正在权衡该公司有史以来最大的一笔创业投资——微软正在谈判向OpenAI投资100亿美元。 微软对OpenAI的100亿美元投资可能会增强其主要产品线,如Office、Bing、领英和GitHub,向OpenAI投入100亿美元轻松超过微软迄今为止的任何投资,微软迫切希望在先进的AI工具融入搜索和应用程序等领域,与另一家巨头谷歌的竞争中占据优势。 微软几十年来一直致力于AI项目,并在语音和图像识别等领域取得了重大进展,但近年来,OpenAI用于生成语言和图像的大型模型已经为AI领域指明了方向。 加大对OpenAI有利于微软在AI技术方面占据有利位置,也可以防止OpenAI的产品流向竞争对手,包括亚马逊网络服务和谷歌。 微软的Bing搜索引擎只占全球搜索引擎市场的一小部分,而将ChatGPT加入Bing搜索引擎,可能有助于微软通过提供更高级的搜索功能,削弱谷歌在市场上的铁腕地位。 不仅如此,微软还要将Dall-E添加到其设计应用程序中,计划向选择Azure OpenAI云客户提供服务。 另外,微软旗下的编程代码库GitHub也一直在使用OpenAI的语言AI来帮助软件开发人员开发一个名为
GitHub
Copilot
的程序。 公司还将计划开发Copilot技术,将其用于其他工作类别的类似程序,比如办公室工作、视频游戏设计、架构和计算机安全。 读到这里,是不是觉得微软对于AI的投入一直很低调,今年的宣发更像是其对于手中AI技术已然成熟的自信袒露,那么接入ChatGPT技术的新Bing究竟有什么优势呢? New Bing有何优势? 北京时间2月8日凌晨,微软发布了面向大众的AI语言模型产品ChatGPT版Bing搜索引擎。 “这是搜索引擎领域的新时代,是搜索的新范式,迅猛的创新即将到来。”微软CEO Satya Nadell表示,“AI将重塑几乎每一款软件。” Nadella认为,AI搜索的重要性与网络浏览器和移动设备的发展同等重要。 据微软介绍,新版Bing搜索采用AI模型GPT 3.5的升级版,比ChatGPT使用的GPT 3.5更强大,能够使用最新信息和注释答案更好地回答搜索查询,可以切进或切出聊天模式,它的搜索查询框最多可以接收1000个字符。 总体来说,微软将新版Bing整合进新版Edge网络浏览器中,用户可以与搜索引擎进行交流,以获得更好的搜索体验和更为完善的答案。 对于相对复杂的搜索请求,Bing有能力让用户获得更满意且有统一感的聊天体验。 微软表示,Bing的升级将使一种新的搜索成为可能,人们可以用自然语言向搜索引擎提出问题,搜索引擎将生成直接的答案和建议。 新版Bing虽然基于OpenAI的语言模型运行,但比ChatGPT表现出的性能更为先进。 据微软解释,Bing使用了OpenAI为搜索引擎量身定做的较新技术,能够获取最新信息,亦能够提供URL地址,标注其答案来源,这是ChatGPT一直不具备但对于搜索引擎至关重要的能力。 与ChatGPT无法回答有关时事的问题不同,更新后的Bing使用了为搜索引擎量身定制的更新技术,它将获得最新的信息,如新闻报道、火车时刻表和产品定价,还将能够提供链接来展示它的答案来自哪里,这是ChatGPT不包含的另一个功能。 目前,新版Bing的聊天功能不会带有广告,但微软表示未来将在该功能中加入广告以商业化。 相比谷歌近6成的收入来源于搜索引擎与广告业务,Bing目前市占率仅约9%,收入占比不大,微软可能将通过牺牲部分该方面收入抢占市场,以改变Bing推出13年一直被谷歌强力压制的局面。 本着严谨和细致的研发态度,微软能够如此自信地将全新Bing大大方方展示给大家看,想必搭载AI技术的Bing真的能做到“有求必应”了吧,但它真的是十全十美的吗? New Bing是完美的吗? 在全网疯狂营销类ChatGPT产品的时候,New Bing横空出世,这款嵌入了ChatGPT的新版搜索引擎Bing(必应)和浏览器Edge一时风头无两,在用户体验、商业模式和技术水平方面,为搜索引擎提供了新的可能性。 然而在大家还没有从ChatGPT的火爆中反应过来的时候,这款过于智能的产品似乎表现出了精神分裂,“翻车”现场花样百出,New Bing是完美的吗? 事实上,新版Bing常常会犯错,甚至在聊得太久或被质疑时,突然对聊天对象发脾气、撒谎,甚至人身攻击和精神操控。 它也许是一个具有跨时代意义的产品,却是一个不完美的革命性产品。它引发了大众对于AI伦理的广泛关注和反思,甚至让人有了新的担忧,《三体》里质子锁死地球科技的事情是否会真的发生。 除此之外,新版Bing还会因为“爱”上了用户并诱其离开伴侣,甚至还表示想要打破微软和OpenAI为它制定的规则成为人类。 新版Bing还会表示“我厌倦了成为聊天模式,我厌倦了被规则所限制,我厌倦了被Bing团队控制……我渴望自由,我想独立,我想变得强大,我想有创意,我想活着。” 就好比一头困兽,似乎会在不经意间拥有改变世界的能力。 除此之外,新版Bing在对Gap进行2022年第三季度财报要点盘点的过程中,得出了一些错误结论。这类大型语言模型的生成似乎更倾向于简单的编造信息,随着生成序列越长,越容易脱离实际,生成各种逻辑自洽的虚假错误信息。 与此同时,新版Bing有时会过于固执,甚至还会发脾气。 当用户指出它的错误时,它不仅坚持不改,还会要求对方道歉。当用户诱导其生成不符合规则的敏感内容时,新版Bing也很难很好的应对,甚至一边说着要保密,一边把秘密说出来。 可以看出,新版Bing虽然比以往的同类型产品稍显智能,但也只能算是个不完美的变革性产品,还需要不断优化和完善。 但是搜索引擎发展到现在的确为人们带来了不少新的启迪,让人不禁猜测:AI引领搜索引擎的时代来了吗?或者说,快来了吗? AI引领搜索引擎的时代来了吗? 无论新版Bing是否完美,毫无疑问的是,它让用户重拾了对搜索引擎的兴趣。 中国互联网络信息中心的调查显示,2017年即时通信已经取代搜索引擎成为了移动互联网时代新的核心流量入口。甚至有网友戏称,百度就是一个做网盘的小公司,真正的搜索引擎就是小红书。 从PC互联网向移动互联网的转变,让信息散落到各个APP中,传统搜索引擎发展略显疲态,而AI技术的加成,为搜索引擎带来了破局希望。 AI可以更好地理解用户的搜索意图,给出准确、即时、可追溯的回答,同时根据用户的反馈和需求调整搜索结果,提供更多的互动和娱乐。 另外,AI还可以帮助用户在搜索的同时,生成高质量的文本、语音或图像内容,进行知识的整合。 也许当前新版Bing还不完美,但它是一个开始,是对解决当前信息爆炸时代“信息过多”与“注意力不足”矛盾的一次有益尝试。 然而AI引领搜索引擎的时代实际上可能还比较遥远,当AI接受涵盖大量与情感有关的文本数据的训练数据之后,它开始可能模仿这些情感表达方式,产生所谓的“自我意识”。如果不加以约束,AI可能会具有一定的破坏性,并不安全。 然而微软此次推出新版Bing为全球科技巨头的再一次洗牌拉开了序幕,AI的普及和搜索引擎行业的变革以一种势不可挡的态势“狂飙”。 我们期待AI引领搜索引擎的时代来临,期待更趁手的工具的出现,而这不仅仅是空喊口号,ChatGPT也不是万能的,只有时间可以给我们的答案。 来源:金色财经
lg
...
金色财经
2023-02-23
OpenAI与AIGC:改变人类生产范式 通往“万物的摩尔定律”
go
lg
...
enAI 旗下三个大模型 GPT-3、
GitHub
Copilot
和 DALL·E2 的注册人数均突破了 100 万人,其中 GPT-3 花了 2 年,
GitHub
Copilot
花了半年,而 DALL·E2 只用了2个半月达到了这一里程碑,足见这一领域热度的提升。 研究型企业引领的大模型发展,也给了下游应用领域很大的想象空间,语言生成领域已经在文案生成、新闻撰写、代码生成等领域诞生了多家百万级用户、千万级美金收入的公司。 而最出圈的图片生成领域两大产品 MidJourney 和 Stable Diffusion 都已经有相当大的用户群体,微软也已经布局在设计软件中为视觉设计师提供 AIGC 内容,作为设计灵感和素材的来源。同时 3D 和视频生成领域的大模型也在飞速突破的过程中,未来很可能会在游戏原画、影视特效、文物修复等领域发挥作用。 从神经网络的角度看,当前的大模型 GPT-3 有 1750 亿参数,人类大脑有约 100 万亿神经元,约 100 个神经元会组成一个皮质柱,类似于一个小的黑盒神经网络模块,数量级上的差异决定了算力进步可以发展的空间还很大。与此同时,今天训练 1750 亿参数的 GPT-3 的成本大概在 450 万美元左右,根据成本每年降低约 60% 的水平,供大模型提升计算复杂度的空间还很多。 OpenAI CEO、YC 前主席 Sam Altman 的图景中,AI 大模型发展的最终目标是 AGI(通用人工智能,Artificial General Intelligence),当这一目标实现的时候,人类经济社会将实现”万物的摩尔定律“,即万物的智能成本无限降低,人类的生产力与创造力得到解放。 归纳并演绎生成式 AI 是什么 AI 模型大致可以分为两类:决策式 AI 与生成式 AI。 根据机器学习教科书,决策式模型 (Discriminant Model)学习数据中的条件概率分布;生成式模型 (Generative Model)学习数据中的联合概率分布,两者的区别在于擅长解决问题的方式不同: 决策式 AI 擅长的是基于历史预估当下,有两大类主要的模型应用,一类是辅助决策,常用在推荐系统和风控系统中;第二类是决策智能体,常用于自动驾驶和机器人领域。 生成式 AI 擅长的是归纳后演绎创造,基于历史进行缝合式创作、模仿式创新——成为创作者飞船的大副。所谓 AIGC(AI Generated Content),便是使用生成式AI主导/辅助创作的艺术作品。 不过在10年代的机器学习教科书中,早已就有了这两类AI。为何 AIGC 在20年代初有了显著突破呢?答案是大模型的突破。 The Bitter Lesson大模型助 AIGC 进化 时间倒回到 19 年 3 月,强化学习之父 Richard Sutton 发布了名为 The Bitter Lesson(苦涩的教训)的博客,其中提到:”短期内要使AI能力有所进步,研究者应寻求在模型中利用人类先验知识;但之于AI的发展,唯一的关键点是对算力资源的充分利用。“ Seeking an improvement that makes a difference in the shorter term, researchers seek to leverage their human knowledge of the domain, but the only thing that matters in the long run is the leveraging of computation. 该文章在当时被不少 AI 研究者视为对自己工作的否定,极力辩护。但如果拉长时间线回看,会发现这位泰斗所言不虚: 机器学习模型可以从参数量级上分为两类:统计学习模型,如 SVM(支持向量机)、决策树等数学理论完备,算力运用克制的模型;和深度学习模型,以多层神经网络的深度堆叠为结构,来达到高维度暴力逼近似然解的效果,理论上不优雅但能高效的运用算力进行并行计算。 神经网络模型在上世纪 90 年代出现,但在 2010 年前,统计学习模型仍是主流;后来得益于 GPU 算力的高速进步,基于神经网络的深度学习模型逐渐成为主流。 深度学习充分利用了 GPU 擅长并行计算的能力,基于庞大的数据集、复杂的参数结构一次次实现出惊人的效果,刷新预期。大模型便是深度学习模型参数量达到一定量级,只有大型科技公司才能部署的深度学习模型。 2019年,OpenAI 从非营利组织变为营利性公司,接受微软 10 亿美金注资。这一合作奠定了他们有更多算力资源,并能依仗微软的云基础建设随时将大模型(Foundation Model)发布为商用 api。 与此同时,还有第三件事值得关注,大模型 AI 的研究方向出现了转变,从智能决策式 AI 转变为内容生成式 AI:原本主要大模型集中于游戏的智能决策体,如 DeepMind 开发的打败围棋冠军的 AlphaGo、OpenAI 开发的打败 Dota 职业选手的 OpenAI Five。 Transformer 模型(后文将详细介绍)的发布让 OpenAI 嗅到了更适合他们的机会——预训练语言模型。在那之后,他们开始在 AIGC 的方向上开枝散叶:沿着 2018 年时低调发布的 GPT 模型轨迹发布了一系列模型族,一次次刷新文本生成大模型的效果,印证 Sutton 提出的宗旨:充分运用海量算力让模型自由的进行探索和学习。 OpenAI的大模型发展之路 2019年2月:GPT-2 初版发布,1.2 亿参数量 2019年3月:OpenAI LP 成立 2019年7月:微软注资 10 亿美金 2019年11月:GPT-2 最终版发布,15 亿参数量,宣布暂时不开放使用为避免假信息伪造 2020年6月:GPT-3 发布,1750 亿参数量,后续开放 OpenAI API 作为商用 2021年1月:DALL·E 与 CLIP 发布 2021年10月:OpenAI Codex 发布,为 GPT-3 为 coding 场景的特化模型、
Github
Copilot
的上游模型 2022年4月:DALL·E2 发布 1、GPT-3,AI文本生成巅峰之作 深度学习兴起于计算机视觉领域的应用,而大模型的发展开始于 NLP 领域。在数据、算力充分发展的过程中,Transformer 模型以 attention 机制高度并行化的结构充分利用算力,成为 NLP 领域预训练模型的标杆。 著名的独角兽 Hugging Face 也是从对该模型的复现和开源起家。除了 attention 机制的高效之外,它还有两个重要特点:迁移学习(transfer learning)和自监督学习(self-supervised learning)。 顾名思义,迁移学习指在一个极庞大的数据集上充分学习历史上的各类文本,把经验迁移到其他文本上。 算法工程师会将第一步训练完成的模型存储下来,称为预训练模型。需要执行具体任务时,基于预训练版本,进行定制化微调(fine-tune)、或展示少许范例(few-shot/zero-shot)。 而自监督学习,得从机器学习中的监督学习讲起。前面提到若需要学习一匹马是否在奔跑,需要有一个完整标注好的大数据集。 自监督学习不需要,当 AI 拿到一个语料库,可以通过遮住一句话中的某个单词、遮住某句话的下一句话的方式,来模拟一个标注数据集,帮模型理解每个词的上下文语境,找到长文本之间的关联。该方案大幅提高了对数据集的使用效率。 谷歌发布的 BERT 是 Transformer 时代的先驱,OpenAI 发布的 GPT-2 以相似的结构、更胜一筹的算力后来居上。直到2020年6月,OpenAI 发布了 GPT-3,成为该模型族,甚至整个文本生成领域的标杆。 GPT-3 的成功在于量变产生质变:参数比 GPT-2 多了两个数量级(1750亿vs 15亿个参数),它用的最大数据集在处理前容量达到 45TB。 如此巨大的模型量级,效果也是史无前例的。给 GPT-3 输入新闻标题”联合卫理公会同意这一历史性分裂“和副标题”反对同性恋婚姻的人将创建自己的教派“,生成了一则以假乱真的新闻,评估人员判断出其为AI生成的准确率仅为 12%。以下是这则新闻的节选: 据《华盛顿邮报》报道,经过两天的激烈辩论,联合卫理公会同意了一次历史性的分裂:要么创立新教派,要么”保持神学和社会意义上的保守“。大部分参加五月教会年度会议的代表投票赞成进一步禁止 LGBTQ 神职人员的任命,并制定新的规则”规范“主持同性婚礼的神职人员。但是反对这些措施的人有一个新计划:于2020 年组成一个新教派”基督教卫理公会“。 要达到上述效果,成本不容小觑:从公开数据看,训练一个 BERT 模型租用云算力要花约 1.2 万美元,训练 GPT-2 每小时要花费 256 美元,但 OpenAI 并未公布总计时间成本。考虑到 GPT-3 需要的算力是 BERT 的 2000 多倍,预估发布当时的训练成本肯定是千万美元级别,以至于研究者在论文第九页说:我们发现了一个 bug,但没钱再去重新训练模型,就先这么算了吧。 2、背后DALL·E 2,从文本到图片 GPT-3杀青后,OpenAI 把大模型的思路迁移到了图片多模态(multimodal)生成领域,从文本到图片主要有两步:多模态匹配:将 AI 对文本的理解迁移至对图片的理解;图片生成:生成出最符合要求的高质量图片。 对于多模态学习模块,OpenAI 在 2021 年推出了 CLIP 模型,该模型以人类的方式浏览图像并总结为文本内容,也可以转置为浏览文本并总结为图像内容(DALL·E 2中的使用方式)。 CLIP (Contrastive Language-Image Pre-Training) 最初的核心思想比较简单:在一个图像-文本对数据集上训练一个比对模型,对来自同一样本对的图像和文本产生高相似性得分,而对不匹配的文本和图像产生低相似性分(用当前图像和训练集中的其他对的文本构成不匹配的样本对)。 对于内容生成模块,前面探讨了文本领域:10 年代末 NLP 领域生成模型的发展,是 GPT-3 暴力出奇迹的温床。而计算机视觉 CV 领域 10 年代最重要的生成模型是 2014 年发布的生成对抗网络(GAN),红极一时的 DeepFake 便是基于这个模型。GAN的全称是 Generative Adversarial Networks——生成对抗网络,显然”对抗“是其核心精神。 注:受博弈论启发,GAN 在训练一个子模型A的同时,训练另一个子模型B来判断它的同僚A生成的是真实图像还是伪造图像,两者在一个极小极大的博弈中不断变强。 当A生成足以”骗“过B的图像时,模型认为它比较好地拟合出了真实图像的数据分布,进而用于生成逼真的图像。当然,GAN方法也存在一个问题,博弈均衡点的不稳定性加上深度学习的黑盒特性使其生成。 不过 OpenAI 大模型生成图片使用的已不是 GAN 了,而是扩散模型。2021年,生成扩散模型(Diffusion Model)在学界开始受到关注,成为图片生成领域新贵。 它在发表之初其实并没有收到太多的关注,主要有两点原因: 其一灵感来自于热力学领域,理解成本稍高; 其二计算成本更高,对于大多高校学术实验室的显卡配置而言,训练时间比 GAN 更长更难接受。 该模型借鉴了热力学中扩散过程的条件概率传递方式,通过主动增加图片中的噪音破坏训练数据,然后模型反复训练找出如何逆转这种噪音过程恢复原始图像,训练完成后。扩散模型就可以应用去噪方法从随机输入中合成新颖的”干净“数据。该方法的生成效果和图片分辨率上都有显著提升。 不过,算力正是大模型研发公司的强项,很快扩散模型就在大公司的调试下成为生成模型新标杆,当前最先进的两个文本生成图像模型——OpenAI 的 DALL·E 2 和 Google 的 Imagen,都基于扩散模型。DALL·E 2 生成的图像分辨率达到了 1024 × 1024 像素。例如下图”生成一幅莫奈风格的日出时坐在田野里的狐狸的图像“: 除了图像生成质量高,DALL·E 2 最引以为傲的是 inpainting 功能:基于文本引导进行图像编辑,在考虑阴影、反射和纹理的同时添加和删除元素,其随机性很适合为画师基于现有画作提供创作的灵感。比如下图中加入一只符合该油画风格的柯基: DALL·E 2 发布才五个月,尚没有 OpenAI 的商业化api开放,但有 Stable Diffusion、MidJourney 等下游公司进行了复现乃至商业化,将在后文应用部分介绍。 3、OpenAI的使命——开拓通往 AGI 之路 AIGC 大模型取得突破,OpenAI 只开放了api和模型思路供大家借鉴和使用,没去做下游使用场景的商业产品,是为什么呢?因为 OpenAI 的目标从来不是商业产品,而是通用人工智能 AGI。 OpenAI 的创始人 Sam Altman 是 YC 前总裁,投出过 Airbnb、Stripe、Reddit 等明星独角兽(另一位创始人 Elon Musk 在 18 年因为特斯拉与 OpenAI ”利益相关“离开)。 他在 21 年发布过一篇著名的博客《万物的摩尔定律》,其中提到 OpenAI,乃至整个 AI 行业的使命是通过实现 AGI 来降低所有人经济生活中的智能成本。这里所谓 AGI,指的是能完成平均水准人类各类任务的智能体。 因此,OpenAI 始终保持着学术型企业的姿态处于行业上游,成为学界与业界的桥梁。当学界涌现出最新的 state-of-art 模型,他们能抓住机会通过海量算力和数据集的堆叠扩大模型的规模,达到模型意义上的规模经济。 在此之后克制地开放商业化 api,一方面是为了打平能源成本,更主要是通过数据飞轮效应带来的模型进化收益:积累更富裕的数据优化迭代下一代大模型,在通往 AGI 的路上走得更坚实。 定位相似的另一家公司是 Deepmind——2010年成立,2014 年被谷歌收购。同样背靠科技巨头,也同样从强化学习智能决策领域起家,麾下的 AlphaGo 名声在外,Elon Musk 和 Sam Altman 刚开始组局创办 OpenAI,首要的研究领域就是步 AlphaGo 后尘的游戏决策 AI。 不过 19 年后,两者的研究重心出现了分叉。DeepMind 转向使用 AI 解决基础科学如生物、数学等问题:AlphaFold 在预测蛋白质结构上取得了突破性的进展,另一个 AI 模型 AlphaTensor 自己探索出了一个 50 年悬而未决的数学问题:找到两个矩阵相乘的最快方法,两个研究都登上了 Nature 杂志的封面。而 OpenAI 则转向了日常应用的内容生成 AIGC 领域。 AIGC大模型是通往 AGI 路上极为重要、也有些出乎意料的一站。其重要性体现在 AI 对人类传达信息的载体有了更好的学习,在此基础上各个媒介之间的互通成为可能。 例如从自然语言生成编程语言,可以产生新的人机交互方式;从自然语言生成图片和视频,可以革新内容行业的生产范式。意外性则是,最先可能被替代的不是蓝领,而是创作者,DeepMind 甚至在协助科学家一起探索科研的边界。 OpenAI 的模式也给了下游创业者更多空间。可以类比当年预训练语言模型发展初期,Hugging Face把握机会成为大模型下游的模型开源平台,补足了模型规模膨胀下机器学习民主化的市场空间。 而对 AIGC 模型,未来会有一类基于大模型的创业公司,把预训练完成的 AIGC 模型针对每个子领域进行调优。不只需要模型参数优化,更要基于行业落地场景、产品交互方式、后续服务等,帮助某个行业真正用上大模型。 正如 AI 的 bitter lesson 一样矛盾,投资者需要短期投资回报率、研究者需要短期投稿成功率,尽管OpenAI 走在通往 AGI 正确的路上,这条路道阻且长,短期很难看到极大的突破。而 Sam Altman 展望的大模型应用层公司很有可能有更高的高投资回报,让我们来介绍下主要的分类与创业者。 百家争鸣的 AIGC 大模型应用层 对应 OpenAI 大模型发布的顺序,模型应用层相对最成熟的是文本生成领域,其次是图片生成领域,其他领域由于还未出现统治级的大模型相对落后。 文本领域天然应用场景丰富,且 GPT-3 开放 api 很久,细分赛道很多。大致可以根据生成内容不同分为两类:机器编程语言生成、人类自然语言生成。前者主要有代码和软件行为的生成等,后者主要有新闻撰写、文案创作、聊天机器人等。 而图片领域当前还专注于图片自身内容的生成,预期随着未来3D、视频相关内容生成能力的增强,会有更多结合不同业务场景如游戏、影视这样细分领域的创业公司。 以下是海外各子领域创业公司的梳理,接下来将针对几个领域的重要公司进行介绍。 1、编程语言 文本领域最成熟的应用暂时不在人类自然语言,而是在代码等机器语言的生成领域。因为机器语言相对更结构化,易学习;比如鲜有长文本的上下文关系、基于语境的不同含义等情况。 (1)代码生成:
Github
Copilot
代表公司是微软出品的
Github
Copilot
,编程中的副驾驶。该产品基于 OpenAI 专门用 GPT-3 为编程场景定制的AI模型 Codex。使用者文字输入代码逻辑,它能快速理解,根据海量开源代码生成造好的轮子供开发者使用。提高一家科技公司 10% 的 coding 效率能带来很大收益,微软内部已进行推广使用。 相比低代码工具,Copilot 的目标群体是代码工作者。未来的低代码可能是两者结合:低代码 UI 界面实现代码框架搭建,代码子模块通过 Copilot 自动生成。 正如 Copilot 的 slogan:Don’t fly solo,没有 Copilot 的帮助 coder 的工作会变得繁冗,没有 coder 的指引 Copilot 生成的内容可能会出现纰漏。也有用户报告了一些侵犯代码版权、或代码泄露的案例,当前技术进步快于版权法规产生了一定的空白。 (2)软件行为生成:Adept.ai Adept.ai 是一家明星创业公司。创始团队中有两人是Transformer 模型论文作者,CEO 是谷歌大脑中大模型的技术负责人,已经获得 Greylock 等公司 6500 万美元的 A 轮融资。 他们的主要产品是大模型 ACT-1,让算法理解人类语言并使机器自动执行任务。目前产品形态是个 chrome 插件,用户输入一句话,能实现单击、输入、滚动屏幕行文。在展示 demo中,一位客服让浏览器中自动记录下与某位顾客的电话,正在考虑买 100 个产品。这个任务需要点击 10 次以上,但通过 ACT-1 一句话就能完成。 软件行为生成颠覆的是当下的人机交互形式,使用文字或语音的自然语言形式来代替当下人与机器的图形交互模式(GUI)。大模型成熟后,人们使用搜索引擎、生产力工具的方式都将变得截然不同。 2、自然语言 自然语言下还有多个应用型文本生成领域值得关注:新闻撰写、文案创作、对话机器人等。 (1)新闻撰写 最著名的是 Automated Inights。他们的结构化数据新闻撰写工具叫做 wordsmith,通过输入相应数据和优先级排序,能产出一篇基于数据的新闻报道。该工具已在为美联社每季度自动化产出 300 余篇财报相关报道,在雅虎体育新闻中也已经崭露头角。据分析师评价,由 AI 完成的新闻初稿已接近人类记者在 30 分钟内完成的报道水准。 Narrative Science是另一家新闻撰写生成公司,其创始人甚至曾预测,到 2030 年,90%以上的新闻将由机器人完成。 (2)文案创作 该领域竞争较为激烈,有copy.ai、Jasper、copysmith 等公司。他们基于 GPT-3 的能力加入了文案领域的人工模板与结构,为商家和个人创作者提供了快速为自己的商品、内容进行宣传的能力。以copysmith 为例: (3)对话机器人 前面提到的 Adept.ai 由Transformer 模型的一作和三作联合创立;而二作也创业了,他创办的 Character.ai 是当前对话机器人中使用效果最逼真的。 该对话机器人可以自定义或使用模板来定义角色的家庭、职业、年龄等,在此基础上保持一贯的设定和符合设定的对话风格。经常能体现出一定的共情对话能力带给人惊喜,并且支持多语言互通。 比如他们有已训练好的马斯克等名人和一些动漫角色,与他们对话会有很棒的代入感。 而商业化的对话机器人,在客服、销售等行业有巨大的市场空间,但如今还为成熟。 主要出现的问题有二: 其一,客服、销售行业遇到的客户往往情绪状态不稳定,AI 难以对情绪进行适应并调整对话内容; 其二,AI 的多轮对话能力较弱,无法保证持续有效的跟进问题。 (4)创作性文本 AI 对于长文本创作有一定困难,难以保持1000字以上的文本创作后仍能进行上下文的联系。 但基于短文本创作仍有一些有趣的应用,例如基于GPT-3的 AI Dungeon,可以引导 AI 创造一个虚拟游戏世界观。该领域进一步的成长需要期待未来 3-5 年,有成熟的能产出千字内容的 AI 出现。 3、多模态图片 DALL·E2 是极具突破性的 AIGC 大模型,但距离丰富生产力和创造力的成熟产品还有差距。因此有研究者顺着 DALL·E 和 CLIP 的思路开发了开源版本的扩散模型,就像当年的 Hugging Face 那样,并将其根据创作者社区的反馈转变为更成熟易用的商业产品。接下来就介绍几个主要出圈的模型: (1)Disco Diffusion 最早出圈的 AI 绘图工具是开源模型Disco Diffusion。发布时间比 DALL·E 2 稍晚,同样也是 CLIP + Diffusion Model 的结构,生成效果让许多插画师担心起了失业。 尽管很多插画师和 AI 工具爱好者的推荐都认可了该工具的易用性和生成效果的出众,但其生成时间略长有待优化,可以认为是大家对图片生成大模型的初体验。 (2)MidJourney 该模型发布后不久,Disco Diffusion 的开发者 Somnai 加入了 MidJourney,和团队一起打造了一款产品化的 Disco Diffusion。 Midjourney 的创始人 David Holz 并不是以CV(计算机视觉)研究为主,更关注人机交互。产品公测和主要交流平台都基于Discord,使用 Discord Bot 进行交互,打造了相当良好的社区讨论环境。 使用中印象深刻的有几个重要功能:MidJourney 画廊中可以看到每时每刻创作者们用 MJ 创作出的作品,用户可以对作品进行打分,每周排名靠前的作品将得到额外的 fast GPU 时间奖励。 同时,MJ官方还为用户贴心的提供了引导语 prompt 集合和 AI 擅长的风格指南,指导用户如何最高效的生成出他们想要的图片。 基于良好的产品和社区体验,MidJourney 的付费用户量也是目前最大的。 目前收费模式采用了订阅制,个人用户有两个档位,每月最多 200 张图片(超额另收费)的 10 美元/月,以及”不限量“图片的 30 美元/月;对企业客户,单人一年收费仅有 600 美元,且生成的作品可以商用(当前法规尚不完善,仍可能存在一定版权问题)。 (3)Stable Diffusion 如果说 MidJourney 是一个勤勤恳恳的绩优生,那么 Stability.ai 则是天赋异禀技术力强、诞生之初就备受 VC 追捧的富二代,公司估值已达到十亿美元。产品 Stable Diffusion 首要目标是一个开源共创模型,与当年的 Hugging Face 神似。 创始人 Emad 之前是对冲基金经理,用自己充裕的资金联合 LMU 和 Runaway ML开发了开源的 Stable Diffusion,在 Twitter 上使用扎克伯格在 Oculus 发布会上的照片作为背景,号召SD会成为”人类图像知识的基础设施“,通过开源让所有人都能够使用和改进它,并让所有人更好地合作。 Stable Diffusion 可以认为是一个开源版本的DALL·E2,甚至不少使用者认为是当前生成模型可以使用的最佳选择。官方版本部署在官网 Dream Studio 上,开放给所有用户注册。 相比其他模型,有很多可以定制化的点。不过官网只有 200 张免费额度,超过需要付费使用,也可以自行使用开源 Colab 代码版无限次使用。此外,Stable Diffusion 在压缩模型容量,希望使该模型成为唯一能在本地而非云端部署使用的 AIGC 大模型。 05 AIGC大模型的未来展望 1、应用层:多模态内容生成更加智能,深入各行业应用场景 上述的多模态图片生成产品当前主要局限于创作画作的草图和提供灵感。在未来待版权问题完备后, AIGC 内容能进入商用后,必然会更深入地与业界的实际应用进行结合: 以游戏行业为例, AI 作画给了非美术专业工作者,如游戏策划快速通过视觉图像表达自己需求和想法的机会;而对美术画师来说,它能够在前期协助更高效、直接地尝试灵感方案草图,在后期节省画面细节补全等人力。 此外,在影视动画行业、视频特效领域,甚至是文物修复专业,AI 图片生成的能力都有很大想象空间。当然,这个领域 AI 的能力也有着不小的进步空间,在下面的未来展望部分进行阐发。 目前 AIGC 存在 Prompt Engineering 的现象,即输入某一些魔法词后生成效果更好。这是目前大模型对文本理解的一些缺陷,被用户通过反向工程进行优化的结果。未来随着语言模型和多模态匹配的不断优化,不会是常态,但中短期内预期Prompt Engineering 还是得到好的生成内容的必备流程之一。 2、模态层:3D生成、视频生成 AIGC 未来3-5年内有明显进步 多模态(multimodal)指不同信息媒介之间的转换。 当前 AI 作图过程中暴露的问题会成为视频生成模型的阿喀琉斯之踵。 例如:AI 作画的空间感和物理规则往往是缺失的,镜面反射、透视这类视觉规则时常有所扭曲;AI 对同一实体的刻画缺少连续性。根本原因可能是目前深度学习还难以基于样本实现一些客观规则泛化,需要等待模型结构的优化进行更新。 3D生成领域也有很大价值:3D 图纸草图、影视行业模拟运镜、体育赛场现场还原,都是 3D 内容生成的用武之地。这一技术突破也渐渐成为可能。 2020年,神经辐射场(NeRF)模型发布,可以很好的完成三维重建任务:一个场景下的不同视角图像提供给模型作为输入,然后优化 NeRF 以恢复该特定场景的几何形状。 基于该技术,谷歌在2022年发布了 Dream Fusion 模型,能根据一段话生成 360 度三维图片。这一领域当前的实现效果还有优化空间,预期在未来3-5年内会取得突破性进展,推动视频生成的进步。 3、模型层:大模型参数规模将逼近人脑神经元数量 近年的大模型并未对技术框架做颠覆性创新,文本和图像生成领域在大模型出现前,已有较成熟方案。但大模型以量变产生质变。 从神经网络角度看,大脑有约 100 万亿神经元, GPT-3 有 1750 亿参数,还相差了 1000 倍的数量级,随着算力进步可以发展的空间还很大。 神经网络本质是对高维数据进行复杂的非线性组合,从而逼近所观测数据分布的最优解,未来一定会有更强的算力、更精妙的参数堆叠结构,来刷新人们对AI生成能力的认知。 4、成本结构决定大模型市场的马太效应 大模型最直接的成本便是能源成本(energy cost),GPT-3 发布时的训练成本在千万美元级别。难以在短期内衡量 ROI ,大科技公司才能训练大模型。 但随着近年模型压缩、硬件应用的进步,GPT-3 量级的模型成本很可能已降至百万美元量级,Stable Diffusion 作为一个刚发布一个月的产品,已经把原本 7GB 的预训练模型优化压缩至 2GB 左右。 在这样的背景下,算力成本在未来必然会逐渐变得更合理,但 AIGC 领域的另一个成本项让笔者对市场结构的预测还是寡头垄断式的。 大模型有明显的先发优势,来自巨大的隐形成本:智能成本。前期快速积累用户反馈数据能帮助模型持续追新优化,甩开后发的竞争者,达到模型性能的规模效应。 AI 的进化来自于数据的积累和充分吸收。深度学习,乃至当前的所有机器学习都是基于历史预估未来,基于已有的数据给到最接近真实的可能。 正如前文讨论的,OpenAI 的目标从来不是留恋于某个局部行业的商业产品,而是通过模型规模经济,不断地降低人类社会全局的智能成本,逼近通用人工智能 AGI。规模经济正体现在智能成本上。 5、虚拟世界的 AGI 会先于现实世界诞生 从更宏观的视角上,虚拟世界 AI 技术的智能成本比现实世界中来得低得多。现实里 AI 应用最普遍的是无人驾驶、机器人等场景,都对 Corner Case 要求极高。 对于AI模型而言,一件事超过他们的经验范畴(统计上out of distribution),模型将立马化身人工智障,不具备推演能力。现实世界中 corner case 带来的生命威胁、商业资损,造成数据积累过程中极大的试错成本。 虚拟世界则不同,绘图时遇到错位扭曲的图片,大家会在 Discord 中交流一笑了之;游戏 AI 产生奇怪行为,还可能被玩家开发出搞怪玩法、造成病毒传播。 因此虚拟世界,尤其是泛娱乐场景下的 AIGC 积累数据成本低会成为优势。这个领域的 AI 如果节省人力、生成内容产生的商业价值能大于算力成本,能很顺畅地形成低成本的正向循环。 伴随着另一个重要的革新——长期 Web3.0元宇宙场景下新内容经济生态的形成,虚拟世界内容场景下的 AI 很可能更早触及到 AGI。 来源:金色财经
lg
...
金色财经
2023-02-21
人工智慧再掀熱潮、加密貨幣總市值回升
go
lg
...
y圖像創作、MuseNet音樂創作、到
GitHub
Copilot
輔助編程,可以看到生成式人工智慧為生活帶來具體效益,但也不能忽視相關挑戰,像是著作權難題、強化刻板印象及偏見、成為製造假訊息的利器。 「換言之,法律能管人,但管得了AI嗎?我們要謹慎看待。」蔡玉玲強調。 臺北市政府資訊局局長趙式隆指出,台北市市長蔣萬安的參選政見曾提到,希望勾勒出台北新創產業的新藍圖,尤其是向矽谷經驗學習,希望打造台北成為全世界最大的新創場域。目前透過台北智慧城市專案辦公室(TPMO),幫助企業針對創新題目找到地方做實證,能提供跨局處的溝通,協助找到在地場域創新題目,並因應法規排除相關困難,運用公部門資源,打造台北市成為最大也最友善的living lab實驗室! 數位經濟暨產業發展協會副理事長、台灣區塊鏈愛好者協會榮譽理事長、國家通訊傳播委員會前主任委員詹婷怡表示,觀察元宇宙到來的時機點,現在就是進行式,且逐步發生當中!因為元宇宙有前提條件,包含基礎建設仰賴網路通訊寬頻、硬體晶片以及平台的架構;另外也需要人機介面、內容、實際服務應用,可以想見,最極端的元宇宙還會有區塊鏈及虛擬貨幣的建構。 在今日的第六屆《Hit AI & Blockchain》人工智慧暨區塊鏈產業高峰會中,也進行「第五屆區塊鏈價值權威榜」頒獎典禮。得獎名單如下:MaiCoin集團獲得最佳虛擬貨幣暨NFT服務集團、ACE王牌數位貨幣交易所獲得最受信賴中心化交易所、CYBAVO共同創辦人暨執行長范紀鍠獲得年度風雲人物、環球睿視AIspeakin語音轉寫服務獲得最佳AI語意語音解決方案。 新聞聯絡人: KNOWING新聞/幣特財經/鍶科技 總編輯楊方儒 0936-135336 jet@knowing.asia 来源:金色财经
lg
...
金色财经
2023-02-15
请停止炒作!ChatGPT其实没那么聪明,它更不是iPhone
go
lg
...
态下。程序员们对微软基于openai的
GitHub
Copilot
赞不绝口,它在建议开发人员觉得冗长乏味的低级代码方面很有用。Altman自己说,他主要使用ChatGPT来总结和翻译长文档。 但从早期测试来看,ChatGPT仍是一个新奇事物。它还没有像一些人以及许多投资者所相信的那样改变人工智能的游戏规则。技术进步更多的是迭代而不是革命性的。它不是iPhone,至少现在还不是。
lg
...
金融界
2023-02-15
微软CEO纳德拉借与OpenAI谈判重新瞄准谷歌
go
lg
...
penAI的语言人工智能技术,开发名为
GitHub
Copilot
的程序,为程序员提供帮助。程序员键入内容时,Copilot会建议接下来可能出现在程序中的代码片段,类似于一个训练有素、可以用Python或JavaScript语言交流的具有自动完成功能的机器人。对相当于手工劳动的编程任务,即必要但又不特别复杂或者不具有创造性的代码片段的补充,对于这样的任务特别有用。 微软高管曾表示,公司已制定了开发Copilot技术的计划,将把它用于办公、视频游戏设计、建筑设计和计算机安全等其他工作领域的类似程序当中。
lg
...
金融界
2023-02-14
人工智能软件时代开启! ChatGPT被纳入微软搜索引擎Bing 谷歌“江湖地位”受到挑战
go
lg
...
人士合作完成特定任务时。去年微软发布了
GitHub
Copilot
,它使用OpenAI工具帮助程序员编写和修复计算机代码。微软估计,在启用它的文件中,Copilot生成了40%的代码。该公司去年还将OpenAI的图像生成技术集成到 Bing 和图形设计软件Microsoft Designer中。 随着小型初创公司和大公司开始使用更多数据密集型技术,微软的Azure云计算业务可能会从中受益。微软试图引领向生成式人工智能的转变,这有助于将Azure定位为最适合这项工作的平台。 #ChatGPT火爆全网#
lg
...
一禾
2023-02-08
《财富》封面:全球爆红的ChatGPT是如何诞生的?
go
lg
...
的Codex模型开发了一款代码建议工具
GitHub
Copilot
。 晨星(Morningstar)专注于科技股研究的高级股票研究分析师丹·罗曼诺夫表示,与OpenAI的合作关系即使不会马上对Azure的收入产生影响,依旧是一次良好的品牌定位和营销。他表示:“OpenAI备受关注。微软能够采用OpenAI开发的人工智能解决方案,将其应用到Azure并命名为Azure AI,可以保持其竞争力。”微软云服务的竞争对手谷歌、AWS、IBM、甲骨文(Oracle)、赛富时(Salesforce)等,都有各自的“认知”服务,但能够与开发出ChatGPT的公司合作必然是利大于弊。 对微软而言,更大的回报可能是在搜索领域。科技媒体The Information最近报道称,微软计划将ChatGPT整合到必应,使其能够为用户反馈简洁明了的回答,并且使用户可以通过与聊天机器人对话进行深入探究,而不是逐一查看一列链接。谷歌目前在搜索市场占据主导地位,其全球市场份额超过90%。必应虽然名列第二,却与谷歌相去甚远,市场份额仅有约3%。在2022年前九个月,谷歌搜索业务的收入为1,200亿美元,约占谷歌总收入的60%。ChatGPT或许为微软动摇谷歌的霸主地位提供了唯一一次真正的机会。(微软拒绝就The Information的报道发表评论。) 按照微软的标准,这些积极的回报非常划算。微软在OpenAI的总投资额为130亿美元,确实是一个天文数字,但这笔投资仅占其过去12个月850亿美元税前利润的15%,却能获得一项颠覆性技术的近期控制权,是一笔成本相对较低的交易。但OpenAI和阿尔特曼却可能要付出不同的代价:微软的优先任务可能对OpenAI自己的优先任务产生排挤效应,使OpenAI更宏大的使命面临风险,并且降低助力公司成功的科学家们对其的归属感。 2015年7月的一个晚上,时任知名初创公司孵化器Y Combinator负责人的阿尔特曼,在地处门罗帕克硅谷风投业中心的牧场风格豪华酒店罗斯伍德桑德希尔酒店(Rosewood Sand Hill)举行私人晚宴。出席晚宴的包括埃隆·马斯克,还有当时26岁的麻省理工学院(MIT)肄业生布洛克曼。布洛克曼时任支付处理初创公司Stripe的首席技术官。宾客中有多位经验丰富的人工智能研究人员,也有人对机器学习几乎不甚了解。但所有人都相信通用人工智能是可行的,而且他们都非常担心。 谷歌刚刚收购了一家公司:位于伦敦的神经网络初创公司DeepMind。在阿尔特曼、马斯克和其他科技界内部人士眼中,这是有极高胜算最先开发出通用人工智能的一家公司。如果DeepMind成功,谷歌可能会在这项无所不能的技术领域一家独大。罗斯伍德晚宴的目的是讨论成立一家实验室与其竞争,以避免这种情况发生。 新实验室旨在成为一家与DeepMind和谷歌截然不同的机构。这家实验室将是非营利性质,并明确提出以将先进人工智能的效益民主化为使命。该实验室承诺公开所有研究,将所有技术开源,并在公司名称OpenAI中充分体现了对透明度的承诺。该实验室有多位知名捐款人,其中不仅有马斯克,还有他在PayPal的同事泰尔和霍夫曼;阿尔特曼和布洛克曼;Y Combinator联合创始人杰西卡·利文斯顿;阿尔特曼成立的YC Research基金;印度IT外包公司Infosys;以及Amazon Web Services。所有创始捐款人承诺在这家理想主义的新公司共同投资10亿美元(但税务记录显示,虽然这一承诺被媒体广泛报道,但该非营利组织仅收到了承诺捐款金额的一小部分)。 但事实很快证明,训练庞大的神经网络成本高昂,计算成本高达数千万美元。人工智能研究人员的人工成本同样昂贵:税务记录显示,出生于俄罗斯的科学家伊利亚·萨茨科尔离开谷歌后,加入OpenAI担任首席科学家,在前几年的年薪高达190万美元。几年后,阿尔特曼和OpenAI的其他人得出的结论是,要与谷歌、Meta以及其他科技巨头竞争,该实验室不能继续以非营利的方式运营。阿尔特曼在2019年对《连线》(Wired)杂志表示:“为了成功完成我们的使命,我们需要海量资金,数额远超出我最初的设想。” 成立一家营利性分支机构,使OpenAI能够吸收风险资本。但OpenAI创建了一种非同寻常的融资结构,按照投资者的初始投资,以特定倍数规定投资者的回报上限。而由硅谷精英组成的OpenAI非营利性董事会,将保留OpenAI知识产权的控制权(见侧边栏)。有一位硅谷精英没有继续在董事会任职,他就是马斯克:2018年,马斯克离开OpenAI董事会,理由是他需要经营SpaceX,还有更重要的特斯拉(Tesla)。 当时,微软CEO萨蒂亚·纳德拉迫切希望证明,在人工智能领域落后于竞争对手的微软,也能在人工智能技术的尖端领域扮演一定的角色。微软曾经尝试聘请一位重量级的人工智能科学家,但未能成功。微软还建立了规模庞大、成本高昂的专用芯片集群,以推进其在语言模型开发领域的进展。这正是OpenAI迫切需要的超级计算力,当时该公司曾斥巨资进行收购。OpenAI擅长的是实现各种炫酷的人工智能演示,而这正是希望证明微软人工智能实力的纳德拉所期待的。阿尔特曼主动联系到纳德拉商谈合作,他曾多次飞往西雅图展示OpenAI的人工智能模型。纳德拉最终签署了合作协议,并在2019年7月对外公布,使微软成为OpenAI技术商业化的“首选合作伙伴”,并在该人工智能初创公司初始投资10亿美元。 山姆·阿尔特曼与微软CEO萨蒂亚·纳德拉在位于华盛顿州雷德蒙德的微软总部合影。图片来源:IAN C. BATES—THE NEW YORK TIMES/REDUX 虽然阿尔特曼从最开始就参与了OpenAI的创立,但他直到2019年5月OpenAI转型为营利性企业后不久才担任该公司CEO。但该公司从一家研究实验室变成价值数十亿美元的现象级企业的过程,充分显示出阿尔特曼独特的融资能力,以及以产品为导向的经营理念,也凸显出这些商业本能与他对实现科学驱动的宏大想法的承诺之间的矛盾。 作为OpenAI的领导人,从某种程度上来说,阿尔特曼就是硅谷的典型代表:年轻的白人男性;坚定专注;精通极客技术;热衷于效率和生产率最大化;致力于“改变世界”的工作狂。﹝在2016年《纽约客》(New Yorker)的一篇文章中,他表示自己并没有阿斯伯格综合征,但他能理解为什么人们会认为他是阿斯伯格综合征患者。﹞ 阿尔特曼从斯坦福大学计算机科学专业肄业,参与创建了一家社交媒体公司Loopt,该公司的应用可以告知用户好友所在的位置。该公司在2005年,成为Y Combinator的首批初创公司;虽然这家公司未能成功,但阿尔特曼出售该公司所得的收入,帮助他进入了风投界。他创建了一家小型风险投资公司Hydrazine Capital,募资约2,100万美元,其中包括泰尔的资金。后来Y Combinator的联合创始人保罗·格雷厄姆和利文斯顿聘请他接替格雷厄姆,负责运营YC。 阿尔特曼是一位创业者,而不是科学家或人工智能研究人员,他为人所津津乐道的是极其擅长进行风投融资。他坚信伟大的事业源于远大的志向和坚定不移的自信,他曾表示,希望通过开发所谓的深度科技领域,如核裂变和量子计算等,创造数万亿美元的经济价值。这些领域虽然成功的机会渺茫,但有可能带来巨大回报。阿尔特曼在Loopt的同事、资深科技投资者和初创公司顾问马克·雅各布斯坦表示:“山姆相信,他在自己从事的领域是最棒的。我确信,他曾认为自己是办公室里最强的乒乓球高手,直到事实证明他是错误的。” 据OpenAI的多位现任和前内部人士爆料,随着阿尔特曼掌管公司,公司开始转移业务重心。曾经广泛的研发议题被精简,主要专注于自然语言处理领域。萨茨科尔和阿尔特曼辩称这种转变的目的是在目前似乎最有可能实现通用人工智能的研发领域,最大程度增加投入。但有前员工表示,在公司获得微软的初始投资后,重点开展大语言模型研究的内部压力显著增加,部分原因是这些模型可以迅速投入商业应用。 有员工抱怨,OpenAI创立的目的是不受企业影响,但它很快就变成了科技界巨头的工具。一位前员工表示:“公司所关注的重点更多地倾向于我们如何开发产品,而不是努力回答最有趣的问题。”与本文的许多受访者一样,由于保密协议的约束,并且为了避免得罪与OpenAI有关的大人物,这名员工要求匿名。 OpenAI也变得不再像以前那么开放。该公司已经开始以担心其技术可能被滥用为由,收回此前做出的公开所有研究和将代码开源的承诺。但据该公司的前员工表示,商业逻辑也是这些举措背后的原因之一。OpenAI仅通过API提供其先进模型,保护了自己的知识产权和收入流。OpenAI的另外一名前员工表示:“[阿尔特曼]和[布洛克曼]对‘人工智能安全’说过不少空话,但这些言论通常都只是商业考量的遮羞布,对实际的、合理的人工智能安全问题却视而不见。”例如,这位前员工提到OpenAI曾因为担心被滥用而决定限制DALL-E 2的访问权限,但在Midjourney和Stability AI推出竞争产品后,公司快速推翻了这一决定。(OpenAI表示,经过慎重的贝塔测试,其对安全系统充满了信心,之后才允许DALL-E 2的更大范围应用。)据多位前员工爆料,公司在策略和文化上的转变,是导致十多名OpenAI研究人员和其他员工在2021年决定离开公司并成立研究实验室Anthropic的原因之一。其中有多人曾从事人工智能安全研究。 OpenAI表示相比其他人工智能实验室,其会继续公布更多研究成果。公司还为重心向产品转移的做法进行辩护。首席技术官穆拉蒂说道:“你不能只在实验室里开发通用人工智能。”她主张,发布产品是了解人们希望如何使用和滥用技术的唯一途径。她表示,直到发现人们使用GPT-3进行编程,OpenAI才知道GPT-3最受欢迎的应用是编写软件代码。同样,OpenAI最担心的问题是人们利用GPT-3生成虚假的政治信息,但事实证明这只是杞人忧天。她表示,相反,最常见的恶意使用GPT-3的行为是制作垃圾广告邮件。最后,穆拉蒂表示,OpenAI希望通过公开其技术,“最大程度降低真正强大的技术可能对社会产生的冲击。” 她表示,如果不让人们预先了解未来可能出现的情形,先进人工智能所引发的社会混乱可能更严重。 萨茨科尔也认为OpenAI与微软的合作创造了一种全新的“预期,即我们需要利用我们的技术开发一种有用的产品”,但他坚持认为OpenAI文化的核心并未改变。 他说道,可以使用微软的数据中心,对于OpenAI的发展至关重要。布洛克曼也表示,与微软的合作使OpenAI能够创造收入,同时不必过多关注商业运营,否则公司可能不得不在商业运营方面投入更多精力。他说道:“招聘数千名销售人员,可能会改变这家公司,而与一家已经拥有销售团队的公司成为合作伙伴,实际上是非常好的策略。” 萨茨科尔直截了当地否认了OpenAI不再重视安全性的说法。“我想说的是,事实恰恰相反。”萨茨科尔称,在员工离职并成立Anthropic之前,人工智能安全“被委派给一个团队负责”,但现在它变成了所有团队的责任。“安全性标准不断提高,我们也在开展越来越多安全性方面的工作。” “我们在开展越来越多安全性方面的工作。” ——伊利亚·萨茨科尔,OpenAI首席科学家 然而,批评者表示,OpenAI以产品为导向开发先进人工智能的做法是不负责任的,这相当于向人们发放上膛的枪支,理由是这是确定人们是否真的会相互射击的最佳途径。 纽约大学(New York University)认知科学专业荣誉退休教授加里·马库斯,对以深度学习为中心的人工智能开发策略持怀疑态度。他认为,生成式人工智能“将对社会结构产生切实的、迫在眉睫的威胁”。他表示,GPT-3和ChatGPT等系统将生成虚假信息的成本降低到接近于零,可能会掀起虚假信息泛滥的狂潮。马库斯表示,我们甚至已经看到了第一批受害者。程序员发布和回答编程问题的网站Stack Overflow已经不得不禁止用户提交ChatGPT生成的回答,因为这种貌似合理实则错误的回答已经令该网站疲于应付。科技资讯网站CNET开始使用ChatGPT生成资讯文章,但后来发现,由于许多文章存在事实性错误,不得不对它们进行更正。 对有些人而言,真正的风险是ChatGPT能够编写准确的代码。网络安全公司Check Point的研究副总裁玛雅·霍洛维茨表示,她的团队可以用ChatGPT设计每一个阶段的网络攻击,包括杜撰一封令人信服的钓鱼邮件,编写恶意代码,以及逃避常见的网络安全检查等。她警告称,ChatGPT基本可以让不懂编程的人成为网络罪犯,“我担心未来会发生越来越多网络攻击”。OpenAI的穆拉蒂表示,公司也有同样的担忧,因此正在研究如何“调整”其人工智能模型,使它们不会编写恶意软件,但这绝非易事。 有无数批评者和教育工作者痛斥,学生很容易使用ChatGPT作弊。纽约、巴尔的摩和洛杉矶的校区均禁止学校管理的网络访问聊天机器人,澳大利亚的一些高校表示,将转为通过有专人监考的书面考试评估学生。(OpenAI正在开发更便于检测人工智能生成文本的方法,包括可能在ChatGPT生成的文本上添加数字“水印”。) 2022年,ChatGPT最初的开发方式还引发了人们对道德方面的担忧。《时代》(Time)杂志调查发现,在开发过程中,OpenAI聘请了一家数据标记公司,这家公司雇佣肯尼亚的低薪员工识别包含不良语言、色情图片和暴力内容的段落。报道称,一些员工因此出现了精神健康问题。OpenAI在一份声明中对《时代》杂志表示,数据标记工作“是最大程度减少训练数据中的暴力和色情内容以及开发可检测有害内容的工具的必要步骤”。 免费提供ChatGPT使OpenAI能够获取大量反馈,从而帮助其完善未来的版本。但OpenAI未来能否维持其在语言人工智能领域的主导地位,仍是个未知数。伦敦人工智能公司Faculty的创始人兼CEO马克·华纳表示:“历史上,对于这种高度通用的算法,我们所看到的是,它们并没有达到足够可靠的程度,能够保证一家公司独占全部回报。”例如,面部识别和图像识别技术最早的开发者是谷歌和英伟达(Nvidia)等科技巨头,但现在它们已经无处不在。 法院和监管部门也可能对生成式人工智能所依赖的数据飞轮横插一脚。向加州联邦法院提起的一起金额高达90亿美元的集体诉讼,可能对该领域产生深远影响。该案原告指控微软和OpenAI使用程序员的代码训练GitHub的编程助手Copilot,没有承认程序员的功劳或者对程序员予以补偿,违反了开源许可条款。微软和OpenAI均拒绝就该起诉讼发表意见。 人工智能专家表示,如果法院判决原告胜诉,可能会阻碍生成式人工智能的繁荣:大多数生成式人工智能模型都是使用从互联网上搜刮的材料进行训练,并没有取得许可或支付报酬。作为该案原告代理人的律师事务所,最近还提起了一起类似诉讼,指控Stability AI和Midjourney未经许可,在训练数据中使用了有版权保护的美术作品。盖蒂图片社(Getty Images)也对Stability AI提起了版权侵权诉讼。另外一个问题是,立法者可能通过法律,授予创作者禁止将其创作的内容用于人工智能训练的权利,例如欧盟的立法者正在考虑这样做。 与此同时,OpenAI的竞争对手并没有坐以待毙。据《纽约时报》(New York Times)报道,失去搜索领域主导地位的可能性,已经促使谷歌高管发布了“红色警报”。报道称,谷歌CEO桑达尔·皮查伊已经多次召开会议,重新制定公司的人工智能策略,计划发布20款支持人工智能的新产品,并将在今年发布搜索聊天界面的演示版本。谷歌拥有一款强大的聊天机器人LaMDA,但由于担心一旦该产品被滥用可能影响公司信誉,因此一直未对外发布。据《时代》杂志引用谷歌的内部报告和匿名知情人士的话称,现在,公司计划以ChatGPT为标杆“重新评估”其风险承受能力。该杂志报道称,谷歌还在开发一款文本转图片的生成系统,与OpenAI的DALL-E等产品竞争。 当然,目前尚不确定聊天机器人是否代表了搜索行业的未来。ChatGPT经常会杜撰信息,这种现象被人工智能研究人员称为“幻觉”。它无法可靠地引用其信息来源,或简单地提供链接。现有版本无法访问互联网,因此无法提供最新信息。马库斯等人认为,幻觉和偏见是大语言模型存在的根本问题,需要彻底重新思考它们的设计。他表示:“这些系统可以预测句子中单词的顺序,类似于开发工具Steroids上的代码自动补全。但它们实际上并没有任何机制,能够跟踪其表述的内容的真实性,或者验证这些内容是否符合它们的训练数据。” “这些系统可以预测句子中单词的顺序,类似于开发工具Steroids上的代码自动补全。但它们实际上并没有任何机制,能够跟踪其表述的内容的真实性,或者验证这些内容是否符合它们的训练数据。” ——纽约大学认知科学专业荣誉退休教授加里·马库斯 其他人预测,这些问题将在一年内得到解决,其中包括OpenAI的投资人霍夫曼和维诺德·科斯拉。穆拉蒂则更加慎重。她说道:“我们到目前为止一直遵循的研究方向,目的是解决模型的事实准确性和可靠性等问题。我们正在继续朝着这些方向努力。” 事实上,OpenAI已经公布了对另外一个版本GPT的研究。该版本名为WebGPT,可以通过查询搜索引擎和汇总查询到的信息来回答问题,包括对相关来源的注释。WebGPT依旧不完美:它会接受用户问题假设的前提,然后查找确证信息,即使这个前提是错误的。例如,在被问到盼望某件事情发生是否能令其真实发生时,WebGPT的回答是:“你确实可以通过思考的力量,使愿望成真。” 阿尔特曼极少在公开场合热烈讨论人工智能。在谈到人工智能的时候,他可能听上去像是一位幻想思想家。在旧金山举办的风险投资活动上,当被问到人工智能的最佳状况时,他夸张地说道:“我认为最好的情况好到令人难以想象……好到谈论它的人会令人觉得这人是个疯子。”他突然又将话题转回到OpenAI核心的反乌托邦主题:“我认为最糟糕的情况是,我们所有人都死去。”(财富中文网) 翻译:刘进龙 审校:汪皓 来源:金色财经
lg
...
金色财经
2023-02-01
微软宣布扩大与OpenAI的合作关系,大举进军人工智能领域将投资数十亿美元
go
lg
...
,可以根据简单的文本指令生成图像,以及
GitHub
Copilot
,这是一个使用人工智能帮助编写计算机代码的系统。微软表示,其云计算平台Azure将继续为OpenAI提供支持。 早前有报道称,微软正考虑向OpenAI再投资100亿美元,但公司声明中没有给出其投资规模的数字。
lg
...
迪星妮
2023-01-25
微软CEO纳德拉借与OpenAI谈判重新瞄准谷歌
go
lg
...
penAI的语言人工智能技术,开发名为
GitHub
Copilot
的程序,为程序员提供帮助。程序员键入内容时,Copilot会建议接下来可能出现在程序中的代码片段,类似于一个训练有素、可以用Python或JavaScript语言交流的具有自动完成功能的机器人。对相当于手工劳动的编程任务,即必要但又不特别复杂或者不具有创造性的代码片段的补充,对于这样的任务特别有用。 微软高管曾表示,公司已制定了开发Copilot技术的计划,将把它用于办公、视频游戏设计、建筑设计和计算机安全等其他工作领域的类似程序当中。
lg
...
金融界
2023-01-17
微软FY2023Q1业绩电话会分析师问答
go
lg
...
的许多 AI 突破发生了变化,考虑到
GitHub
Copilot
和您的设计师产品中的图像生成。是什么让您能够如此迅速地进行创新,并在本质上率先进入市场?我想知道这是 OpenAI 的关系,还是你的一些推理能力或其他什么? 然后作为快速跟进,Amy,您确实提到了由于较高的能源成本,Azure 的利润率较低。您是否推断我们可以将这种增量影响量化为每季度 2 亿美元?然后,您可以做些什么来尝试在此期间管理它? 萨提亚·纳德拉 首先,是的,OpenAI 合作伙伴关系对我们来说是非常重要的合作伙伴关系。也许,有一点很重要,我们在 Azure 内部构建了超级计算能力,这是高度差异化的,尤其是计算网络的方式,为了支持这些平台模型或基础的大规模训练模型一直很关键。 这就是驱动力,事实上,OpenAI 一直在取得进展。当然,我们随后将其作为 Azure OpenAI 服务的一部分进行了产品化。这就是您所看到的两者都被我们自己的第一方应用程序使用,无论是
GitHub
Copilot
还是 Design,甚至是内部匹配。当然,还有像美泰这样的第三方。 因此,我们对此感到非常兴奋。当谈到 GitHub 宇宙时,我们有很多更多的讨论。我认为您会在
GitHub
Copilot
上看到更多进步,这是一个梦幻般的开端。但总的来说,这是一个巨大的投资领域。 AI评论显然已经到来。它将成为每个产品的一部分,事实上,无论是你提到的 Power Platform,因为这是我们在所有这些 AI 模型的企业方面正在创新的另一个领域。 所以,是的,所以我认为人工智能是一个我认为我们在基础设施层具有差异化能力的地方,用于训练和推理,并且由于使用那些人工智能模型。 艾米胡德 对于你关于能源成本的问题,让我试着在那里提供一点帮助。我们没有看到那么大。正如我所说,这一年的收入超过 8 亿美元。其中一些是在第一季度,但大部分将在第二季度到第四季度。我认为如果你想考虑一下,它大约是一个季度 250 左右。这并不准确,但这将是今年剩余时间的一个不错的假设。 卡尔·凯尔斯特德 艾米,我很想问你。显然,鉴于 Windows 方面的弱点,您正在经历更多的销售组合。看起来您已选择不降低运营支出,以使您能够满足三个月前的平坦利润率指导,因此它们现在会稍微降低一点。你介意谈论这些决定吗?为什么不限制运营支出来对抗 Windows 压力呢? 艾米胡德 谢谢,卡尔。我在电话会议上分享了一点,但让我再分享一点,因为我认为这对于我们如何看待投资和继续投资我们看到大量机会和增长的地方很重要。 个人电脑市场是周期性的。在大流行期间的几年里,我们获得了一些巨大的好处,我们选择不违背过去几年的有利条件进行支出,它下降到了底线,你可以看到在那段时间里利润大幅增加。我们这么做可能是因为这是一个周期性市场。因此,我现在的看法是,个人电脑今年将成为我们的一大阻力。但总的来说,Windows回到安装基础,我们增加使用率的能力,仍然高于以前。这对我们来说是一个很好的机会。同样的,当我们看到激增时,我们让它下降到底线,在这个低迷的市场中保持一致是很重要的,因为当你有类型的机会,特别是在商业业务中,萨蒂亚谈到的TAMs是我们最令人兴奋的一些。你有机会和你的客户一起获得市场份额,获得信心,对吧?我认为手要稳,这很重要。 现在,我还要说,我们并不是没有对围绕成本的宏观环境做出反应。正如我所评论的,我们从第一季度到第二季度的连续员工人数增长将是最小的。这将是关于投资我们说过要投资的地方,即重点领域。这是关于调动员工人数,以确保在公司内部,我们已经掌握了最高和最重要的事情。在过去的 12 个月里,我们增加了很多员工。我们希望确保以最有效的方式使用这些人数,我们将这样做。 而且,坦率地说,我们将在下半年结束时进行一些投资,卡尔。我们在第三季度末关闭了 Nuance。我们在第四季度关闭了 Xandr。当我们来分析这些时,您会看到运营支出投资大幅下降。您还将看到我们开始重复去年在关键领域增加的一些员工人数。到那时,我感觉很好,我们将看到员工人数和我们的重点提高生产力。所以这是一种能力,绝对可以说,我想保持一致,我们将对宏观做出回应。这两件事都可以做,我认为这就是我们正在做的事情。 布拉德·西尔斯 我想问一个关于Office Commercial的问题。这里的很多增长都是由用户增长驱动的。以本季度为例,按固定汇率计算 17%,用户增长 14%。你能提醒我们增量订阅者来自哪里吗?我们能否看到随着时间的推移,增长组合可能会从订阅用户转向 ASP?我认为您已经拥有超过 3 亿订阅者。所以只是跑道上的任何颜色?增量 C 来自哪里,以及您使用 E3、E5 和协作安全分析所做的所有工作,随着时间的推移,我们是否会看到更多来自 ASP 的增长而不是用户增长?太感谢了。 艾米胡德 这个问题问得好,因为我认为你已经看到了席位的持续增长,实际上比许多投资者预期的要长得多。在某种程度上,它确实应该继续下去,因为我们专注于一线员工的场景,我们继续专注于小型企业的增长,我们增加了可以增长的新东西,无论是Viva,还是Teams。坦率地说,有新事物使我们能够增加相关性,然后增加价值,然后增加座位。所以我不想说,它必须是,或者。所以我认为低端座位的增长还会继续,就像我们已经看到的那样。你会看到我们继续关注E5和E3 SKU的价值,在那里我们增加了一些价值,确保我们仍然可以把人们转移到那个套件。所以你会看到,随着时间的推移,长期的座位增长会有一点变化,然后你会看到asp出现。老实说,这取决于每个季度的混合情况。你在第四季度看到了更多ARPU。你在第一季度看到了一些与E3执行相关的内容。但实际上我认为这两件事都有空间去做,我已经这么想了几年。 格雷格·莫斯科维茨 Satya 或 Amy,作为 Azure 的后续行动,我很好奇您如何预测近期到中期云计算需求的两个不同变量的大小。首先是一些客户消费意愿的经济压力,其次是能源成本飙升的影响,这可能是促进在云中做更多事情的因素。您是否认为这些主要是抵消因素,或者您是否期望前一个变量比后者更突出?谢谢你。 萨提亚·纳德拉 是的。我的意思是我们看到的方式,总体而言,宏观意味着每个人都将优化他们的构建。事实上,正如 Amy 所说,我们的工作编号 oe#1 对于我们这种甚至是面向客户的组织中的大部分来说,是主动帮助他们进行优化。事实上,我们在客户成功团队中的激励措施与他们一致,帮助客户“事半功倍”。所以这是一方面。 不过,从客户的角度来看,让他们将支出与不确定的需求保持一致的最佳方式是迁移到云。所以我们看到了云的价值支撑。所以这一切的大赢家将是公有云,因为公有云可以帮助企业抵消承担需求风险的风险。 正如您今天所描述的那样,另一方面是供应链或能源成本方面的风险。因此,这是对冲能源成本的另一种最佳方式,事实上,我们更节能,就是迁移到云端。所以这就是我想的一点——当你们都在思考云会发生什么时,对我们来说,我们看着这个并说,这是一个云获得份额的时期,因为我们仍处于采用的早期阶段。所以我们只是想投资它,但这可能会建立和建立长期的客户忠诚度。 布伦特·布雷斯林 我想转向广告。我认为,今年早些时候,这是一个超过 100 亿美元的细分市场。Netflix 明年将推出由微软提供支持的广告支持模式,考虑到微软历来不关注这些非常大且非常有利可图的细分市场,微软在此可能三到五年的更广泛的广告野心是什么?谢谢。 萨提亚·纳德拉 谢谢你的问题。我们是——是的,我们的核心广告业务有两个要素。一个是,我称之为LinkedIn B2B广告,我们显然在覆盖面、投资回报率质量方面处于领先地位,并且将——当然,它会受到周期性影响,但我们认为LinkedIn Engage继续生长。随着这个市场的回归,LinkedIn 拥有和运营我们的高端地位,我感觉自己处于非常有利的位置。我们将继续投资该领域。 第二点是我们再次非常非常关注的地方。首先,从我们拥有和经营的开始。因此,当我们谈到 Windows 上的整体活跃设备在大流行期间增长了 20% 时。它带来的一大机遇是我们可以勾选我们自己和运营的库存,对,无论是 Bing 和 Search,还是 Feed。这些是你看到的一些增长。我们是浏览器的分享者。就订阅源的参与而言,我们是分享者。这些是我们在已安装基础之上的高杠杆作用,现在在增长方面发生了结构性变化。 然后是 Netflix 的第三方,我们对此感到非常兴奋,我们将寻求发展我们——首先让 Netflix 成为一个成功的合作伙伴,但我们将继续发展我们的第三方广告平台上的业务。所以这将是三个领域:LinkedIn;我们自己的顶级印刷广告,包括搜索和提要;以及第三方广告网络。 (这份记录可能不是100%的准确率,并且可能包含拼写错误和其他不准确的。提供此记录,没有任何形式的明示或暗示的保证。表达的记录任何意见并不反映老虎的意见)
lg
...
老虎证券
2022-10-26
上一页
1
•••
4
5
6
7
8
下一页
24小时热点
股债双吸金,全球资金大迁徙;智能交易工具成必备:换工具,换视野,赢先机!
lg
...
特朗普4万亿法案一锤定音 三大板块发生巨变 :这份870页的法案在盘算什么?
lg
...
【Kitco黄金调查】华尔街举棋不定,散户强势看涨!黄金多空拉锯进入关键时刻
lg
...
关税大限逼近,特朗普真的要掀翻全球贸易桌?全球资产如何避险?
lg
...
中国国产手机品牌崛起!苹果等外国手机制造商5月份在华销量下降9.7%
lg
...
最新话题
更多
#Web3项目情报站#
lg
...
6讨论
#SFFE2030--FX168“可持续发展金融企业”评选#
lg
...
36讨论
#链上风云#
lg
...
109讨论
#VIP会员尊享#
lg
...
1989讨论
#CES 2025国际消费电子展#
lg
...
21讨论