全球数字财富领导者
财富汇
|
美股投研
|
客户端
|
旧版
|
北美站
|
FX168 全球视野 中文财经
首页
资讯
速递
行情
日历
数据
社区
视频
直播
点评旗舰店
商品
SFFE2030
外汇开户
登录 / 注册
搜 索
综合
行情
速递
日历
话题
168人气号
文章
估值暴涨3倍,《瞬息全宇宙》幕后公司Runway引领AI影视新时代
go
lg
...
时,他们改变了策略,决定致力于构建即时
视频生成
工具。 ◉ 大获成功 Runway被定义为下一代视频创作者的新工具。Valenzuela表示在艺术创意中,人们永远无法找到能做一切事情的工具,但Runway却是一款根据人们的问题与洞察力而提供帮助的工具,旨在减少人们制作视频的繁琐与麻烦。 Runway利用市场对生成式人工智能的热情,在连续募集几轮风险投资后,估值达到15亿美元,一跃成为新晋生成式AI独角兽。在今年3月份与亚马逊达成一项大型云协议后,Runway又在不久前与谷歌签署了一项重大的云计算协议,可谓是一呼百应,春风得意。 如今,Runway已成为一款成熟的视频编辑器,可以在浏览器中进行实时协作,并拥有越来越多的AI视频编辑和创建功能。它被成千上万的用户使用,无论是从业余爱好者,还是专业人员。 Runway的产品布局 在Runway,他们相信每个人都有自己的故事。其使命是:让所有人都能进行内容创作。因此该公司正在利用计算机图形学和机器学习的最新进展来突破创造力的界限,从而降低内容创作的障碍,掀起新一波讲故事的浪潮。 在过去的四年里,该公司从顶级投资者那里筹集了资金,团队规模从小到只有容纳一张桌子的人数,到团队成员来自各行各业并富有创造力,多年来致力于人工智能视频编辑软件的研发。 Runway的产品和技术有很多,Runway创业之初的产品形态是一个关于ML(机器学习)模型的应用商店,用户可以在这上面使用数百个模型,比如StyleGAN模型。 随后Runway基于新的AI算法发布大约30余个AI创作工具,包含音频、图片、视频、3D和生成五个大类,涵盖了几乎所有的音视频内容生成和处理工具。 此外,RunwayML作为全球首款AI生成视频软件,是其向传统内容平台和移动端进军的表率。它除了提供一整套多模态人工智能工具库之外,该工具库还推出图像修复、绿幕修图、运动跟踪三大核心功能,可谓是将黑科技直接拉满,效果炸裂的程度。 如今,Runway的核心产品为视频编辑器Gen-1和Gen-2。Gen-1模型可以通过输入文本或图像,改变原视频的风格,例如将现实中的实拍镜头转换为卡通剪纸世界。Gen-2模型可以直接使用文本生成视频场景, 使用户可以使用文本提示生成“逼真的视频内容”并“自动剪辑视频”。 Runway的产品和技术不言而喻,其客户除了包含许多知名品牌和机构以外,例如Adobe、Facebook、Google、Netflix和The New York Times等,还有抖音和YouTube用户以及主流电影和电视剧工作室都在使用该公司的创造,被广泛应用于电影、电视和广告等领域。例如:《黑寡妇》中的特效制作;斯蒂芬-科尔伯特主持的《深夜秀》;《瞬息全宇宙》狂拽酷炫的视觉效果等等。 其应用领域的扩展背后是产业面临的巨大变革,作为视频领域的“神奇魔法”,Runway等工具受到了影视制作行业的欢迎,但并非所有人都对AI表示欢迎。 编剧抵制,特效最爱 随着AI工具火遍全球,人们的生活的确变得更加便捷,但这也导致了文案、编剧等文字类工作者面临失业。公司用AI写剧本,这不仅是在抢编剧们的饭碗,同时也贬低了“人类劳动的尊严和价值”。 导演郭帆表示,“《流浪地球》第三季如果拍摄的话,现场可能至少一半以上的人会减少掉。人工智能对我们来说既是挑战,也是机遇,可能是我们弯道超车好莱坞的机会。” 目前在好莱坞,制片方出于成本考量,已经在大量使用AI进行创作。据媒体此前报道,AI机器在学习某热门美剧的剧情后,已经可以为新一季的第一集撰写剧本大纲。 这种利用AI进行创作的行为却引发了美国好莱坞编剧工会(WGA)数千名电影和电视编剧的强烈抵制,他们抗议收入过低和AI越来越多地取代人类参与剧本写作的现象。《黑镜》主创查理·布洛克在接受采访时说,他曾经用ChatGPT写了一集《黑镜》剧本,结果“跟垃圾一样”。 虽然同属于影视行业,但特效制作者对待AI的态度却截然相反,他们正在积极拥抱AI技术。 斩获奥斯卡金像奖的《瞬息全宇宙》的特效团队便是在AI技术的加持下,仅靠五人就完成了后期制作,其中名场面 “热狗手”还获得了业内外的一致好评。 这个成功的案例表明,AI技术在影视创作中的潜力是巨大的,也是不可忽视的。为了探讨AI技术如何改变影视行业的未来,最近,非营利组织AI LA在洛杉矶举办了“AI on the Lot”会议,最终得到“人工智能的时代已经到来”和“所有创意工作人员都应该学会使用它”这两个结论。 趋势不可挡,技术革新的车轮滚滚而过,AI的入侵大戏已在好莱坞悄然上演。 AI公司正在入侵好莱坞 的确,人工智能的时代已经到来,并且它正在改变着影视行业的游戏规则,越来越多的AIGC公司已蓄势待发,为影视制作带来全新的灵感。 ◉ Deep Voodoo Deep Voodoo由知名动画剧集《南方公园》的创作者Trey Parker和Matt Stone创办,专注于开发Deepfake技术的视效服务和合成媒体技术项目。 Deepfake是一种利用深度学习等机器学习方法创建或合成视听觉内容的技术,这种技术可以将已有的图像或视频中的人脸或表情替换成目标人物,从而达到伪造身份或表情的目的。 该公司的换脸技术自推出以来便广受关注,比如说唱歌手Kendrick Lamar的《The Heart Part 5》MV以及篮球巨星科比的换脸视频。 ◉ Metaphysic 同样利用Deepfake技术进行视频创作的还有Metaphysic,该公司曾在去年9月利用Deepfake让已经故去多年的猫王登上了《美国达人秀》的舞台。 此外,在经典电影《阿甘正传》原班人马合作的新片中,该公司将利用AI技术对主角汤姆·汉克斯和罗宾·怀特的面部进行年轻化还原。 ◉ MARZ MARZ作为漫威剧集《旺达幻视》以及Netflix剧集《太阳召唤》背后的视效工作室,开发了基于AI的视效工具“Vanity AI”。 Vanity AI可以自动地完成2D的老化、年轻化、美容、假发和假肢等视效修饰,大大缩短了制作时间和成本。 此外,MARZ公司的COO Matt Panousis认为配音和画面不同步的问题是内容无法得到更好传播的主要原因之一,因此该公司正着手开发一项用于解决音画不同步问题的工具,这种工具将能帮助传媒公司们更好地放眼海外以寻求更大的发展。 ◉ Respeecher Respeecher是一家乌克兰的初创公司,成立于2018年,擅长运用AI技术“克隆”陈旧影像档案中演员的声音,然后用于新的电影或游戏制作中。在去年Disney+推出的剧集《欧比旺·克诺比》里,Respeecher就成功“克隆”了黑武士的标志性呼吸声。 同样,在另一部改编自《星球大战》、由卢卡斯影业打造的剧集《波巴·费特之书》里,Respeecher也还原了卢克·天行者的声音。 此外,在2021年赢得艾美奖的纪录短片《Event of Moon Disaster》里,Respeecher也利用机器学习技术来处理了1969年尼克松关于阿波罗11号任务的演讲的画面和声音。 除了上述的几家公司,还有一些AIGC公司也正在改变着影视和动画行业。比如利用生成式AI技术为外语电影和剧集重新进行本地语言配音的Deepdub,以智能计算机视觉技术、光场技术、深度学习技术为核心的中国公司叠境数字(DGene),以及由参演过《X战警》和《头号玩家》的明星Tye Sheridan和动画特效专家Nikola Todorovic联合创立的公司Wonder Dynamics等。 Stay hungry,stay foolish Runway的创业成功符合当下生成式AI潮流与短视频媒体时代背景,很难说不属于过程顺势而为,结果水到渠成。 “每个平行世界的我们都存在着无限可能。“伊芙琳在电影中的感叹是不是也能印证到Runway创始人的职业生涯中?他拒绝加入谷歌,如今带领Runway又与谷歌展开紧密合作。 Valenzuela曾在接受采访时表示,无论是创业还是工作,只有保持不断学习的心态与超过常人的学习速度,才能创造出新的产品。回顾他对AIGC的追求与坚持,即使他当时选择谷歌,我们也相信他绝不会泯然众人矣。 AIGC的爆火对元宇宙的发展不是冲击,而是助力。元宇宙终将带领我们把现实世界与虚拟世界融为一体,这个看似遥远的理念离不开人工智能技术的支撑。 2023年已过半,元宇宙远去了吗?不,它只是换了个旗帜重回我们身边。 【声明】:本文为元宇宙之心运营团队原创,未经允许严禁转载,如需转载请联系我们,文章版权和最终解释权归元宇宙之心所有。 来源:金色财经
lg
...
金色财经
2023-06-15
当虹科技: 公司目前在泛安全业务中提供5G边缘计算终端产品(边缘压缩/AI终端)
go
lg
...
输领域广泛使用,可应用于AIGC的各类
视频生成
场景中。感谢您对当虹科技的关注! 投资者:视频/图片的压缩解码技术是否直接影响传输效率? 当虹科技董秘:尊敬的投资者您好,视频的压缩解码技术会直接影响传输效率,通过公司的算法技术能减少传输所需要消耗的带宽,在特定场景下能降低90%的传输和存储成本。感谢您对当虹科技的关注! 投资者:董秘好,公司在机器视觉方面有什么布局吗? 当虹科技董秘:尊敬的投资者您好,公司针对于超高清视频、计算机视觉、VR/AR等相关前沿技术有持续研发。具体业务敬请关注公司公开披露信息。感谢您对当虹科技的关注! 投资者:尊敬的董秘,您好!据悉《阿凡达》可能发布苹果MR头显3D版本,用户能够在一个巨大的杜比影院3DVR影院观看阿凡达,公司相关编码技术是否能够涉及此应用? 当虹科技董秘:尊敬的投资者您好,公司聚焦于视频处理技术一直在元宇宙相关的技术方向进行布局与投入,拥有视频沉浸式技术、5G+4K/8K/VR多场景现场直播解决方案、XR演播室系统、VR全景视频处理解决方案等视频解决方案。感谢您对当虹科技的关注! 投资者:请问公司有考虑把chatGPT应用到公司的文化传媒上吗? 当虹科技董秘:尊敬的投资者您好,公司积极推进AI技术的行业应用,公司AIGC相关技术在媒体演播室、智能媒资平台等众多场景上的应用已经较为成熟。公司目前已为电视台、新媒体、互联网、泛媒体行业等客户提供通过AI技术进行短视频、长视频的生产/加工等解决方案。包括比如:AI智能剪辑;用AIGC的方式自动生成对应短视频,极大简化了流程提高了效率,保证了视频上线的时效性。感谢您对当虹科技的关注! 投资者:董秘好,公司与微软或者openai有合作吗? 当虹科技董秘:尊敬的投资者您好,具体业务情况敬请关注公司定期报告及公开披露信息。感谢您对当虹科技的关注! 投资者:请问公司在视频的人工智能Ai这方面是如何布局? 当虹科技董秘:尊敬的投资者您好,公司积极推进AI技术赋能各个行业,包括AIGC、NLP等与ChatGPT相关的技术和产品也已逐步完善并在部分业务中落地应用。感谢您对当虹科技的关注! 投资者:请问GPT5会对公司未来带来怎样的机遇与挑战? 当虹科技董秘:尊敬的投资者您好,公司一直专注视频处理相关技术的研发,类ChatGpt的快速发展促使生成内容中视频使用量的增长,进一步催生视频训练数据清洗需求、视频画质优化需求、视频内容安全审核需求、视频压缩传输等需求扩张,对公司业务有积极影响。感谢您对当虹科技的关注! 投资者:高管好!从公司的公众号上看到,公司荣获2022年度华为“最佳解决方案合作伙伴奖”。请问,当虹凭借的什么产品或服务得到的该奖项。另外公司即将发布的跨模态AICG产品,是个什么样的产品,是否应用于类GPT-4模型。 当虹科技董秘:尊敬的投资者您好,华为公司是公司在数字政务“一网统管”方向上的重要业务伙伴,公司凭借着政企领域“一网统管”方向的相关解决方案获得2022年度华为“最佳解决方案合作伙伴奖”。公司发布的跨模态AICG产品以静态照片生产三维体积视频,支持6DOF(六自由度)视角自由移动,并且通过点云模型转换及压缩算法实现高达800倍的视觉无损压缩,实现不同模态之间相互切换。感谢您对当虹科技的关注! 投资者:请问公司在人工智能和视频技术在智能座舱是怎么布局? 当虹科技董秘:尊敬的投资者您好,公司一直专注视频处理相关技术的研发,致力于为千行百业的提供相应视频技术服务。公司将持续优化算法和产品,以满足类ChatGpt的快速发展所催生的视频画质优化算法需求、视频内容安全审核需求、视频压缩传输等需求。智能网联汽车方向,公司聚焦车载智能娱乐座舱方向,充分利用视频技术优势、视频行业创新优势、视频生态优势,打造面向未来的All-in-One沉浸式视听娱乐体验。感谢您对当虹科技的关注! 投资者:请问公司有没有考虑或者布局在公司的泛安全中【一网统管、一网通办】尝试ChatGPT应用? 当虹科技董秘:尊敬的投资者您好,公司积极推进AI技术赋能各个行业,泛安全作为公司的重要业务方向,公司发布的跨模态AICG产品以静态照片生产三维体积视频在泛安全行业也在相应探索落地。感谢您对当虹科技的关注! 投资者:董秘您好,请问贵公司的具体主营业务与AI未来向多模态发展是否有交集?主要体现在哪些领域? 当虹科技董秘:尊敬的投资者您好,公司积极推进AI技术的行业应用,公司AIGC相关技术在媒体演播室、智能媒资平台等众多场景上的应用已经较为成熟。公司目前已为电视台、新媒体、互联网、泛媒体行业等客户提供通过AI技术进行短视频、长视频的生产/加工等解决方案。包括比如:AI智能剪辑;用AIGC的方式自动生成对应短视频,极大简化了流程提高了效率,保证了视频上线的时效性。公司发布的跨模态AICG产品以静态照片生产三维体积视频,支持6DOF(六自由度)视角自由移动,并且通过点云模型转换及压缩算法实现高达800倍的视觉无损压缩,实现不同模态之间相互切换。感谢您对当虹科技的关注! 投资者:董秘您好!请问,请问贵公司截止2022年12月31日及2023年1月31股东人数分别是多少?谢谢! 当虹科技董秘:尊敬的投资者您好,为保证投资者获得信息的公平性,根据信息披露相关规则公司会在定期报告中披露股东户数等信息,敬请关注公司的定期报告。如确需查询其他时点的股东户数,请将您的联系方式、身份证、股东账户卡等能证明您持有公司股份的种类以及数量的书面文件发送至公司邮箱ir@arcvideo.com,经核实股东身份后予以提供。感谢您对当虹科技的关注! 投资者:请问公司在积极促进AI技术在视频图像领域的应用如何? 当虹科技董秘:尊敬的投资者您好,公司积极推进AI技术赋能各个行业,包括AIGC、NLP等与ChatGPT相关的技术和产品也已逐步完善并在部分业务中落地应用。感谢您对当虹科技的关注! 投资者:请问贵公司是否有涉及AIGC,ChatGBT,数字经济/数据要素/数据确权,web3.0中某一项或几项的技术或业务?能详细展开介绍一下吗? 当虹科技董秘:尊敬的投资者您好,公司AIGC相关技术在媒体演播室、智能媒资平台等众多场景上的应用已经较为成熟且在传媒文化客户中落地;公司已发布推出跨模态AICG产品,可以将静态照片生产三维体积视频;同时,公司关注Web3.0去中心化在视频行业中的前沿应用。当前在内容版权保护和交易方面已有落地方案,并积极探索视频转码、分发、存储等各环节的去中心化应用。感谢您对当虹科技的关注! 投资者:公司有在ai聊天机器人这方面布局吗? 当虹科技董秘:尊敬的投资者您好,公司一直专注视频处理相关技术的研发,包括语音、文本、图像、视频在内的多模态处理技术也是公司业务的一部分。感谢您对当虹科技的关注! 投资者:杭州亚运会今年9月即将举行,公司作为杭州企业,是否有参与亚运会相关建设,对公司业绩有何影响? 当虹科技董秘:尊敬的投资者您好,2022杭州亚运会,公司诸多产品技术会积极参与其中并发挥公司在超高清视频、体育赛事和智能观赛方面的优势,促进公司新产品新技术业务进一步拓展,具体业务情况敬请关注公司定期报告及公开披露信息。感谢您对当虹科技的关注! 投资者:你好,公司在ChatGPT领域有什么布局吗? 当虹科技董秘:尊敬的投资者您好,公司积极推进AI技术赋能各个行业,包括AIGC、NLP等与ChatGPT相关的技术和产品也已逐步完善并在部分业务中落地应用。感谢您对当虹科技的关注! 投资者:您好,董秘,ChatGPT作为人工智能的重要发展方向,贵公司是否有这方面的技术和发展方向,能否介绍一下涉及在AI领域的技术业务,请百忙之中回答,谢谢 当虹科技董秘:尊敬的投资者您好,公司积极推进AI技术赋能各个行业,包括AIGC、NLP等与ChatGPT相关的技术和产品也已逐步完善并在部分业务中落地应用。感谢您对当虹科技的关注! 投资者:公司跟华为公司有合作吗? 当虹科技董秘:尊敬的投资者您好,1.传媒文化方向,在2019年9月在荷兰IBC上,公司与华为海思、广东省超高清视频创新中心和鹏城实验室等机构联合发布了首个基于《信息技术智能媒体编码》系列国家标准的8K端到端解决方案;公司目前加入欧拉开源社区,双方将持续深度交流合作。2.泛安全方向,华为公司是公司在数字政务“一网统管”方向上的重要业务伙伴,公司获2022年度华为“最佳解决方案合作伙伴奖”。3.智能网联汽车方向,公司是华为星闪联盟成员。感谢您对当虹科技的关注! 投资者:你好,请问公司自主研发的“智能识别引擎”所推出的智能审核系统,主要应用哪些领域? 当虹科技董秘:尊敬的投资者您好,公司的AI智能审核系统已广泛覆盖广电行业,系统采用人脸识别、场景识别、图像识别、OCR识别、语音识别、NLP算法、视频质量分析等技术、为客户提供全面高效的智能审核服务,守护播出安全。感谢您对当虹科技的关注! 当虹科技2023一季报显示,公司主营收入5198.81万元,同比下降23.58%;归母净利润-1890.13万元,同比下降26.08%;扣非净利润-1922.1万元,同比下降24.16%;负债率17.07%,投资收益-73.53万元,财务费用-88.88万元,毛利率44.43%。 该股最近90天内共有3家机构给出评级,买入评级2家,增持评级1家;过去90天内机构目标均价为75.0。近3个月融资净流出7711.4万,融资余额减少;融券净流出4478.28万,融券余额减少。根据近五年财报数据,证券之星估值分析工具显示,当虹科技(688039)行业内竞争力的护城河一般,盈利能力较差,营收成长性较差。财务可能有隐忧,须重点关注的财务指标包括:应收账款/利润率、应收账款/利润率近3年增幅、经营现金流/利润率。该股好公司指标0.5星,好价格指标1.5星,综合指标1星。(指标仅供参考,指标范围:0 ~ 5星,最高5星) 当虹科技(688039)主营业务:智能视频技术的算法研究,依托多年的技术积累,拥有高质量视频编转码、智能人像识别、全平台播放、视频云服务等核心算法的研究与应用成果,是面向传媒文化和公共安全等领域,提供智能视频解决方案和视频云服务的国家高新技术企业。 以上内容由证券之星根据公开信息整理,由算法生成,与本站立场无关。证券之星力求但不保证该信息(包括但不限于文字、视频、音频、数据及图表)全部或者部分内容的的准确性、完整性、有效性、及时性等,如存在问题请联系我们。本文为数据整理,不对您构成任何投资建议,投资有风险,请谨慎决策。
lg
...
证券之星
2023-06-14
美股开盘:纳指涨近百点 新能源车股走高蔚来绩后涨逾5%
go
lg
...
加入生成式AI(AIGC)文本、图像和
视频生成器
。扎克伯格强调,这是该公司对元宇宙工作的扩展而非替代Meta。 Carvana今年来已涨超4倍,空头年内累计损失超10亿美元 自2023年初,二手车经销商Carvana股价已经上涨了411%,做空该股的投资者们年内已亏损超过10亿美元。截至周四美股收盘,Carvana的股价飙升56%,收于24.23美元。截至发稿,该股盘前一度涨超6%,现涨约1%。 马斯克呼吁暂停AI研究,Palantir创始人:因为他赶不上我们 近日,包括特斯拉CEO马斯克、苹果联合创始人沃兹尼亚克等大佬签署了一份公开信,呼吁暂停对GPT-4的模型进行更深度的AI研究。但这一想法遭到了全球大数据龙头公司Palantir创始人兼CEOAlex Karp的讽刺和反对。Karp在周四播出的采访中说: 这些呼吁暂停研究的人不过是因为他们自己还没有AI产品。没有产品的人想研究人工智能,所以就呼吁暂停,这样他们就能在商业应用,甚至军事应用方面获得领先优势。 DocuSign第一财季业绩、业绩指引均超预期 电子签名提供商DocuSign公司2024财年第一财季营收为6.61亿美元,同比增长12%,而分析师预期为6.42亿美元。公司预计第二财季营收6.75-6.79亿美元,超预期6.68亿美元;预计全财年营收27.1-27.3亿美元,此前的指引为27-27.1亿美元,市场预期为27亿美元。 台积电营收连续第三个月下滑,受电子产品需求下滑影响 台积电5月营收下滑5%至1765亿元台币,也就意味着他们的月度营收已连续3个月同比下滑,其中3月份同比下滑15.4%,4月份同比下滑14.3%。台积电高管们预测下半年会逐步复苏,并在2024年恢复增长。 小鹏G6开启预售 小鹏G6开启预售,售价22.5万元起。据悉,G6不仅是扶摇技术平台的第一款产品,也是公司大刀阔斧改革后第一款露面的新品。 蔚来Q1营收同比增长7.7%,二季度展望逊于去年同期 蔚来Q1营收106.8亿元,上年同期为99.11亿元。Q1净亏损47.395亿元,较去年同期扩大165.9%。汽车毛利率进一步下滑至5.1%,上年同期为18.1%,去年四季度为6.8%。公司预计,2023年第二季度,营收将介于87.42亿元至93.70亿元,同比下降9.0%至15.1%;汽车交付量将介于2.3万辆至2.5万辆,同比下降0.2%至8.2%。
lg
...
金融界
2023-06-09
Meta计划全面加码AI,强调并非替代元宇宙
go
lg
...
gram)中加入生成式AI文本、图像和
视频生成器
,不过扎克伯格将其描述为对元宇宙工作的扩展而非替代Meta在那里的重心。 事实上,Meta一直处于生成式人工智能研究的前沿,但其在将这些技术应用到其产品上方面有些缓慢。扎克伯克表示,过去一年在生成式AI方面,我们看到了一些真正令人难以置信、质量上有所突破的进步,这给我们提供了机会,现在可以把这项技术推向前进,并将其构建到我们的每一个产品当中。
lg
...
金融界
2023-06-09
华泰证券:苹果将发布MR头显,MR产品未来2-3年有望再迎一轮发展机会
go
lg
...
ey等AI图像生成工具、Gen2等AI
视频生成
工具带来的降本增效已逐步在游戏行业各环节有所体现。随工具化AIGC产品服务快速迭代,行业“卖铲人”将加速AI对内容生产的赋能。 风险提示:宏观经济下行对需求产生影响,技术创新发展不及预期,元宇宙相关政策改变。
lg
...
金融界
2023-06-05
民生证券:AI行情新阶段 下一演绎方向将着重于产品侧落地
go
lg
...
N等,其计算复杂度比文本生成的模型高;
视频生成
通常使用的模型如3D-CNN、RNN+CNN等,其计算复杂度比图像生成的模型还要高,涉及卷积神经网络大量神经元间的矩阵运算。 1.3.2 推理侧:边缘大模型AI推理将带来海量算力需求 推理侧算力需求与边缘AI终端数量正相关。据数据猿,推理侧算力需求与模型规模(参数数量)、输入文本长度(问题长度)、输出文本长度(回复长度)以及模型的计算复杂性正相关,设备推理一次消耗的算力所需FLOPs ≈ L * D * N;其中,L是用户问题的输入长度与模型回答的输出长度之和,D是模型维度,N是模型层数。推理侧总体算力需求为所有设备推理算力的总和。据a16z,GPT3训练需要的总算力为3.14*10^23 FLOPs,而推理一次的算力需求为3.5*10^14 FLOPs,如果全球有一亿用户都推理一次,则推理算力需求超过训练算力需求。 大模型从云到端的趋势已经确定,解锁海量AI边缘推理所带来的算力需求。框架上,生成式AI由云向端的迈进成为大势所趋,谷歌和创达发布适用边缘的大模型,苹果将ChatGPT成功部署在苹果手机,英伟达推出具身智能AI大模型为机器人打开应用天花板;生态上,大模型作为AI时代的终极操作系统,ChatGPT超级APP只是第一步:移动端是当前刚需应用的主要载体,能够为大模型带来海量交互数据,大模型一方面与传统生态融合,创达推出与大模型结合的智能云、智能硬件、智能行业等最新解决方案。谷歌将AI全面融入搜索、邮箱、办公等全系列产品;另一方面,边缘AI全新应用生态有望不断落地,科大讯飞发布AI学习机和办公本等全系产品、英伟达发布具身智能机器人雏形是有力证明。此外,终端应用生态满足了具身智能训练中AI与周边的人与环境充分交互的需求,是具身智能AI落地的重要基础。 1.3.3 AMD:软件生态是主要短板正在不断追赶 据TOPCPU测评,AMD最新MI300算力芯片纯硬件性能未必弱于英伟达H100,但英伟达以Tensor RT+CUDA的软件生态仍然是难以逾越的护城河。2023年CES 2023展会上AMD发布的MI300拥有13个小芯片,基于3D堆叠,包括24个Zen4 CPU内核,同时融合了CDNA 3和8个HBM3显存堆栈,集成了5nm和6nm IP,总共包含128GB HBM3显存和1460亿晶体管,据topcpu测评数据,纯硬件上MI300与H100互有胜负,差距不明显。相比之下,英伟达在软件生态层面建立Tensor RT+CUDA护城河优势更为显著。AMD自研ROCm框架采用开源模式有望弯道超车:ROCm使得开发人员能够获得 AMD Infinity Hub 交钥匙人工智能框架容器、改进的工具、精简安装,并支持TensorFlow 和 PyTorch 等主要机器学习框架,以帮助用户加速人工智能工作负载。从优化的 MIOpen 库到全面的 MIVisionX 计算机视觉和机器智能库、实用程序和应用程序,AMD 与人工智能开放社区广泛合作,以促进和扩展机器和深度学习功能和优化,从而帮助扩大加速计算所适用的工作负载。 1.4 AI进入产品落地验证的新阶段 AI产业链分为上游算力基础设施、中游大模型和算法以及下游各类AI应用。AI的上游算力需求超预期有望带动整个AI产业链走向兑现的新阶段。 投资建议:英伟达近期迎来历史上最大单日涨幅,其核心的本质在于本次AI大模型带来划时代的变革已成共识。而算力的清晰路径逐步被大众认可,本质是在于最为确定的算力侧率先兑现:上游算力正处于进行时阶段,也为AI应用产品落地提供先决条件,AI下一演绎方向将着重于产品侧落地,平台生态巨头和垂直领域龙头具备产品落地的先决条件。在大模型蓄势待发的现阶段,作为行业龙头的相关企业天然具备自研大模型+高质量数据+产品的稀缺属性,建议关注中科创达、科大讯飞、金山办公、同花顺以及三六零。以海外算力龙头英伟达业绩超预期为前瞻,国内AI产业链上游需求有望得到验证,建议关注寒武纪、浪潮信息等。
lg
...
金融界
2023-05-28
亿级数量商品库,15亿补贴投入,阿里妈妈淘宝联盟携2400万淘宝客全面备战大促618
go
lg
...
实现交互式策划选品、智能文案写手和智能
视频生成
,构建AI时代下淘宝客经营技术新基座。 03 淘宝联盟大促全景解读 助力618大促爆发 相较于之前的大促活动,今年的618在淘宝联盟核心策略升级的加持下,对整体时点与节奏的把控更为精准。 阿里妈妈淘宝联盟618项目负责人润萱现场分享淘宝联盟大促全景解读,聚焦超级红包、超级U享、品牌U享、精选预售、星任务2.0等玩法,阿里妈妈将以更丰富消费者玩法、更优质货品供给、更多维渠道激励、更提效平台服务帮助淘宝客实现从前站蓄水、开门红、品类日到狂欢日的高效承接。 04 淘宝联盟×站内外多渠道 开启全媒体种草新时代 社交、内容等多渠道淘宝客群体的增量与提升,是实现全媒体覆盖、种草高效转化的强力助推器。 在过去的五年中,B站用户体量和优质创作者队列不断壮大,成为备受Z世代年轻群体青睐的主流视频阵地。B站带货运营负责人加林分享B站种草带货新势力——星火计划,现场释放与阿里妈妈淘宝联盟深度合作的视频与直播种草带货解法,并通过制定多项UP主计划,全力释放年轻活力,为带货助力。 为助攻品牌商家618大促,知乎消费与商业生态负责人张沙沙分享「选好物,上知乎」618整体种草解决方案,从星知合作、内容种草、联合运营活动、好物带货以及定向扶持5大维度,知乎与阿里妈妈淘宝联盟共建好内容和好生意之间的「讨论场」。 灵活把握新机遇与新玩法是淘宝客提升效益的关键。拥有8年淘宝客资历的鲤象生活创始人王明坤介绍品牌将在淘宝联盟经营能力的加持下,强化精准推出生活美妆与母婴两大社群的产出效率,并力图在未来实现「淘宝联盟新生态&鲤象新模式」的共赢目标。 内容营销价值成为度量时代增量红利的重要标尺。悦普集团董事副总裁鲍白白分享悦普在应对内容营销种草新趋势下的战略布局,强调将携手阿里妈妈全链路能力科学布局人货增长、积极参与淘宝联盟一起成长、实践、共创,实现内部架构与服务体系升级。 阿里妈妈淘宝联盟以关怀为基,以创新为钥,一直坚定守护经营伙伴们,以丰厚红利与数亿激励重振淘宝客的事业信心、实现商家与淘宝客双赢。未来,阿里妈妈淘宝联盟也将与淘宝客们一起携手共进,在新经营周期斩获新佳绩! 来源:金色财经
lg
...
金色财经
2023-05-20
AIGC重塑数字人:落地、变革、永生
go
lg
...
来能实现文本生成、音频生成、图像生成、
视频生成
、3D模型生成等功能,延伸到多模态交互功能,进而实现跨维度升级。 在外形方面,AI技术几乎渗入到数字人构建的各个基础环节:建模、生成、渲染、驱动、呈现、交互等方面,目前已经能呈现高保真的“人类”外形,也能做出流畅的肢体语言,如虚幻引擎的Metahuman和数年前三星演示的NEON数字人。 为了提高数字人的真实度,前段时间英伟达更新了其Omniverse的AI能力,并宣称将进一步引入对生成式AI的支持,用户可以仅凭文本信息自动生成高质量的材料。这一特性在Omniverse的声音驱动面部表情的工具Audio2Face上面也有体现。 高保真AI数字人(图源:英伟达) 为了演示Omniverse的新特性, Adobe Substance 3D艺术和开发团队使用Omniverse USD Composer(前称Create)合作创作了一个虚拟数字人形象。从视频可以看到,里面的虚拟角色视效逼真,并且皮肤呈现了真实的光线效果,而生成式AI,则提升了面部表情以及唇形同步的质量。相关阅读:《AI含量极高,GTC 2023有何新动态?》 在数字人制作方面,AI的接入让其生产成本进一步降低。 3月,腾讯发布全新的AI智能创作助手“腾讯智影”,智影数字人能实现“形象克隆”和“声音克隆”,创作者通过上传少量图片、视频和音频素材,就能得到自己的数字人分身和定制音色,进而快速生成自己的数字人播报视频。据介绍,腾讯智影还接入了数字人直播,可实现7×24小时不间断开播。 来源:腾讯智影 商汤科技在4月的技术交流日活动上发布了大模型体系“商汤日日新大模型”,其演示了2D数字人
视频生成
平台“如影SenseAvatar”,据称仅需一段5分钟的真人视频素材,就可以生成出来声音及动作自然、口型准确、多语种精通的数字人分身。它可应用为智能直播、教学、短视频等多种场景。 来源:商汤科技 在功能方面,结合ChatGPT的数字人不仅能完成更细致的指引、导航等信息提示服务工作,结合庞大的知识数据库,在B端如金融、汽车、工业等场景以及C端的影视、游戏、直播等领域将有更大的发展空间。 另外,OpenAI于今年3月发布了多模态预训练大模型GPT-4,ChatGPT的功能有了进一步提升:拥有识图功能;扩大文字输入限制至2.5万字;对话内容准确性提高;能生成有风格变化的创意文本等。多模态功能将使数字人的交互、决策建议更为真实有效。 人人都能实现“数字永生” ChatGPT发布后,大量AI工具顺势而生,在一些AIGC的门户网站上甚至收录了海内外上千款AI应用。包括搜索引擎、文本写作、聊天机器人、语音合成、音乐制作、绘画生成、图像化身、图像合成、3D生成、视频技术、数字虚拟人、游戏应用、无代码创作等40个细分领域。几乎人人都能创建符合自己需求的数字人。 图源:AIGC中文工具导航截图 得益于这些AI工具强大的内容生成能力,现在网上也出现了不少“整活”尝试。 前阵子AI在B站上掀起一阵华语乐坛的“赛博文艺复兴”热潮,不少UP主利用音乐大模型软件,通过内容编码器提取源音频语音特征,进行AI翻唱制作,让歌手“唱”起来。与B站“鬼畜区”的人力调音不同,AI翻唱的效果非常真实自然,实际一听几乎难以分辨出是真人还是AI的声音,甚至还能看到视频中有不少弹幕讨论起AI唱功好不好…… 图源:B站截图 另一方面,也有人在尝试证明AI“技术向善”。UP主吴伍六发布了一则名为“用AI工具生成我奶奶的虚拟数字人”的视频,他尝试用AI+照片、音频来生成已故奶奶的数字人,并与之进行虚拟对话。 前两年韩国 MBC 电视台在出品大型 VR 纪录片《见到你了》中,利用VR技术复活了7岁小女孩。 图源:网络 通过AI语音合成技术,提取小女孩生前影像音频。同时找来5个同龄的孩子录制上百条音频作为补充,最终复原成功小女孩的声音。再结合3D建模,动作捕捉等技术抓取三维坐标数据,初步还原小女孩外形。相关阅读:《VR 扫墓,数字永生,技术正在重新定义“生命”》 在现实中不可能做到的“复活”和“永生”,却能通过技术得以实现,这类视频引发了网友们对AI、生命、侵权、感情、寄托、人性和伦理道德的思考和讨论,展现不同人对数字生命的理解。 AI数字人在直播领域悄然生长 在元宇宙中数字人已经是有着较为成熟体系的领域,从技术到实际落地再到商业化,如今虚拟偶像、虚拟演唱会等垂直场景大行其道,而数字人直播已不是新鲜事。 图源:IDC 在数字人商业化的道路中,无论是主打陪伴的娱乐型数字人还是以电商带货为主的功能服务型数字人,AI数字人在直播中的应用率正逐渐提高,然而现阶段的数字人直播,绝大多数情况下,包括外形设计、配音、互动等都仍需要人类进行干预,AI只能实现一些简单的交互。 在海外已有基于ChatGPT+VRM(3D模型)+VOICEVOX(文本转语音软件)创建聊天型人工智能的案例。例如OshaberiAI,这是一款允许用户创建养成型角色并与之聊天的应用程序,通过设计对ChatGPT的提示(指令),为数字人设定各种个性和语气,与用户进行简单的聊天交互。 图源:推特 目前该应用已上线AppStore,此前该开发者也在AR+数字人导航方面做了一些尝试,推出了“ARCharaNavi”,用户在应用中设定好目的地之后,数字人会根据选择好的路线在屏幕中的路线前方带领用户前行。 而AI数字人的强大胜在可控性高,模式可复制,能7×24小时保持在线,在直播领域成了不少电商品牌的“新欢”。 中国互联网络信息中心日前发布的第51次《中国互联网络发展状况统计报告》显示,截至2022年12月,中国网民规模达10.67亿,短视频用户规模达10.12亿,短视频用户渗透率高达94.8%,而网络直播用户规模达7.51亿。 有了庞大的直播受众,投身于电商直播的AI数字人表现如何?成本低是品牌方选用数字人进行直播的一大因素,某品牌直播间售价和数字人服务定价,粗略计算后日均花费大约在600元左右,相比于聘请真人主播,能大幅减少支出成本。 目前在电商直播领域,AI数字人通常在夜间至凌晨直播,弥补真人主播休息期间的空缺,尽可能获取更多闲时流量。现阶段用户可以通过关键词触发与数字人关于商品的交互,要让AI数字人执行更细致的指令和互动还有一定难度。 图源:抖音网页版截图 而在短视频平台,已有不少AI数字人尝新开设全天无休的直播间,实际上这类重复相似对话内容的直播间热度并不高,如果有明星IP加入,则会带来更显著的引流效果。例如乐华七子的黄新淳,基于他本人的形象设计了数字人分身,结合AI算法来控制数字人的动作和表情,还能正常与粉丝进行互动。 AI数字人在视觉效果和语音上越发真实,也就意味着人们将更加难以辨别真人与“数字人”,且绝大部分人是第一次接触AIGC内容,为了避免更多的AI内容对观众造成误解,不少视频平台发布了相关平台规范。 抖音APP官方公众号于近期发布《抖音关于人工智能生成内容的平台规范暨行业倡议》一文,指出“各生成式人工智能技术的提供者,均应对生成内容进行显著标识,以便公众判断。同时使用统一的人工智能生成内容数据标准或元数据标准,便于其他内容平台进行识别。” 图源:抖音APP官方公众号 就连海外知名插画平台Fanbox的运营商PixivFANBOX,也宣布禁止上传和销售使用Midjourney 、Stable Diffusion等AI艺术工具生成的插图,将对发布由AI创作作品的账号采取措施,如发出警告、限制可见范围、封禁账号等。未来将会有更多平台自发加入规范AIGC内容的阵营中。 AI数字人在直播领域,尤其是电商板块的落地进程加快,其变现能力强、操作门槛低(不少平台推出无代码方案)、降本增效显著等优势迎合了品牌方对数字化电商直播的需求。同时,部分头部电商直播MCN也能凭借自身在IP运营管理、平台流量资源、品牌方资源的积累,尝试从真人直播转向数字人直播,提高闲时阶段的收益。现阶段的AI数字人仍有非常大的发展空间。 结语 在元宇宙盛行的时期,数字人还只是人们眼中的“流量明星”,背后又牵扯到高成本的动捕和中之人运营,普通人几乎难以企及。虽然现阶段的AI数字人仍然未达到能跟真人“抢饭碗”的能力,但成长迅速的AI正在加速数字人走向大众的进程,而ChatGPT则是AI数字人最佳的接入口之一,为数字人的人机交互功能带来更多落地应用机会。 来源:金色财经
lg
...
金色财经
2023-05-18
博汇科技:继续深入在生成式AI领域相关前沿技术研究
go
lg
...
基础上,继续深入在自然语言生成、图像/
视频生成
以及数字人智能驱动等生成式AI领域相关前沿技术研究,探索通用人工智能在传媒安全、智慧教育、智能显控领域的应用。 本条资讯来源界面有连云,内容与数据仅供参考,不构成投资建议。AI技术战略提供为有连云。
lg
...
有连云
2023-05-18
行业洞察 | 万字长文讲透数字人与生成式AI未来的创造力和机遇
go
lg
...
GI领域的几个主要方向,包括文案和图像
视频生成
、个性化交互及自主规划型AI大脑等。 基团队的多模态AIGC与互动技术,元分身平台可以打造媲美真人的AI数智人,应用于视频合成、直播、互动等场景,为客户提供数智人定制、视频制作服务平台、直播服务平台、个性化交互等服务。其中,视频创作及合成应用适合教育、医学、科技、金融、企事业等泛内容传播,直播应用适用于本地生活商家、品牌店铺、私域24小时直播门店等场景,而交互数字人则适用于售前售后客服和专家型咨询陪伴等场景。 创想数维 与其他几家不同的是,创想数维目前正在开发的是XR技术(扩展现实技术)。与传统技术如绿幕相比,XR技术在画面效果和操作便利性等方面具有更大的优势。创想数维CEO吴未的目标是将XR技术小型化并推广到其他数字内容生产领域,例如企业活动、综艺、直播和短视频等,让更多人受益。 创想数维的核心技术特点包括:首先,具备优秀的自出研发和生产硬件设备的能力,且成本相对较低;其次,拥有一个核心的、平台级别的软件,包括渲染服务器和软件,这也是创想数维技术的一个核心组成部分。除此之外,创想数维正在开发利用AIGC技术快速生成3D场景和动画等算法和工具。 宙予科技 宙予科技是生成式AI驱动的空间化电商全案服务商。去年宙予科技开发了618京东元宇宙电商项目。作为全球首个元宇宙电商项目,在转化率等核心指标,达到传统电商十倍之多,实现了3D互联网场景营销转化效果的重大突破。目前宙予科技正在进行5000万人民币或等值美元的A轮融资。创始人朱峰是北京大学本硕,从物理转修电影导演/文化产业。宙予合伙人团队由四位相识20年的发小组成,是北京四中、北京大学的高中/大学/硕博士同年级同学,包括两位电商老兵和两位元宇宙渲染引擎专家,是空间化元宇宙电商创业的最优搭配。 “AIGC”全称为“Artificial Inteligence Generated Content 人工智能生成内容”,中国信通院发布的《人工智能生成内容(AIGC)白皮书》认为,目前关于 AIGC 的概念并没有统一界定,国内产学研界的理解是“继专业生成内容(Professional Generated Content,PGC)和用户生成内容(User Generated Content UGC)之后,利用人工智能技术自动生成内容的新型生产方式”。维基百科给出的解释则是“人工智能合成媒体(AI-generated Media 或 Synthetic Media)”,指“通过人工智能算法对数据或媒体进行生产、操控和修改的统称”。 03 数字人在商业领域的崛起 随着数字人技术的不断成熟,国内数字人厂商也都积极探索商业化应用场景,而且都有不错表现。本章节我们将为大家介绍数字人的主流应用场景、主要落地行业、C端用户变现场景。 1、数字人的三种主流应用场景 目前数字人主要有三大应用场景。 第一个是围绕类流媒体的播报场景。这类场景的人员播讲内容和模式通常都比较固定,不需要太复杂的情感演绎,因此这类重复的劳动力很容易用AIGC的方式来代替。倒映有声创始人兼CEO肖朔介绍,他们已经在融媒体新闻播报、教育培训、医疗科普、金融、泛娱乐等场景成功应用数字人。 第二类是对时效性要求比较高的,比如过往一些行业的视频节目内容从完成初稿到节目播出可能需要至少花5-6个小时,期间还要经历审核校对等多个复杂流程,并且人力在这个过程中也有很多不可为的点,必须一个新闻主播,每天最多可能只能录10-20条。 依托倒映有声的融媒体AI数字人技术解决方案,只需10分钟有效音画数据采集,就可以打造1个主播的AI数字分身。在倒映有声旗下的数字分身内容创作平台上,只需要输入文字,就可以一键生成音频和视频。AI主播/AI数字人可以24小时不间断进行内容生产和播报。这也数字人的一个极具代表性的应用场景。 拓元智慧的数字人除了可以还原主播真人的外形、表情、动作和声音,还支持多语种功能。无论在视觉效果或是语音语调上,拓元智慧数字人已具有超过95%的拟真度,整体表现与真人无异甚至超越真人主播。真正实现一个运营顶一个团队,孵化并管理多个IP,极大地降低制作成本,10倍以上提高效率。 第三种是短视频、直播带货这样的娱乐场景。数字人能为小B或者大C类用户提供低成本的代替他们的人工在长尾的时间段去进行内容的持续化输出。拓元智慧数字人直播产品,可以随时代替真人主播出镜,通过AI自动编排话术模块,搭载智能对话问答系统,实现7*24小时直播,轻松获得闲时流量收益。 2、数字人的主要落地行业 元境科技创始人王智武表示数字人在以下几大赛道有天然优势。第一个是直播。比如在娱乐直播方面,娱乐直播通常需要主播具备很多的才艺,而生成式AI技术应用到数字人后,数字人相当于自带才艺了,并且AIGC技术还在不断迭代,生数据的效果越来越好,在这方面会很有潜力。 另一点就是虚拟人数字人可以24小时不间断直播、和个性化定制,能够聚焦更多人群,同时可以通过技术手段进行批量生产,横向和纵向扩展性很强,现在很多企业和团队就在应用我们的元享平台的智播模块进行直播,效果很不错,并且虚拟人数字人的直播模式是批量可复制的,因此一旦能成功,便会给企业降本增效带来很明显的变化。而且这个赛道的核心竞争优势不是技术,而是对业务和场景的编排能力。 第二个赛道是AI虚拟人教育。目前很多高校都有在这方面加强投入的意愿。以元境科技目前己上线的“元趣”产品为例,它可以基于真人图像深度学习然后生成2.5D虚拟人,然后只需要输入文本或者生成文本,它就能够按照文本开始说话,而且不需要真人去驱动。这个技术更可以规模化应用在老师教学场景中。 第三个赛道是文旅行业。全国各地的旅游景点围绕智慧导游、智慧伴游、数字博物馆等场景都有很强的需求。元境科技也在加紧这方面的布局。 此外还有律所、保险和To G行业也有大量需求。目前元境科技已经在教育、文旅行业,还有跟一些大的消费品牌、新能源汽车等都有成功落地经验。 创想数维CEO吴未告诉非凡产研,除了文旅行业,创想数维还跟MCN机构和一些agency共同有很多应用和探索。而且体验过的客户都反馈很好,能有效降低他们制作内容的时间和预算成本。 宙予科技将自己定位成“帮助电商平台和消费品牌迈入元宇宙的基础服务商”,宙予科技创始人朱峰认为,品牌不一定需要元宇宙,但一定需要流量,而元宇宙能够为品牌带来新的流量。而电商平台里本身就有很多流量。因此宙予科技的打法非常独特,他们把元宇宙直接放进流量核心,也就是电商APP里面。以此为基点,形成“人”“货”“场”三方面的服务。 宙予科技打造的24小时AI虚拟主播,一方面可以很好地进行产品的介绍,另一方面可以回答消费者的问题,未来虚拟主播的能量可以在“场”里面得到进一步的释放。 拓元智慧总经理黄伟鹏则表示,除了新闻资讯类和医学、教育、财会等泛知识类博主,企业售前售后服务、本地生活等领域也需要AI数字人的加持。拓元智慧从数智人视频到直播的一站式创作,直击传统视频和直播中效率低、成本高等痛点,让内容创作者专注脚本创作及营销策略优化,帮助个人和商家构建全新的数智化运营模式,通过数字人 大众化解放生产力。 3、数字人的C端用户变现场景 除了服务B端客户之外,倒映有声和元境科技还都有面向C端用户的产品和服务。 对于同样有制作数字人需求的C端用户,倒映有声提供了一个数字分身内容创作平台,平台上拥有丰富的通用型服务型数字人来支持C端用户制作数字人。 元境可以则分别有“元享”和“元趣”两个C端产品版本,分别是3D和2D产品形态。并且“元享”即是平台又是产品,将来还会为C端开放免费捏脸系统。“元趣”目前以小程序为主,主要是一款针对方便转播的2C用户的免费应用。 创想数维也计划推出一些针对C端用户的产品和解决方案。例如快速从2D草图生成3D场景,全面实现剪辑、调色和灯光等方面的 AI 自动化,从而完全摆脱中之人或人为操作。 04 生成式AI技术让数字人“活”起来 数字人虽然已经诞生了很长时间,但其长期以来被吐槽最多的就是大部分数字人都过于呆板,除了表情和姿势过于僵硬之外,还完全没法与用户个性化,甚至实时互动。一项数据表明,人和人之间55%的交流靠肢体语言,38%靠语调,只有7%是靠语言。因此数字人的互动能力对提升用户体验非常重要。而随着生成式AI(Generative AI)技术的爆发,将会很好的赋能数字人,极大提升数字人的生动力。 1、生成式AI技术是提升数字人交互能力的拐点 一知智能CTO李一夫认为生成式AI技术是提示数字人交互能力的一个重要技术拐点。但目前面临的主要问题在于生成式AI通过大模型形成答案的速度还比较慢,而交互场景对于实时性的速度要求又非常高,所以当前生成式AI还不能直接运用到数字人的交互上,这个也是未来需要大模型去解决的问题之一。目前一知智能在产品上也在研究如何提高接入大模型以及生成式AI的能力,大模型如果能在响应速度上得到飞跃的提升,那数字人的发展将会迎来很大进步。 元境科技创始人王智武认为,目前行业内的一些数字人交互能力还不够强主要有以下几个原因,首先因为语料库特别少,比如在10个人同时提问一个问题的场景中,AI产出的答案永远只有一个,这样给人的感觉就是新鲜感特别低,我们也是通过自建语料库去改善重复度高的这个问题。 其次,在智能问答的应用场景中,数字人的表情、神态、动作都比较僵硬,给人很假的感觉。 第三,在声音选择上,虚拟人之前是没有办法去模拟情绪的。元境在这块下了很大的研发力度,请很多的专家和大牛组成技术团队,攻克数字人交互中的核心难点,通过AIGC和预训练大模型以及庞大的动作数据库才实现了近乎真人的交互表现效果。 如果今后其他团队和公司想要提升数字人交互能力,可以尝试自建语料库和在大模型、AIGC这块下功夫,实现百分之90的相似度是可以做到的,攻坚到百分之百的相似度是行业内所有人的共同目标。 随着生成式AI技术的进步,尤其有了ChatGPT这样的语言大模型,就能支撑数字人的回答变得多样性且具备拟人语气。另外生成式AI技术也将会让数字人在声音训练、表情模拟以及情绪表达上有很大的飞跃。比如过去以文本驱动虚拟人嘴型的模式会让发声显得僵硬,而现在要驱动虚拟人很好表达情绪的话,则是会用audio2face技术用声音驱动唇形及面部表情,通过情绪的判断及传递实现虚拟人的情绪表达,虚拟人也因此给人感觉更逼真。 2、生成式AI技术如何赋能数字人 拓元智慧联合创始人黄伟鹏介绍,目前元分身平台的数字人已经可以通过AIGC技术在短视频、直播和一对一服务等场景中直接生成,并且可以与用户进行智能互动。例如,在直播中,可以解析用户的弹幕内容并直接回答他们的问题。在短视频创作中,设有AI文案功能,帮助运营者生成文案或改写文案,极大减轻视频工作者的创作压力。 同时,在互动客服、业务引导等方面,元分身也可以实现实时的一对一驱动,将ASR转化为NLP,进而生成答案并合成语音,在前端输出时还可以进行面部表情、手势等交互操作。通过这些技术优化,可以明显提示数字人的交互能力。 创想数维CEO吴未表示数字人制作流程一般包括设计、建模制作、驱动和运营环节。在这个流程中,就可以应用大量的人工智能算法和模型,来加快速度。同时,生成式AI也能使数字人的响应更加智能化,更符合人类特性。举例来说,以前数字人驱动一般需要构建知识图谱,然后将其制作成语音库和动作库,只能回答知识图谱范围内的问题。但有了大语言模型,只需要组合其他组件,如文字转语音、语音转动作、表情库和动作库,就能生成一个可以响应任何问题的智能化AI驱动程序。因此,我们可以像搭乐高积木一样,将各种人工智能组件拼接起来,以更低的成本获得更好的数字人驱动效果。 宙予科技创始人朱峰表示数字人的交互一般指的是视觉、听觉和触觉三方面。这三个方面目前都有不同的公司在做。而触觉的提升还属于超早期的阶段,现阶段暂时还没有已经能够落地的方案出来。在视、听觉这两块,已经有很大进展。尤其在听觉方面,小冰、科大讯飞,阿里等企业都在努力克服TTS(Text To Speech)生成的语言的连贯性和情绪问题。 目前数字人已经都能很流畅平静的表达,但在声音的抑扬顿挫,音量变化方面仍然有很大提升空间。尤其是人类的情绪变化很多变,语言常常很难准确表达,如何精确培训数字人具备这一敏感度,将会有很大挑战。 再说图像领域,目前一个趋势是传统计算机图形学的动摇甚至消亡。原来的计算机图形图像学指的是mesh和texture的体系,就是每一个电脑动画要先建出来模型,模型上面有蒙皮,然后两个东西加在一起才有了传统的模型。后来有了神经网络辐射场(Nerf),然后通过Nerf去做三维空间,从点、云和三角片状的一些非常零散的呈现面,去表现一个非常真实的立体空间的折射反射现象。它虽然和以往的三维模型加材质工作流不完全兼容,但在UE里面已经实现将Nerf模型直接放入传统工作流形成的环境中直接渲染的案例了,不做动画的话,效果甚至不错。 所以最近的一个技术热点就是把Nerf本身的呈现方式还原成点云,然后再进一步地还原成传统的mesh和texture去和它兼容,试着做动画的打通。这还是对于以往的流程的一种改良。但是目前通过prompt就能实现文生图的技术,对于传统流程非常大的颠覆性,意味着几毫秒就能实时生成一堆图。在现在 AGI技术大流行的前提之下,将来整个传统三维的实时渲染工作流将可能全部被革新,这是未来的虚拟人可以走的三条路。 2、生成式AI将带来数字人的交互场景创新 一旦数字人的交互能力有很大进步之后,将会为下面几个场景的用户体验带来很大的提升。 倒映有声创始人兼CEO肖朔认为,数字人交互能力落地后首先带来改变的就是,可以解决游戏场景中NPC角色配音问题,以及让NPC拥有更丰富的互动能力,产生不一样的文本响应,尤其对于一些养成类游戏的用户体验的提高将会带来很大帮助。 第二类是对短视频领域的AI直播带货场景将会有很大优化。现在的AI数字人直播技术依然有很明显的缺陷,比如说虚拟主播手上不能拿商品,而且没有真人主播那么及时的响应速度,所以目前虚拟主播还很难替代真人。但如果虚拟主播的交互能力得到很大提升之后,再加上虚拟主播可以24小时在线,这将会为直播带货行业带来革命性变化。 第三种是对一些功能性场景的体验和能力优化。比如AI老师,AI券商分析师早期可能只能单纯地做内容输出,后面交互技术提升了就能接入比如实时问答系统,可以及时回答用户的专业问题。后面他会接上一些。我们其实是叫做问答系统。 但目前整个的渲染技术,包括虚拟人的形象等还需要再去提升,因为客户端的体验非常重要。在做交互之前,第一步要先要把画面呈现达到一定水平,再结合交互,这样才能够真正产生商业化的价值。尤其大品牌会要求虚拟人跟自己的品牌形象和品牌调性高度契合,所以对此要求会比较高。 05 国内数字人和生成式AI技术的发展现状和机遇 国内外在数字人和生成式AI技术领域内的差异显而易见,只有正视自身短处,才能找到前进动力和方向。采访嘉宾们也分别为我们介绍了目前国内在技术、商业化方面的短板在哪里。 1、数字人要克服的挑战和难点 倒映有声创始人兼CEO肖朔认为,数字人的技术离天花板尚有很远的距离,虽然大家要面临很多挑战,但也意味着大量的创业公司依然有很多机会窗口。他说,以3D数字人和2D数字人两种技术解决方案为例, 3D数字人的技术能够做到很高端精细的效果,但是财务成本、时间成本、人力成本都很高,那么,破局之道就是解决成本问题。而对于同倒映有声一样深耕 2D 数字人技术解决方案的公司来说,核心竞争力则是要在人物动作的复杂度上不断加强,更拟真、更细化、更交互、更有情感,以及模态的更深融合,都是需要进一步投入研发的。 创想数维CEO吴未认为国内数字人技术面临以下几大挑战。首先,国内企业需要跟上研发的节奏,因为现在很多核心组件都需要在国外厂商那里投入资源去研发。国内的替代速度相对较慢,所以行业需要更好、更便宜的组成部件来降低整体解决方案的成本,同时周边生态也要能跟上。 其次,需要降低流量和算力成本。这对于行业的扩张非常重要。如果有大公司愿意牵头,建立流量和算力平台,将有助于其他内容创意者和创意团队更好地拓展业务。最后,客户了解和认识新技术的速度和影响力也都需要加强,这些新技术能为因为数字内容创意行业提供有效的生产力。但距离尽快普及还有很长的客户教育之路要走。 2、国内生成式AI技术的挑战和难点 1)商业模式层面 一知智能CTO李一夫认为,国内的生成式AI在技术方面很多还是依赖GPT、diffusion等API或开源框架。在商业化方面,整个生成式AI中,大模型可分为“底层”跟“应用层”两层,其中“底层”又包含大模型的“模型层”等,而目前底层模型仍存在非常大的难点需要去攻克,因此关于商业化的讨论我们更多的都是针对应用层的公司。 拓元智慧联创兼元分身平台总经理黄伟鹏表示,这两年处于AI技术发展的拐点,去年11月到现在,全球已经公布总计超过20个大模型产品,让科技圈都看到了希望,除了前期需要大量的创新实践,去探索前沿技术的商业可行性,资金支持也是必不可少的。 目前国内应用层的创业者公司主要有下面两类,一种是自身有一定技术背景,然后依赖国外厂商API的公司,他们在垂直化模型研发的过程中,可能遇到的挑战是大模型开放API后,固有技术壁垒的竞争优势会受到影响,同时也会面临训练成本高的问题。另外一种企业可能原来是在做SaaS工具且具备业务know-how的公司,他们会在原有的产品上叠加AIGC的能力,但由于缺乏自主研发的基因,因此即便预算足够聘请算法工程师,但在对生成式AI的理解以及产品的落地方面往往会受限,这类厂商对商业化以及大厂提供生成式AI的依赖度较高,而部分连业务knowhow也缺乏的公司,更是面临很高的创业成本。 2)技术层面 拓元智慧联创兼元分身平台总经理黄伟鹏表示,最大的挑战是在数据量和算力上。在数据量上,优质的专门数据和资金支持研发,两者缺一不可。而在算力上,像A100大算力显卡供应,在国内仍处于卡脖子状态,所以国内的AIGC技术会和海外研发造成一定的差距。 创想数维CEO吴未认为,首先,发展生成式AI技术的必要条件之一就是要有优质的数据,而不是简单的数据。然而,国内很缺乏优质的结构化数据,这是我们面临的首要挑战之一。其次,发展AI技术需要长期投入研发资金,这可能需要5-10年的时间,而且在此之前很大概率并不赚钱。中国资本、政策以及企业家是否有足够的定力看到这一点,并认识到其发展的必要性将是很大的考验。 元境科技创始人王智武强调,国内的整个数据壁垒比较高,而且在国内的整个的大环境下,受开发环境及政策的影响,数据的共享很难实现,高质量的数据也难以获取。相比之下,国外的开发端口比较丰富,高质量数据的获取也相对便捷。第三个问题是国外的开源社区很多,国内的开源社区特别少。第四个问题在算力方面,国内算力受限比较严重,一方面在硬件比如显卡,国内外显卡性能差距较大,另一方面在人才,国外在这方面的人才相对较多,相比之下国内相对匮乏且仅在大厂商内,这些综合因素都造成了国内目前在AI领域相对落后等一些问题。 3)人才层面 行业人才缺乏甚至断档也是目前整个行业面临的一大难题。虽然这个赛道今年才开始爆火,但其实已经存在了十多年,只不过一直都处于比较边缘地带。因此人才梯度有严重缺失,会造成短期一两年内人才断档。再加上大企业招人更有优势,因此这对独立厂商搭建团队将会带来一定影响。 3、国内外行业生态差距对比 对于国内外差距对比,倒映有声创始人兼CEO肖朔概括了三个值得关注的现象。 首先,是否有健全的开源生态。鉴于海内外迥然不同的竞争格局和商业模式,国外开源生态更利于新兴企业的技术崛起。 其次,是否有付费习惯和付费能力。海外商业环境下,即使一家AI创业公司只做了一个简单的模块,依然可以产生盈利,但是国内却很难,会快速地陷入到“价格战”的竞争环境中,所以国内AI创业企业的生存难度远高于国外。 第三,是否实现工具化的应用。从技术角度来说,海外目前是全面开花,工具化应用也落地更显著。比如,基于GPT的Jasper.ai,NotionAI的营销软件、基于语音识别的Descript等,都已经走出了成熟的商业模式。 宙予科技创始人朱峰表示,目前国际上图形学的生成式AI技术的顶峰是生成3D模型,但目前国内外都还没有好的解决方案,依然在尝试通过数据集把生成式3D模型能训练出来。而且这需要投入大量的金钱和人力成本。目前已经成熟的技术里,StableDiffusion是开源的,而Midjourney是闭源的,并且Midjourney对于图像的生成已经到了能生成非常精致的图片的程度,尤其第五代版本是以超写实的,照片级的合成为主方向发展的。但是国内的技术能力还达不到这个程度,目前顶多在第四代水平。大语言模型体现出了“涌现能力”的特征,这是一种“追赶效应”的体现,领先者进化的速度和加速度都会大于落后者。现实世界里差半年时间,在人工智能的世界里可能意味着差十年,要想跟上对方步伐真的很困难。所以在这个前提之下,国内的AI图形生成技术相比海外差距还是蛮大的。 在其他领域,比如交互领域商业化有一个非常大的难题,就是厂商对于生成答案的控制和审核的要求,国内外各有侧重。汉语比较难的地方在于其本身的高维度语义呈现,可以隐藏在卷曲的语义里面。这就对每一个公司的审核能力要求很高。如果某一家公司的审核能力不够强,其他公司调用了他们的接口,那么就很难界定责任方。这意味着国内做生成式AI的公司在商业化过程中要遇到一个重要挑战,就是要为自己说的话负责,但这个负责该如何体现,奖惩机制如何平衡等都将是很大的难题。 06 生成式AI技术何时走向成熟和规模化应用 元境科技创始人王智武认为生成式AI还有很长的路要走。目前的ChatGPT3.5甚至4相对来说仍只处于10%- 20%的一个基础阶段,因为未来的世界不仅仅是文本,一定是多模态,这意味着未来的生成式人工智能需要能够处理多种数据类型,例如图像、音频、视频等,成为各种各样的形式互相穿插的技术形态。因此虽然前期会有爆发式的增长,但后面需要落实到技术沉淀中,相对增长也会变得缓慢,但越缓慢代表越来越成熟。 另外,随着AI技术的不断发展,虽然一些传统的岗位可能会被淘汰,但同时又会催生出很多元宇宙中的岗位。在元宇宙的世界里面,比如基础的程序员会被淘汰,但可能会催生出比如调试员、调优员之类的岗位,除此之外,还会衍生出元宇宙设计师、建筑师、VR/AR工程师等职业,就业种类也许会变得更多。所以我们需要更加积极地适应这种变化,发展和运用技术。另外在基础的一些文本生成方面,文案策划、新媒体运营这样的岗位不一定会被代替,但生产模式可能会随着AI技术而升级。还有就是中之人、演员行业,也会随着AI替换技术的成熟发生很大变化,比如在元宇宙世界中进行表演,将会让艺术变得更加天马行空,想象力会被彻底释放。 拓元智慧联合创始人黄伟鹏表示,中国有数以千万计的中小型商家,在直播带货的投入预算上相对有限,且能带动直播及营销效果的主播也比较稀缺,导致供需出现了严重的失衡和脱钩现象。在这种情况下,数字人、AIGC的相关应用在直播行业是非常有前景的。区别于传统真人直播、3D虚拟人直播方案,元分身平台打造了具有互动体验更真实、性价比更高、使用门槛更低、业务搭建更快捷等优势的数智人直播方案。在团队自研的多模态AIGC及互动平台的技术加持下,具备“真人形象和声音+动作多变灵动+自动问答、智能互动”能力的AI数智人主播,对比真人直播GMV超3倍,有效帮助企业打造可靠的7x24小时的超级直播间。 宙予科技创始人朱峰的观点是,以ChatGPT为代表的生成式AI技术,大都正在经历落地化应用前的最后一站,有了每一个行业准确的知识再进行进一步的优化之后,插件就会变得越来越多。Plugin Store也就即将是未来的App Store,随着这个应用商店的不断成熟,未来还会涌现出更多的基于AI的APP,这将是下一个时代的真实的落地应用的一个大前提,带来的变革和影响会是非常剧烈的。 创想数维CEO吴未认为,随着生成式AI技术的不断成熟,在3到5年内,单个岗位的工作效率可能会提高5到10倍。这是第四次工业革命的开始,从今年开始就是生成式AI的时代,它将先从以服务类、文娱、内容产业为主的第三产业开始普及。当AIGC真正深入到企业的生产环节中,企业的人均产值会大幅提升。作为企业家,一定要有清醒的认识,未来可能会出现竞争对手,他们的人均产值是你的3倍甚至5倍。如果不能跟上这个趋势,就会被淘汰。因此,现在就要开始补充这个领域的知识,全员都需要了解如何利用AI来提高公司的生产效率。 本文经非凡产研授权发布 风险提示:界面有连云呈现的所有信息仅作为参考,不构成投资建议,一切投资操作信息不能作为投资依据。投资有风险,入市需谨慎!
lg
...
有连云
2023-05-09
上一页
1
•••
39
40
41
42
43
44
下一页
24小时热点
中美经贸谈判突传重磅消息、特朗普放“王炸”预告!金价惊人暴跌近60美元
lg
...
特朗普突传中美关税“全面重启”!美国总统顾问:最终结果可能出乎意料……
lg
...
更多细节来了!中美日内瓦经贸会谈联合声明出炉,港股暴拉黄金急跌
lg
...
中美下调关税115%:全面贸易战或已避免!黄金暴跌超100美元 分析师点评来了
lg
...
中美关税重磅消息引发黄金新一轮暴跌!金价崩跌近80美元 黄金最新交易分析
lg
...
最新话题
更多
#Web3项目情报站#
lg
...
6讨论
#SFFE2030--FX168“可持续发展金融企业”评选#
lg
...
32讨论
#链上风云#
lg
...
97讨论
#VIP会员尊享#
lg
...
1949讨论
#CES 2025国际消费电子展#
lg
...
21讨论