必威北京时间周四凌晨,Google突然在官网更新Gemini视频——画面分为左右两半,左边的镜头对着一张白纸,一位Google的研究员在纸上画着漫画,右边镜头里则是Gemini驱动的机器人在实时根据作画内容生成对话:「我看到你画了一条波浪线」「第二条线很平衡」「它看起来像一只鸟」「这只鸟在游泳,它有长脖子……它是一种鸭子」。
Gemini的演示视频迅速在各个社交媒体上传播开来,人们对此不吝溢美之词。因为之前还没有哪个大模型能够以如此快速和准确的方式去分析视频内容,哪怕是目前最先进的GPT-4V(ision)也只能分析静态的图片。不过,很快就有专业人士指出Gemini的视频过于完美,存在造假的嫌疑;最终,Google团队回应表示Gemini是对着静止的图像作答,视频只是个噱头。
其实就在本周一,还有传言称Gemini的发布会将因为模型可靠性得不到保障而推迟到2024年年初发,但Google已经没有再延后下去的余裕了。就在年初ChatGPT的竞品Bard出师不利时,很多人还认为这只是短暂的落后,Google将会很快追上OpenAI。但当下半年OpenAI不断迭代GPT-4并落地各种应用产品,而Google的基础模型迟迟没有新消息,Gemini的仓促发布也就势在必行。Google此次先推出了Gemini的低配版本Nano和Pro,对标GPT-4的高配版本Ultra将在明年年初上线。
每家技术公司都知道,截至目前,生成式AI领域竞争的关键点还是集中在大模型的能力上。微软、Google、Meta甚至亚马逊都马不停蹄地将大模型植入到各种产品中,以丰富应用的功能、提升用户的体验,例如Meta让AI角色拥有记忆能力来提升交互体验,而微软明年也要将生成式AI带到Windows底层去提升操作系统能力。但这些都只能起到锦上添花的作用,当用户遇到一个理解力更强、逻辑清晰、反应敏捷的产品时,他们会作出什么样的选择是显而易见的,因为模型强大的能力本身就带来了最好的功能和体验。
不过,模型继续开发与AI安全的纠葛也还在继续,OpenAI在11月掀起的人事风波本周仍激起一些回响。导致Sam Altman被董事会解雇的「元凶」Helen Toner接受了《华尔街日报》的访谈,她坚持认为自己的行为是在守护OpenAI的创立原则:增进人类福祉,而非资本家的余额。但从结果来看,资本主义与商业化的车轮滚滚前行,在飘渺的安全与迫切的追赶间,Google毫不犹豫地选择了后者。
就在本周末,X平台上有人爆料,2023年年终的大模型发布竞赛还没有结束,无论是GPT-4.5还是Claude的新版本,都可能会在年前推出。
OpenAI推迟发布GPT商店,并可能在2024年采购非英伟达的AI芯片;
当地时间12月6日,Google宣布Gemini 1.0版正式上线月开发者大会上承诺的多模态模型——这是Google商用化的第一个多模态模型,对标OpenAI今年3月发布的GPT-4。
一个模型有3个版本,分别对标GPT-3.5、GPT-4,还有一款适用于移动设备
具体来说,Gemini 1.0提供了3种尺寸的模型:Ultra、Pro和Nano,使其可以在从数据中心到移动设备的任何设备上运行。
· Gemini Ultra ——规模最大、功能最强,适用于高度复杂的任务,在数据中心运行,对标GPT-4;
Google称,在向公众发布前,Gemini Pro已经通过了一系列行业标准基准测试,在8个基准测试中的6个测试中,Gemini Pro的表现优于GPT-3.5;而Gemini Ultra在广泛使用的基准测试中优于GPT-4,这些基准测试包括阅读理解、代码生成和视觉理解等功能。
3个版本中,Gemini Pro版在发布会当天就已上线到Google的部分内部应用中,外部开发者要使用该模型需要等到下周,他们此刻可以访问的只有最小版本的Gemini Nano。而最先进的Gemini Ultra要在2024年年初才会正式发布和上线。
Bard是Google今年3月发布的聊天机器人,对标OpenAI的ChatGPT,目前已经在170多个国家和地区提供服务。由于缺少先发优势,且背后模型的能力差异,Bard的用户量至今还远低于ChatGPT。通过接入Gemini Pro与不久后的Gemini Ultra,Brad至少在模型能力上追上了ChatGPT。目前,OpenAI对ChatGPT Plus用户每月收取20美元,未来,Google可能会对Bard Advanced采取类似政策。
·Pixel(智能手机):Google计划将3款模型中size最小的Gemini Nano加载到智能手机中。加载了该模型的手机将具备的功能包括:
总结:Gemini Nano可以为手机中的对话录音、采访、演示等内容生成总结摘要,哪怕没有网络连接,这项功能也可以离线完成,该功能目前仅支持英文文本;
·智能回复:Gemini Nano可以识别聊天过程中的朋友来信,并根据不同来信生成对应回复。该功能将首先登陆WhatsApp,并仅支持英文文本,明年推广至更多即时通讯应用;
·照片和视频的AI编辑:比如清洁功能,只需要在照片上滑动几下,即可消除图片中的污渍、折痕等。
Pixel 8 Pro将是首款搭载Gemini Nano的智能手机。有数量庞大的移动设备使用了Google旗下的Android系统,未来Google可能让Gemini进入其他厂商生产的Android设备,这样它就可以将生成式AI引入遍布全球的数十亿台移动设备。
·Google(搜索引擎):Gemini目前尚未在Google搜索引擎中上线,但公司已经在该领域测试Gemini。此前,Google已经使用其他模型上线和测试了将搜索和生成结合起来的「搜索生成服务」(Search Generative Experience,SGE)。
未来几个月,Gemini将应用于更多Google产品和服务,包括广告、Chrome浏览器和工作助手Duet AI。
12月5日,微软宣布Copilot的最新进展,将GPT(包括GPT-4 Turbo)、DALL·E 3等模型的几乎所有功能都搬进了Copilot,其知识库也更新至2023年4月,一次能处理的上下文长度达到128K。
· 在Edge浏览器使用Copilot重写短语:通过使用Edge浏览器里的「内嵌撰写与重写菜单」(Inline Compose with rewrite),人们可以选中网站上的文本并让Copilot重写。该功能很快会对所有Edge用户开放;
· 多模态搜索:搭载GPT-4的Copilot可以通过视觉识别模型分析图片,自动搜索关键信息。比如,用户上传照片到微软的聊天机器人,并就照片内容提出问题,可即刻获得回答。微软表示,不久后GPT-4的功能将与视觉识别、Bing图像搜索及网络搜索数据结合,以便帮助用户更好地查询;
· Bing的深度搜索:本次更新的深度搜索是使用GPT-4优化复杂话题的搜索结果。比如,当用户的搜索短语有好几种可能的含义,深度搜索会把这些可能性都展示出来,让用户选择最贴切的一个,接着它会进一步深入搜索,甚至重新组织原始查询结果,以获得最好的答案。该功能将很快在Bing上推出;
· 代码解释器:这是Copilot的一个新功能,支持用户执行更复杂的任务,比如更精确的计算、编程、数据分析、可视化、数学等。该功能目前仍在内测阶段,不久后将面向更多用户开放。
12月6日,就在Google发布多模态大模型Gemini不久,另一个OpenAI的追赶者Meta也宣布旗下一系列社交应用如Facebook、Instagram和WhatsApp的更新,主题就是让生成式AI更好地与这些产品结合起来。
在使用Meta账户登录后,Imagine允许用户通过用自然语言描述来创建AI图像。输入提示词后,它会生成4张1280×1280像素的图片,用户可以免费下载这些图片。不过每张图片左下角还会有一个小的「Imagined with AI」水印,这是为避免AI图片被滥用而采取的防护措施。Meta表示,在未来几周内新的AI图片还会被添加上透明水印,「以提高AI生成图像的透明度和可追溯性」。
Imagine产品是基于Meta现有的Emu图像生成模型构建的。为了训练该模型,Meta使用了11亿张公开的Facebook和Instagram图片数据,Meta也表示这种独一无二的训练数据使得Emu相比其他模型有着独特的优势。
随着公共领域可用于生成式AI训练的数据逐渐耗尽,Meta等社交公司拥有的大量用户生成内容(UGC)成了香饽饽,这也成为这些公司模型产品的卖点之一。例如马斯克的Grok就用了X平台的数据来训练,Google的Gemini训练中也使用了大量YouTube视频数据。
在这项功能中,群聊中的用户可以通过自然语言提示来重新创建AI图像。首先,用户需要群聊中调用Meta AI来生成图像,随后,群聊中的其他用户可以通过按住图像来增加新的语言描述。Meta AI就会根据用户的提示和修改从而生成全新的图像。
Reels嵌入在Instgram内的短视频产品。在此次的更新中,用户可以通过询问Meta AI来调用Reels,从而查看查询事物的可视化例子。例如在制定旅行计划时,用户可以在群聊中要求Meta AI推荐最佳游览地点,并分享这些热门景点和景点的相关视频,Meta AI就会调取符合要求的Reels视频。
Meta宣布,此前推出的一系列聊天机器人目前已在美国全面推出,用户可以WhatsApp、Messenger和Instagram和它们聊天。其中部分AI聊天机器人具有「长期记忆」的功能,能够在保留用户会话数据,并在下一次聊天时从上次中断的地方继续。此外,Meta也宣布,更多的角色将支持Bing搜索的功能,支持用户通过和聊天机器人的对话框搜索。
OpenAI推迟发布GPT商店,并可能在2024年采购非英伟达的AI芯片
12月2日,OpenAI向每个搭建过GPT的用户发送了一封邮件,原定于今年12月推出的GPT商店(GPT Store)将延后至明年年初上线月初的首届OpenAI开发者大会,当时OpenAI发布了GPT-4升级版GPT-4 Turbo、GPTs等。
OpenAI在这份面向开发者的内部备忘录中表示,「我们预计会在11月发布GPT商店,但一些意外事件让我们很忙碌」,这直接指向了11月中旬发生的「管理层动荡」。
11月16日,OpenAI董事会突然罢免CEO Sam Altman,之后一周公司都处于激烈动荡中。直到11月22日Sam Altman回归。11月29日,Sam Altman发布回归OpenAI后的首封公开信,也公布了新的董事会成员,为此次事件划上句号。新皮层整理过OpenAI「罢免Altman事件」的时间线。
据称Sam Altman激进的商业化战略是此次董事会罢免行动的导火索,而首届开发者大会上推出的GPT商店就是商业化中的一环。在计划中,GPT商店会是OpenAI开设的官方平台,开发者可以在这个平台上发行个人搭建的GPTs——例如上传各种菜谱资料就能构建一个「炒菜帮手」,并且收到来自ChatGPT Plus付费订阅费用的分成。
虽然OpenAI的官方GPT商店暂缓推出,开发者依然可以通过超链接分享个人搭建的GPTs。因此已经有很多第三方平台通过这种方式,精选了一些热门GPTs组成第三方GPT商店,只不过这些GPTs都是免费的,开发者也无法获得分成。
有报道称,2019年Sam Altman投资的芯片开发商Rain AI就与OpenAI签署了一份不具约束力的意向书。如果Rain AI公司开发的芯片产品上市,OpenAI计划斥资5100万美元购买这些芯片产品。有消息称,Rain AI的测试芯片最快本月流片,最早可能在2024年10月向客户提供首批芯片产品。
Rain AI成立于2017年,总部距离OpenAI旧金山总部不到1.6公里,目前拥有大约40名员工。这家初创公司的目标是开发一种AI专用芯片,相比GPU在训练和推理上功耗更低、性能更强,被称为神经网络处理器(NPU)。
Rain AI公司的初始芯片中采用开源芯片架构RISC-V。2021年,它推出了一款演示芯片,采用随机连接的忆阻器3D阵列,能以较低功耗完成神经网络训练和推理。相对的,商用芯片更多使用模拟内存处理器技术,该技术需要在网络层之间做数字转换,因而功耗更大。
截至目前,Rain AI公司总共融资超过3210万美元。Sam Altman投资Rain AI公司是在2018年,当时他通过创业加速器Y Combinator领投了Rain AI的种子轮融资,《连线》杂志获取的资料显示,Altman个人已向该公司投资了超过100万美元。除此以外,Rain AI的投资方还包括百度和硅谷风司Grep VC,后者于2022年接手了沙特阿美旗下的风险投资基金Prosperity7转让的股份。
11月底,彭博社援引信源消息称,Sam Altman正努力从中东投资者手里筹集资金,用于一个代号为「底格里斯河」(Tigris)的芯片项目,目标是与英伟达的AI芯片竞争。
该消息称Altman已与软银集团、沙特阿拉伯主权财富机构公共投资基金(PIF)、阿联酋第三大主权财富基金穆巴达拉投资公司等公司,就AI芯片、AI硬件等项目展开谈判,目标是寻求数百亿美元的资金。
12月6日,AMD宣布开始销售其最新的Instinct MI300系列芯片。这是MI300芯片自6月发布之后的又一大动作,意味着AMD的AI芯片开始正式向市场交付。
在计算能力方面,GPU通常适用于简单任务的大批量训练,AI训练普遍依赖GPU;而CPU适用于处理复杂任务,但较难承担大批量工作。将GPU和CPU结合,既利用了AMD自身在CPU上的传统优势,也提升了处理速度。
在MI300系列面世前,AI训练芯片领域几乎由英伟达一家垄断。英伟达11月发布了最新款的AI芯片H200,内存提升至141G,但GPU核心参数没有改变。在训练同样的Llama 2模型时表现仅比H100提升90%。
数据中心和AI模型训练都耗能巨大,因此AMD还在努力降低芯片的能耗,计划到2025年将能耗降低到2020年的1/30。MI300A芯片将CPU和GPU结合在一起的目的之一就是提高产品的能源利用效率,降低能耗。
目前已确认购买MI300的巨头包括微软和Meta。微软11月就在其云服务Azure上发布了使用MI300X的虚拟机产品。Meta也计划在其数据中心里使用MI300系列处理器。除了企业,美国Lawrence Livermore国家实验室的超级计算机El Captain也会使用MI300A芯片,该计算机预计明年完全投入使用,届时其性能可能会跃居全球第一。
技术公司如此积极地尝试AMD的AI芯片,背后的原因不难理解。过去一年生成式AI热潮导致AI芯片的需求在短期内急剧增长,但市面上可供使用的AI芯片却只有英伟达一家的。供需关系严重失衡之下,拥有充足的AI芯片成了竞争的关键要素,英伟达可以说是挟A100、H100以令群雄。当时微软、Meta、OpenAI等公司纷纷宣布要自研AI芯片。如今这些技术公司总算等来了它们的Plan B。
今日无问芯穹的注册资本由119万元增至约152万元,并且新增百度、腾讯、智谱3家股东。无问芯穹专注于大模型推理芯片的研发,提供大模型软硬一体的优化方案。
无问芯穹于今年5月成立,公司法人为曾书霖,2008年他本科毕业于清华大学电子工程系,博士师从清华大学电子工程系长聘教授、系主任汪玉。汪玉曾于2016年与学生姚颂共同创立芯片公司深鉴科技,该公司2018年被全球最大的FPGA厂商赛灵思收购,此次可以看作汪玉的二次创业。
近日,法国初创公司Mistral AI最新一轮的融资即将完成,预计会筹集到约4.5亿欧元(4.87亿美元)的资金。此轮融资完成之后,Mistral AI的估值将接近20亿美元。
本轮融资包括约3.3 亿欧元的股权投资,由风司a16z领投。该公司还在就追加投资2亿欧元与Mistral AI谈判。此外,主要的投资者还包括英伟达、Salesforce,双方将提供1.2亿欧元的可转换债券。作为交易的一部分,Mistral AI 的3位联合创始人同意分别出售超过100万欧元(指注册资本资金)的股权,还有另外3位内部人士也将同步出售股份必威。据知情人士透露,在最终融资结束之前,具体细节可能还会有所变动。
今年6月,Mistral AI在种子轮融资阶段通过释放了43%的股权筹集到1.05亿欧元,公司估值为2.4亿欧元(2.59亿美元),成为欧洲有史以来最大规模的种子轮融资。这笔投资由光速创投领投,多家欧洲投资方参与投资。
今年6月,Mistral发布产品规划,宣布将向企业提供更可靠、更安全的AI解决方案。根据公开的规划显示,Mistral计划只服务于企业用户,并开源基础模型,使用公开可用的数据来训练模型,以符合欧洲《人工智能法案》对AI公司的要求。
今年9月,Mistral发布了其首个大模型Mistral 7B。Mistral 7B拥有70亿参数,免费提供给开发者使用。该公司表示,Mistral 7B在处理和生成文本的速度比一些LLM快得多,并且运行成本明显降低。
12月6日,一份xAI提交给美国证券交易委员会的「表格D」(Form D)文件显示,马斯克的人工智能初创公司xAI正计划出售股权以换取总计10亿美元的资金。
表格D是美国证券交易委员会(SEC)要求提交的一种文件类型,它是根据《1933年证券法》规则506条款下的豁免要求而提交的,这种豁免允许公司向「合格投资者」出售未注册的证券。
当然,并非所有融资都需要提交表格D,例如注册地不在美国的公司,或者资金来源于特定类型的投资者,或者融资金额比较小等情况都不需要提交表格D。
xAI这份文件显示,这次融资的目标金额为10亿美元,于11月29日发起,单笔投资金额至少需要达到200万美元。目前已经从4位投资者那里筹集到约1.34亿美元的资金,意味着还需要大约8.65亿美元才能达到既定目标。
文件还显示,xAI公司注册在内华达州,但主要运营地点在加利福尼亚州。此次融资向加利福尼亚与德克萨斯两个州开放。
xAI在今年7月中旬成立,马斯克将其定位为一家人工智能公司。xAI的创始成员来自DeepMind、OpenAI、Google、微软等技术公司的关键岗位。马斯克一直不满于OpenAI等技术公司的做法,谴责它们未充分重视AI的安全性问题,并在程序回答敏感问题时「审查」内容。
11月初,该公司发布了第一款产品聊天机器人Grok,能够以对话形式回答用户的问题,生成文字或代码。区别于ChatGPT的是,Grok的回答风格据说「有点机智、有点叛逆」,同时它还能获取X平台内容。
11月20日,马斯克宣称,X公司(原Twitter)的投资者将拥有xAI的25%股份。X公司于2022年11月完成私有化并退市,目前由马斯克全资所有。此前有传言称X将于2026年重新上市。
同时,xAI的产品也集成到社交媒体平台X。目前,Grok已被纳入Premium Plus,X用户可以每月花费16美元订阅。
12月1日,彭博社援引信源消息称,商汤科技正在考虑分拆智能汽车和智慧医疗业务,推动两项业务独立融资。信源称,商汤科技已经与潜在投资者接洽,但两项业务的分拆与融资还处于早期阶段。
2022年,商汤智能汽车业务收入约2.9亿元,同比增长59%,在公司总收入占比约8%,产品已经应用于蔚来、比亚迪等品牌的总计27款车型中。商汤医疗健康业务则为医院和医疗机构提供人工智能诊疗、医院管理平台和医学研究服务。
今年9月,《财经》援引信源消息称,商汤科技计划分拆智能汽车业务「绝影」并独立融资。今年以来,商汤内部多个事业群都出现了裁员现象,而持续增长、已经具备规模的智能汽车业务可能是商汤少数增长动力来源。
我们是一个诞生于GPT浪潮、由《第一财经》YiMagazine孵化的全新内容IP。
和每一位关心技术、关注人类命运的读者一样,我们希望在这个充满不确定性的时代,更好地理解快速变化的科技世界,也更好地理解生而为「高级智能」的我们自己。
在这个目标下,我们计划从学术、商业、伦理、监管等多个角度报道和讨论与“智能”相关的议题。请注意,我们说的智能,不只是 AI。