哈喽,大家好,欢迎收听《硅谷101》,我是红军。每年5月份,谷歌都会在山景城的总部举办Google I/O,这是一个面向开发者的活动。在这个活动上,谷歌会集中发布一批新产品。疫情之后,我基本上每年都会参加Google I/O。我们来回顾一下过去两年的情况:2023年,谷歌正式向ChatGPT发起挑战,并推出了一款聊天机器人,名为Bird。当时,Bird在回答有关詹姆斯·韦伯太空望远镜的新发现时出现了错误,导致谷歌的市值一夜蒸发超过千亿美元。2024年,在谷歌会议的前一天,OpenAI上线的4O模型震惊了世界,许多外媒尖锐点评说这是OpenAI故意狙击谷歌。
经过了这两年的失忆期,回到今年,谷歌可以说破釜沉舟,打了一场漂亮的翻身仗。在这次会议上,Gemini 2.5模型全面霸榜。今天,我们将深度揭秘谷歌大模型Gemini背后的灵魂人物,以及谷歌推出的AI模式到底能否应对大模型对搜索的冲击,华尔街又将如何看待谷歌在美股七巨头中的位置。最后,由于嘉宾是长期在英文语境中工作,因此节目中难免会有中英混杂的部分。如果大家在听的过程中有不明白的地方,我们会在B站和YouTube的视频平台上配上字幕,以帮助大家理解。接下来,请大家收听今天的节目。
今天和我一起的嘉宾是Cambio ML的联合创始人Kimi Kong。Hello,Kimi,你好!之前你也是在DeepMind工作,能否向听众简单介绍一下你自己?首先,非常感谢今天的邀请,能来到《硅谷101》这个播客。我也是这个节目的忠实听众。现在,我是Cambio ML的联合创始人兼CTO,Cambio ML是一家Y Combinator 23期的创业公司,主要产品是AI Agent,专门帮助用户思考和行动。在创立Cambio ML之前,我在Google DeepMind待了将近两年,主要负责几个不同的模块。一方面,通过强化学习帮助谷歌增加广告收入,我主导的两个项目是大猿模型的评测,以及利用AI agent帮助谷歌优化目标广告搜索结果的项目。在完成这两个项目后,我便离开了谷歌来创业。在加盟谷歌之前,我在Amazon Web Services待了四年,主要负责几个不同的Amazon微服务。而在去Amazon之前,我在斯坦福大学获得了机械工程和计算机科学的双硕士学位。
此外,今天和我们在一起的嘉宾还有Sean Wei,他是Hey Radio的创始人,之前在谷歌语音助手工作。哈喽,Sean。哈喽,大家好,我是Sean Wei。我们公司主要是一家AI呼叫中心,专注于美国医疗行业的客户服务,主要帮助患者与医生之间的沟通实现完全语音自动化。今年你有没有观看Google I/O的直播?在这场发布会中,让你印象最深刻的点是什么?我觉得Google I/O对我印象最深刻的是谷歌在整个模型及其产品的横向广度和纵向深度上的整合。广度方面,它涵盖了多模态模型所需的所有不同类型,从Gemini 2.5 Pro多模态模型到图像生成模型,再到视频生成模型,几乎可以满足各种任务需求。纵向来看,它不仅是一个云端的搜索服务,同时也展示了能够在可穿戴的安卓XR设备上实现的应用,展示了谷歌在不同领域的深赴野心。这让我感受到谷歌对未来的全面布局状态。
对于我来说,印象最深刻的是其Text to Video的功能,因为业内一直在尝试这个方向。无论是之前的Open Editor还是Text to Image、Text to Audio等各种尝试,大家都想实现一个目标,那就是能把自己脑中想象的东西变成电影画面。我觉得在谷歌这次发布会上,我终于看到了从想法到视频的真正实现。同时,由于我之前参与了很久的Google Assistant,大家一直向往有一个真正的AI伴随者,能够在你有任何问题时通过视频或文字等多模态方式提供帮助。尽管以前在Google Assistant上没有实现这个愿景,但现在Gemini终于具备了10年前设想的功能,这让我印象非常深刻。
您提到了文本到视频技术,尤其是view 3模型的发布。这次发布不仅涉及视频的画面,还增加了声音。从多模态的角度来看,加入声音确实是一个技术门槛相对较高的挑战。您觉得这次发布与当时Sora的几次文本生成视频模型发布有什么区别吗?可以说,从文字转换成视频,技术上已经有了显著的进步。印象中,Sora发布的视频仅仅是简单的影像,而这次的进展使得生成的内容更为丰富。
在Sora早期发布的模型中,视频画面在后期制作中,通常需要与其他合作伙伴如11Labs结合,以添加声音效果。而这次view 3在整个多模态理解上,有很多视频中能够显示出语音、背景音效以及嘴型等细节的真实对应。因此,模型在上下文理解和物理世界的模式匹配方面,面临的挑战显然更加复杂。例如,张生那幅“威尔·史密斯吃面条”的作品,在短短两年时间内,已经发展到可以生成动作电影的水平。确实,加入音效是一个非常关键的环节。
我对今年的Google I/O发布会也印象深刻,因为谷歌此次推出的Jam9 2.5及其Pro版本在竞争中占据了优势。相比之下,去年Google在发布前被OpenAI抢先推出了4.0模型,因此当时的发布会氛围略显被动。今年,谷歌在模型的强度、应用推广及多模态进展上都取得了显著成就。此外,谷歌还对其核心商业模式——搜索进行了重大改版,推出AI模式。这个变化将传统搜索与大模型结合,让用户在使用搜索时获得更精准的回答及互动体验,我认为这在未来将对谷歌的生态系统和商业模式产生深远的影响。
我对此AI模式也很感兴趣,实际上在发布会之前,我便进行了一定的灰度测试,并将其与Perplexity和OpenAI的搜索功能进行了对比。从效果来看,AI模式对上下文的理解和信息搜索能力都有了大幅提升。尽管如此,在我的测试中发现OpenAI的搜索效果相对更好。我想知道是否新发布时,谷歌的AI模式有了进一步的提升。站在Google搜索效果的角度,AI模式确实在改变广告营收模式,这可能是过去十年中搜索领域最大的变革之一。Google的用户界面以及结果呈现都进行了显著提升。
您提到之前灰度测试过AI模式,可以分享您当时进行的具体测试场景以及为何认为OpenAI的搜索功能优于谷歌吗?我曾尝试搜索一架正在空中飞行的飞机的信息,由于航班晚点并不确定航班号,我仅知道飞机的起点和终点。于是我向OpenAI、Google的AI模式和Perplexity同时搜索这些信息。最终发现,AI模式和Perplexity未能提供准确的航班信息,只有OpenAI成功给出了正确的结果。这个发现让我倍感惊讶。
嗯,有意思。Kimi怎么看待AI搜索呢?我觉得首先搜索确实可能是全世界最赚钱的商业之一,也是所有人都垂涎欲滴的领域。很久以前,Satya Nadella曾说,他最后悔的事情就是当年微软没有把搜索做成,因为搜索是如此盈利,谁有能力做到这件事本身就非常重要。我认为在所有这些科技公司中,Google很可能是最有能力把AI搜索做到最好的,但就像上一个问题探讨的那样,Google愿意多大程度上去革自己的命呢?我觉得Google的创新困境可以说是“半革命”。如今,Google的AI依然有两个产品,我对Google的创新能力始终保持怀疑,我也不担心G