独家丨李志飞将在大模型领域创业，做中国的 OpenAI｜极客公园｜李志飞｜模型

热门文章 2023-02-23 09:40:15 0

淘宝搜：【红包到手500】领超级红包，京东搜：【红包到手500】
淘宝互助，淘宝双11微信互助群关注公众号【淘姐妹】

李志飞简介,李志飞在福建做什么官,李志qi,李志飞是哪里人

　　ChatGPT 爆火后，新的共识正在逐渐形成：语言大模型将成为下一个科技时代的超级加速器。中国也需要自己的 AI 大模型。而有能力做这件事的人选并不多，李志飞是其中之一。

　　作为科技创业圈最资深的自然语言科学家之一，李志飞出身美国约翰霍普金斯大学语言与语音处理实验室，博士期间一直研究机器翻译和自然语言处理。离开大学后，李志飞加入谷歌?AI?团队，主导开发了包括谷歌手机版离线翻译等一系列产品。2012?年，他选择回国，在语音交互领域创业，创立出门问问。

　　ChatGPT 火起来之后，他一个月两次前往硅谷，和来自 Open AI、谷歌、DeepMind 等各家的工程师和科学家交流取经。「AI 大模型的元年」来了，这是他最直观的感受。一番调研之后，他明白这场大模型之战，参赛选手不止巨头，也不会是只有一两个幸存者的「生存游戏」。

　　语言模型、人机交互，变革发生在李志飞学习、研究、工作了十几年的领域。他告诉极客公园，已经下定决心投身其中，做一个中国的语言大模型。

　　「我一直想做一个我能做，我喜欢做，同时也有深远价值的事情。」他表示，早在?2020?年?GPT-3?刚发布时，他就提出GPT-3 是「暴力美学」的胜利，看到了通往 AGI 的可能性，并最早着手开发 GPT-3 中文版 UCLAI。

　　近日，李志飞和极客公园进行了一场近两个小时的交流，分享了自己对大模型、ChatGPT 的看法，以及自己接下来在这个领域创业的思路。

　　以下是对话实录，由极客公园整理。

　　「这就是?AI

　　大模型时代的开启」

　　极客公园：怎么理解这场 ChatGPT 带来的狂热浪潮？新在什么地方？为什么大家现在这么兴奋？

　　李志飞：ChatGPT 始于一个基于统计的语言模型，通过千亿级参数的训练，让它拥有了各种能力，可以快速学会各种任务。这次普通老百姓都体验到，ChatGPT 在语言表达、回答知识性的问题、多轮对话的上下文逻辑等方面的表现，带来的体验超出所有人的期望。它可以编程、做算术题、写诗，甚至某种程度上比真人做得都要好。

　　极客公园：除了震惊的体验本身，在创业者或者资本看来，是怎么把它看成一个变革性的商业机会的？

　　李志飞：我过年第二天就再次跑到美国去，初衷就是想了解有没有人清楚这是怎么搞出来的，为什么大模型这么厉害。

　　我跟 Google、OpenAI、DeepMind、Meta、Amazon 的人聊，即使技术大牛都还不清楚 ChatGPT 如何拥有这种能力。但是大家能够看到很多现象。第一，用户太疯狂了；第二，美国太疯狂了，在美国知名孵化器 Y Combinator，可能有三分之一以上的项目都是基于大模型做的应用。

　　所有人都认为，这是 AI 大模型时代的开启，就像 2010 年移动互联网时代一样。不到硅谷，切身感受到 AIGC 的火热，我不会下定此刻是「AI 大模型时代」这一结论。我每天七八个会从早说到晚，喉咙都是哑的，都是讨论这个东西。让你觉得这就是一个时代的开端。

　　图片来源：DeepMind

　　极客公园：对这个时间节点，很多人将其比作移动互联网的 iPhone 时刻。大家已经想清楚这是一场怎样的变革了吗？

　　李志飞：为什么说现在 AI 大模型出来，大家像 2010 或 2011 年的时候看移动互联网一样？我 2010 年在硅谷，当年所有人都觉得移动互联网是一个大事，但所有人也都觉得商业模式不清晰，因为屏幕太小，广告做不了，而且网络信号也不好。但是当时大家看到几个东西，比如屏幕体验已经很好了，3G 通讯也能用了，在路上发邮件查餐馆虽慢一些，但是 GPS 很准。

　　我对现在也有这种感觉，直觉这是一个大事情。美国创投在 2022 年 10 月已经觉醒了，当时我在美国，有一位红杉的投资者跟我说，李志飞，你的时代到了。我说为啥？他说你知道吗？在美国，红杉所有的管理合伙人只讨论 AIGC，别的项目都不看了。

　　极客公园：今天，投资 AIGC 还是很多 VC 的看点，但最近大家对于底层 AI 大模型的热情也涨起来了。这是什么原因？

　　李志飞：现在很多人把 AIGC、ChatGPT、AI 大模型搅在一起。要先理清楚这三个是不同的概念。最底层是 AI 通用大模型，上面可以做 AIGC，比如说 Midjourney 可以画画，Jasper 可以写文案等；也可以基于底层模型做对话机器人，比如基于ChatGPT。在美国，除了 OpenAI 和巨头，还有另外三、四家创业公司也都在做 AI 通用大模型，都有大几亿美金的投入。

　　但是在中国，你突然发现，要进入 AI 大模型时代，根本就没有一个基本的、能玩得好的 AI 大模型，怎么做应用？如果现在是移动互联网的开端，安卓、 iOS 是不是超级重要？但是今天中国缺乏大模型时代的安卓、 iOS，所以根本没法开发应用。即使中美完全畅通，以今天中国科技的发达程度，以及资本的力量，AI 大模型肯定也是一个必须的基础设施。

　　极客公园：AI 大模型就是 AI 时代的操作系统级别的存在？

　　李志飞：我不太想把它比作操作系统，也不想把现在看成 iPhone 时刻或者网景时刻。因为我觉得所有这些比喻，都会让我们错误地去判断这个事情。如果把它比作操作系统，按历史看我们会觉得中国肯定没戏；如果把现在看成网景时刻或 iPhone 时刻，那创业者应该选择去做一个网站或移动 APP，但现在中国缺的反而的是一个大模型时代的浏览器或 iPhone。

　　另外从形态来讲，无论是浏览器，还是硬件，还是安卓 iOS，都是一个离线的东西，或者是一个静态的东西。

　　AI 大模型是一个跟数据、业务高度融合，需要动态迭代发展的一个存在，它是个 service，下面不停在变，和应用深度的融合。它远远比当年静态的事物要更加有多样性，有更多可能性。

　　极客公园：更接近一个新时代的云。

　　李志飞：我觉得比喻成智能云 OS 更好一点，这是一种整合的流动的 Service。凡是离线的、硬件的、实体的来类比，AI 大模型都会被带偏。任何对它历史形态的简单归纳，都有可能束缚对于它的正确理解。

　　「它可能让整个

　　价值链都重新塑造」

　　极客公园：既然不能做定义，怎么理解目前 AI 大模型展现出的超强能力和想象空间？

　　李志飞：在我看来，它是一个「通用的认知引擎」。首先它有超强的语言能力，在学习语言的过程中，也学习了很多知识和逻辑。有了这些基本能力后，就能快速拥有做各种任务的能力。

　　比如说只需要给它少量的数据，就能够做翻译。本来它只懂中文，但如果你给了一万个中英互译的例子，它就能够很快做好翻译。就像打通任督二脉一样，它很快就能够自己把能力串通。

　　所以这个认知大模型的能力会带来很多可能性。比如拿现在的大模型加一些蛋白质结构的数据，它展现出来的预测结构的能力，很可能就比不是基于语言大模型的其它模型效果要好得多。

　　极客公园：为什么通用大模型会有这么强大的潜力？

　　李志飞：模型学会了非常底层的结构和机制。万物都是自然产生的，语言也好，生物结构也好，它一定符合某种我们目前难以解释的规律。模型经过互联网上所有的数据训练之后，它也获得了某种属于自己的解读方式。

　　极客公园：这种能力是通过学习语言获得的吗？

　　李志飞：语言是底层的突破，如今通用性表现在，这个系统能够通过语言模型，做各种各样的任务。以前的语言模型只能做某一个具体任务。比如有一个训练好的预训练模型，有潜力做很多任务，但是一旦进行 Fine Tuning (微调）之后，就只能做一个任务了。微调让它处理任务的准确率更高，但却是以丧失多任务能力为代价的。

　　现在的通用大模型，即使进行了微调后，依旧可以做多个任务。预训练的核心是让它有基础的认知和逻辑能力，通过微调引导，让它能够在各项任务上处理得更好，知道怎么使用已有的知识。

　　极客公园：就像让一个人上完大学之后，获得了基础能力，然后可以从事不同的岗位，做不同的事情。而不是在幼儿园的时候，就开始训练它拧螺丝。

　　李志飞：这个比喻很对。以前做某个单独任务，比如机器翻译，就像一上来就教它拧螺丝。当然这也需要一定的语言逻辑和知识能力。但是如果第一天只教了拧螺丝，比起先让它读大学，然后再教它拧螺丝，可能后者拧得更好。第一是学得快速高效，比如之前可能要教 5 年，现在只要教 5 天就行了。第二，不但可以拧螺丝，还可以教它写论文，做教授。只要用很少量的例子，就可以让它快速学习。

　　极客公园：这样通用大模型的出现，对于 AGI（通用人工智能）意味着什么？

　　李志飞：今年可以说是 AI 通用大模型的元年。对于 AGI 来说，我认为是明确有光，越来越逼近，也可能永远都不能到达。今天人类的智能可能也没有被挖掘充分。AGI 的天花板可能是人类集体智能的一个集合。如果你把全世界每一个人具备的能力，以及特异的东西都聚合在一起，看成一个抽象统一体，这就通向集体智能。

　　如果这样假设，现在是这个阶段的起点。

　　极客公园：如果说现在我们能够看到基于 AI 带来的全新生产力。它会给现实带来怎样的影响？

　　李志飞：现在 ChatGPT 或 AIGC，还存在于虚拟世界，帮助人类提升效率，比如自动化一些步骤、做一些重复的工作，或者给一些脑暴 idea。未来三五年，都是人的得力助手。

　　图片来源：DeepMind

　　我们为什么觉得它厉害，后面的应用可能远超互联网，因为这是一个「通用的认知模型」。一旦把这个方法论、基础放到不同领域，可能会重塑很多东西。

　　我觉得它可能真的会让整个价值链都重新塑造。比如对于程序员，以后可以用自然语言沟通，提供数据，模型直接写程序。这可能就会导致计算范式产生巨大的改变，操作系统、分布式计算、甚至芯片本身的大部分工作，都会从程序驱动变成数据驱动。这种改变发生以后，今天还有生意的一部分企业，可能再过 10 年就没生意了。

　　「AI 通用大模型

　　是一个核武器，

　　它是有时间窗口的」

　　极客公园：2020 年 GPT-3 出来的时候，大家挺震撼的，国内也热过一波。在那个变化发生的时候，大家没有去把它持续不断地做好，是因为什么？

　　李志飞：抽象地说，第一，没有对于 AGI 的信仰；第二，就算你有信仰，像我这种已经产生的信仰，并且当时也训练了 GPT-3 中文版 UCLAI，但还是不够坚决；第三，到执行层面，也没有足够的钱；第四，没有一个有真实用户的线上大模型，就没有产品和数据闭环。GPT-3 从 2020 年已经在线上跑了，拿到数据，然后每个星期重新优化迭代。

　　GPT-3 中文版 UCLAI ?| 图片来源：出门问问

　　极客公园：在国内，功能性、专用的 AI 很早就在各个场景里应用了，但是大家更多去考虑应用场景，而没有对大模型的革命力有更多的想象。

　　李志飞：对，刚才只是讲了一些抽象的东西。整个土壤不一样，土壤孕育的人也不一样。人和钱都很重要。比如美国，有一批财务自由的人，总是要干一些跟别人不一样、超级不确定的东西。甚至有时候非常偏执。OpenAI 前三年在毫无营收的前提下，每年烧 5 亿美金。

　　咱们对不确定性的东西，天然比较恐惧，但跟 10 年前比好太多了。10 年前中国是什么状况，当时我回国做中文版 Siri，做一个语音 APP，大家都觉得如神一般。如果我今天只是把 API（Application Programming Interface 应用程序编程接口）包装一下，做一个 ChatGPT，大家就会觉得山寨。因为大家已经开始认识到，需要 10 亿美金砸里边做大模型。

　　极客公园：如果说今天就像哥伦布已经发现新大陆，在中国我们要去复现属于自己的 AI 大模型，是怎样的难度？

　　李志飞：首先，我们知道新大陆肯定有金子；第二，我们大概知道路线是什么样子，但没有特别精准的地图。我们知道 LLM 能够实现，也大概知道它的原理是什么样子，但是做的过程中，肯定有无穷的风浪，有很多决定需要去做，才能够到达彼岸。

　　现在市场上流传着中美之间的差距是两年，或者不到两年。我觉得，如果现在有足够多的钱、算力、人，我们今天开始搞一个中文 ChatGPT，可以做到和它性能差不多或者差一点，这就是我们培养的一个大学生。人家的大学生现在已经 80 分了，我们培养的是 60 几分，只要努力，后面升到 80 分也越来越快了。

　　极客公园：比较而言，目前中国做 AI 大模型，有什么优势，有什么劣势？

　　李志飞：先说短处，对于大规模的 AI 大模型，我们的人才是非常少的，因为中国没有怎么训练出过好的大模型。过去我们的模型参数可能也很多，但不是通用的，语音识别、TTS、人脸识别都单独做一套，所以方法论也有点不一样。还是以大学生比喻，目前中国训练的大模型可能只有 40 分，没到 60 分。只有先做出一个 60 分的大模型，有了自学能力，才能靠勤奋努力升到 80 分。

　　同时我们也有优势，比如在数据层面，可以标注海量的数据，可以做精修；第二，如果方向很清晰，中国是很擅长「暴力美学」的。

　　极客公园：对于 AI 大模型，目前所有人都说不清楚商业模式、最终产品形态是什么样。在这种不清晰的状态下，在中国，做一个小一点的东西，直接通向某个目标，是不是更合适？

环球百事通！ChatGPT的成功全靠挖角谷歌？openAI创始人再放狠话

作者：Hernanderz 监制：罗超

【资料图】

凭借ChatGPT大火之后，openAI首席执行官Sam Altman就彻底飘了，对着搜索老大谷歌不断放狠话。最近的一些动态，则让两家企业之间的火药味变得更浓了。

据外媒统计，进入2023年以来已有多位谷歌AI科学家、研发工程师跳槽openAI。这种AI人才迁移潮，甚至有愈演愈烈之势。光是2月15日这一天，谷歌高级研究科学家Jason Wei和AI研究员Hyung Won Chung就先后在社交平台上宣布跳槽openAI的消息。据外媒统计，近两个月openAI从谷歌挖走了超过10个AI科学家。

翻看openAI的员工资料还可以发现，虽然跳槽时间要早很多，但其首席科学家 Ilya Sutskever也是从谷歌挖角而来。在 Ilya Sutskever的带领下，openAI的研发团队正不断壮大。更为讽刺的是，在去年11月发布ChatGPT时，openAI曾列出一份致谢名单，其中包括5名前谷歌大脑研究员。

一边是自家类ChatGPT产品的首秀翻车，一边是优秀人才的持续流失，谷歌如今可谓腹背受敌。

对于谷歌这个劲敌，Sam Altman也是毫不客气，已经三番两次直接呛声。

今年2月9日，Sam Altman在接受采访时称“谷歌是令人昏昏欲睡的搜索垄断者”，并认为ChatGPT的出现将带来难以预测的颠覆作用。到2月15日，纽约时报又对Sam Altman进行了一次专访，后者再次语出惊人，称“必应很快会变得不可或缺，你不会再想回去使用谷歌搜索。”

众所周知，微软是openAI的幕后金主之一。在ChatGPT大火之后，微软火速向openAI投来100亿美元巨资，也将两者牢牢绑定在一起。对谷歌来说，微软和openAI的结合必然会形成一股令人恐惧的势力――即便如今谷歌在全球搜索市场的份额还远超其他所有竞争对手之和。

但站在openAI和微软的角度，强强联合也不意味着万事大吉。毕竟ChatGPT的热度虽高，却仍未创造出实打实的商业价值，还有沦为资本炒作对象的风险。

数据显示，全球各主要股市的ChatGPT概念股在最近一段日子都是大起大落，前来蹭热度的企业也越来越多。但在这期间，ChatGPT不断传出服务器过载、无法登陆等消息，后台维护压力可见一斑。此外，用上了ChatGPT的微软必应搜索，也没有躲过翻车的命运。

2月14日，有独立搜索研究员发文称使用微软必应搜索时遇到多个事实性错误，包括提供错误的财报数据、推荐错误的旅游行程等。遇到这种情况，也难免让用户对ChatGPT的实际作用以及其相关技术和搜索引擎的结合前景产生担忧。

说到底，无论谷歌还是微软，又或者openAI自己，都还需要不断升级技术，才能满足用户的需求、避免再次翻车。

未来人工智能应用到普通人生活中对未来人工智能应用的幻想

未来人工智能的十大应用方向,在未来人工智能将发挥越来越大的作用,未来人工智能在哪些领域广泛使用?,未来人工智能在社会广泛应用的现象

AI 以迅速的发展，不仅仅在研究界带来了革新，在生活的方方面面也提供智能化，使我们更便利。在本篇内容中，ShowMeAI将介绍 OpenAI 的主要发展以及它们实际落地的 AI 产品应用。

OpenAI 的使命侧重于以安全的方式为全人类实现人工智能的可用性。OpenAI 的模型为数据提取、文本生成、语音识别、图像生成或编辑等日常任务带来了高效的解决方案。尽管它们的任务和目标不同，但它们在开发大型模型方面有着共同的努力，这些模型在当今的大多数应用中都发挥着关键的作用。

DeepMind 的使命是解决智能问题，推动科学发展并造福人类。因此，它强调通用智能，即 AI 在任何情况下都能够自行学习。这也解释了为什么 DeepMind 所有的突破都依赖于深度强化学习，即 AI 只有一个目标和一组可能的行动，需要找出实现该目标的最佳方法。

GPT-3 是一种深度学习模型，该模型经过训练后可以预测序列中的下一个标记，并能生成流畅逼真的文本，覆盖文本分析和摘要、文案撰写、代码生成等应用场景。GPT-3 在发布后不久就掀起了全球的热潮，促进了大量应用程序和初创公司的诞生。下图为用户使用 “Grammar Correction” 开始编程的操作示例。

OpenAI 官方表示，OpenAI API是公司第一个商业产品，自推出九个月以来，超过 300 个应用在使用 GPT-3，成千上万的开发人员在使用平台。目前平均每天生成 45 亿个单词，且生产流量继续扩大中。

如果你需要在线的文本解决方案，那可以阅读更多相关信息并自己把模型玩起来：https://beta.openai.com/playground。OpenAI 为所有新帐户提供 18 美元的信用额度。

CLIP 是 OpenAI 开发的一种大型预训练语言模型，将输入的文本映射到一个连续的向量空间，并通过计算两个文本之间的距离来进行文本分类和相似度计算。与传统的语言模型不同，CLIP可以通过学习数据库中的大量文本数据来实现端到端的文本分类，而不需要任何人工标注。因此，它可以用于许多不同的文本分类任务，包括情感分析、知识图谱构建和图像标注。下图表明 CLIP 极大地改进了图像分类的结果！

CLIP可以完成零样本图像分类、图像描述、内容审核、图像生成等。值得注意的是，CLIP 是 DALLE 的构建块之一。

DALL・E 2 是 OpenAI 公司研发的一款新的人工智能系统，不仅可以根据文本描述生成对应的逼真图像，还可以根据文本提示修改图像内容，以及根据给定的图像拓展生成多种主题风格一致的“变体”。目前公开可用，可以直接访问 OpenAI 网站，也可以调用 API（2022 年 11 月已经发布！）。

DALL・E 2 的影响力可与 GPT3 媲美，应用场景也非常丰富，包括插图、图像摄影、NFT 生成、图像编辑等。微软已经宣布 DALL・E 2 将为其 Designer App 提供支持；Shutterstock 还宣布与 OpenAI 建立合作关系，允许用户在平台上使用 DALL・E 2 进行创作！

Whisper 是一个自动语音识别 (ASR) 系统。它使用从网络上收集的 680,000 小时多语言和多任务监督数据进行训练。使用如此庞大且多样化的数据集可以提高对口音、背景噪音和技术语言的鲁棒性。此外，它还支持多种语言的转录，以及将这些语言翻译成英语。

Whisper 是免费和可编程的，使用体验令人兴奋！这也使其成为现有商业语音识别服务的有力竞争者。它也可能直接挑战了当前主流的“基于云的 ASR 服务”。

由于 Whisper 模型较小，便于本地运行的移动 App 使用，从而可以避免转录前数据上传云端导致的隐私问题（已经有人行动起来了例如下方推文）。

OpenAI Codex 是一种基于 GPT-3 的自然语言到代码系统，有助于将自然语言指令转换为十几种流行的编码语言。Codex 于去年 8 月通过 OpenAI 的 API 发布，是 GitHub Copilot 的主要构建块。

其实，可以要求 GPT3 解释一段简单的文本代码，从代码到解释性文本这个过程GPT3也可以做得很好，理解和生成代码的能力已经编码在 GPT3 中。而 Codex 专注于生成可执行代码，使其成为开发人员的绝佳助手。由于它已经集成到 Visual Studio 中，根据经验，将它无缝集成到开发周期中。

许多应用已经出现，包括各种代码助手 copilot、pygma 和 replit 等。

Copilot 编码助手能够根据指示生成代码、将注释转换为代码、生成测试并提出备选方案。
Pygma 使用 Codex 将 Figma 设计转换为高质量代码。
Replit 使用 Codex 描述选定的一段代码的作用，以便每个人都能理解其功能。

下图为 Replit 依靠 Codex 来解释部分代码。

ChatGPT 是 OpenAI 于 11 月 30 日推出的一款聊天机器人，能根据用户的提示，在对话中生成类似人类的文本响应，完成回答问题、提供信息或参与对话等各种任务。与许多使用预定义的响应或规则生成文本的聊天机器人不同，ChatGPT 经过了训练，可以根据接收到的输入生成响应，从而生成更自然、更多样化的响应。

ChatGPT的亮点主要有哪些？