淘优惠

淘优惠

60天月活破亿,ChatGPT之父传奇:16岁出柜,20岁和男友一同当上CEO

热门文章 0
月活首度突破1亿

立委:从语言与语言学角度,chatGPT 的的确确证明了自己万能的语言能力。千百年来的人类巴别塔之望终于美梦成真。巴别塔建成了,建成日期2022年11月。这个成就超出了一般意义的里程碑。这是划时代的进步。

南山:我看不懂它是鹦鹉学舌还是真的掌握了语言。我比较认同一个说法:语言是思想的表象。计算机掌握语言与计算器做计算,也许没有本质区别。

毛老:对。和蒸汽机胜过人的臂力也没有本质区别。

卫东:一个机器是否具备人类的语言能力,本身就是一个比较难判断的问题吧?按照语言学区分competence和performance的考虑,机器和人,在测试语言能力方面的范式是一样的,总是用performance去估计competence。所以,真正的“语言能力”,大概也只能是一种“感觉”吧。chatgpt现在的表现,应该是让很多人“觉得”它掌握了语言。人们似乎还没有想出比图灵测试更高明的方法,来判断机器是否具有语言能力。

霄云:图灵测试 is not for language only, it is end to end “common sense “ test, human intelligence via language.

卫东:是的。它包含了语言能力。

南山:所以纠结机器是否智能在可预见未来是无解的,相关的判别标准和概念大家都没有清晰、一致,对于chatgpt、alphzero这类,看疗效才是王道。

霄云:单独测 language 是不是 翻译 或者别的 normalization 就可以? @詹卫东

卫东:不知道。我想不清楚语言跟其他能力是怎么分开的。简单的区分,比如语言考试,语文考试这类的。具体的题目,像是近义词辨析。我测了100题。chatgpt的表现跟LSTM的水平差不多。但是这类考试,并不是真实的语言应用场景。实际上是教师凭空想象的。题目形式是选择题,就是把一个句子中的一个词拿掉,给两个近义词,让它选一个填回去。100题得分不到60分。

南山:有唯一正确答案的题目吗?判断正确的标准只针对句法还是要结合语义和常识?

卫东:从出题的角度考虑,是有唯一正确答案的,但语言题还是跟数学题不同,总会有“更多的视角”和“更开放的标准”隐藏着,导致答案很难唯一。 近义词组是考虑了很多因素挑选的,包括句法、搭配、语义协同、常识等。

立委:语言理解能力可以看 同样的意思 你变着花样不同问法,然后看他的回应。体验下来 结论是 它是真理解了 不比人差。

卫东:差不多是这个体验。我测试它对不及物动词的反应。故意不在“引语句”打引号。但它准确地识别出引语句片段。不过,线性符号串接续层面形成的“结构”意识,似乎还是不能跟树结构完全重合。这就让人担心它的理解能力。我的感觉是人的智能有一个突出的特征,就是“整体性”。如果没有“整体性”,就是工具智能,不是“通用智能”。

Li Chen:整体性其实是神经网络的强项,毕竟最后都变成向量了。难的反倒是细节。

卫东:我说的整体性比较含糊,大概是这个意思:一个智能实体,不应该能做奥赛的数学题,但却在算24点的时候犯“低级”的错误。就是chatgpt在给人感觉很厉害的同时,又表现出存在犯低级错误的能力。

Li Chen:我觉得这个现象可以理解。因为像24点这种东西,某种意义上讲就是一个特殊的游戏,需要说明规则,理解规则的基础上来玩。chatgpt真的理解这个规则了么?这个感觉也就是toB难的地方,不同行业的规则不一样,通用模型没见过这么多具体的规则。即便是人,有很强的学习能力,换个行业也得学习工作一段时间才能玩得转。

南山:对于一个有阅读能力的人,将一段话打乱之后,ta仍然可以把整体意思掌握了。chatgpt可以吗?一个有阅读能力的人不需要特殊训练就可以读懂这段话

立委:可以测试一下。应该没问题,因为汉字本身就是形义结合的词素。

卫东:这个可能是chatgpt的强项,我之前测试不及物动词“见面”的句子中就包含了这类乱序的句子。它理解得非常准确。

立委:这个实验好。语言理解从效果上看就是要鲁棒有包容,同一个语义可以有多种不同的表达形式,表达形式不规范也没关系,只要上下文的关键词及其相谐性可以让语句的意义有区别性就好。chatGPT 这方面游刃有余,总是可以把同义的不同说法映射到语义空间的同一个区域。

卫东:100分!

原文是今天新浪网一段新闻。

南山:你不用提醒它顺序被人为打乱了,它怎么理解

卫东:

南山:这么说可以认为它的语义理解能力是没有问题了。

卫东:是的,感觉可以“跳过语法”,直达语义。

白硕:乌兰克

南山:可以理解为它的常识或常识运用有问题吗?

卫东:其实很难评判应该是“乌兰克”还是“乌克兰”。chatgpt不改也不能认为是错。

Li Chen:是的,也许真有个国家地区或者可以当主语,修饰语的确实叫乌兰克。

卫东:从我受到的语言学训练角度讲,chatgpt的汉语语言学知识(人类假设的那些知识,可能对,也可能不对)还是比较贫乏的,按照这个标准,它应该还不算掌握了语言。一个典型的表现是,语言学比较重视打*号的句子的分析,也就是所谓“不合语法”的句子。但实际语料中这样的句子极少。应该是训练数据缺乏。chatgpt对这样的句子的判断能力就不太灵。不过,这似乎也不太影响它进行语言信息的分析和处理。从这个角度讲,chatgpt对语言学的刺激是:句子结构的分析,包括对正例和负例的结构分析和解释,到底意义是什么?

立委:关于文法书上强调的带有星号 * 的反例,那不是为了语言理解,主要是从语言生成的角度,实践中追求的是合法和地道(nativeness),理论上追求的是 internal grammar/language,需要防止反例出现。

从语言生成角度,LLM 的大数据回归的属性天然实现了 nativeness,反例不仅少见,即便出现,统计上也沉底了。语言生成能力的效果观察,可以让它生成几次,看回应是不是还在同类水平上,是不是走题或掉链子。这一关表现不错。除了特别的风格输出(例如洋泾浜:这种“风格”可以看成 sub-language,里面的正例恰好是规范英语的反例)外,它是不会出现低级文法错误和违背习惯用法的笑话的。所以 native speakers 听着也觉得舒服。

说到底还是图灵,如果不告诉你背后是谁,你是不是会觉得对象是人。

从语言理解角度,文法书上的绝大部分反例都在包容的范围之内。语文老师让学生改正反例的那些练习题,其出题的前提就是这些所谓反例其实同样承载了正句一样的语义。没有这个预设,人怎么知道如何改正才能保留原有的意义呢。反例不过就是形式上的违规而已,通常不影响内容。

当然,在 input 较短 context 不足以确定内容完整性的的时候,有些反例会呈现歧义或甚至与原意相左的语义,这时候形式的违规的确与内容的混乱或不确定发生关联了。这时候,句法手段的修正(例如次序的调整、功能词的使用以及西方语言中的形态的正确应用等)才会有实质性意义,而不仅仅就是为了 native speaker 听上去顺耳而已。

解析和理解的能力,LLM 特别宽容鲁棒,主要是它的 embedding(编码嵌入,成为其内部的向量表示)可以容纳很长的 input,在 context 相互邻近的关键词之间相互制约下(我们叫篇章中的 semantic coherence,包括词义之间的搭配关系),形式上的偏离规范已经不影响它在语义空间的意义定位,从而“它”可以轻易与“非它”区分开来。

一个符号串 吃进去就是向量空间的某个或某组位置 其意义表现在与其他位置的距离和区别。因此 位置偏差一点 不影响意义 只要它与其他的不同意义的符号串映射可以区别开来。鲁棒性根植于此。换个角度 意义不是要问是什么,更要紧的是 不是其他(什么),只要能维持这种意义空间的区别性,规范不规范就都可以包容。区别之间有足够的空间/距离,即可容忍局部的种种口误 错误。

霄云:Llm 的 position encoding is linearly attached not cross product,so it is a weak form?

立委:词序影响意义的机会不大。当年 一包词模型用了很久 也是因为 词序是较弱的约束,构成区别要素的场景并不频繁。

我把一句话,完全反过来,从:explain quantum computing in simple terms 映射成类似回文:terms simple in computing quantum explain,它毫不迟疑。

人家训练的是next token,现在是处处反着来,本想让它找不着北,但实际上一点也不影响它的“理解”。就是说,当一个模型可以对较长的 input string 做编码嵌入的时候,次序的约束已经很弱了。因为那一小袋词之间的物理距离(proximity constraints)加上它们语义的相谐性(semantic cosntraints)已经足够让这个整体的语义表示与其他对象区分开来,这时候纯粹语言学意义的句法约束(syntactic constraints,包括严格的词序)就可以松绑。

我怀疑 position encoding 即便不做,LLM 也不见得性能会下降很多。

霄云:Could be, popular code base all use it still

立委:换句话说,在 bigram / trigram 建模的年代,词序是重要的 (“我爱她”与“她爱我”,“打死”与“死打”,可不是一回事)。到了ngram 中 n 可以很长的时候,ngram list 与 ngram set 已经语义相等了。

句长不够,词序来凑。长度足够,序不序无所谓。句法地位急剧下降。

论鲁棒,人如何与模型比,差了不止一个段位。

Li Chen:想想确实是这个道理,在有很多词的情况下,还要能组成符合语法的句子的可能性是有限的,也就意味着语义差异不大了。所以这个时候顺序确实已经不重要了,估计这个也是为什么即便是最简单的bag of words也能用来做相似度计算,一用就是几十年的道理。

卫东:跟chatgpt逗个乐。

总的感觉就是chatgpt对语言的嵌套理解能力和指代关系理解力非常强。

川:LLM 没问题,ChatGPT is evil

Who is the master, machine or man?

立委:那是因为 chatGPT 太 human like,搞定了自然语言形式。

川:搞定是假象,现在就下结论太早。

A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity

立委:机器都是假象,AI 本性。Artifical 与假象可以看成是同义词。就本质而言,人工智能就是智能假象,这个论断没有问题,但这应该并不妨碍人类深度使用AI。

搞定的判断是,跟他说话感觉它听从指令、善解人意,而且回应也很顺溜贴心,不走题。

三个月玩 chat 下来,我在它生成的英语中,没有发现过语言的问题(内容的毛病不算),一例也没有。但在其中文的生成中,偶然还是会发现它有语言的瑕疵(不符合规范或习惯的用法),虽然它的中文生成能力已经超过多数同胞。这说明,目前 chat 语言训练的中文语料还可以进一步扩大,从爱挑剔、追求完美的语言学家视角,它还有一点点剩余的进步空间。

结论还是: chat 搞定了人类语言,无论听还是说,妥妥的。万能的语言巴别塔是真滴建成了。

 

 

【相关】

A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity

《朝华午拾》电子版

李维 郭进《自然语言处理答问》(商务印书馆 2020)

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

chatGPT 网址:(需要注册)

发布于 分类 杂类于《AI浪潮:chatGPT 搞定了人类语言》留下评论

 

 

还行吧,这些段子水平不高。但比憋不出来强。

本来写出好段子就是最具挑战性的人类创作活动之一,只要采访几个著名的脱口秀演员就知道其中的甘苦了。很多大火的脱口秀演员,为此绞尽脑汁。台上五分钟,台下无数不眠夜。让人开口笑,并不容易啊。

By the way 国内脱口秀这几年蓬勃向上,有超越传统相声的态势,尤其是在年轻人中开始流行。这是以前没想到的,有传统相声的国度,居然让外来艺种抢了风头。制度接轨那么难,艺术接轨如此自然,水到渠成?

wow,不知道这是抄袭的,还是“emerging”的,联想一下还真像是个搞笑的段子:

gou (go) 我不会飞,可我很快。 niu 所以我那么大(大妞儿?)

猫猫 miao 或 mao, 耗子 mou,也蛮形象,有声有色的样子。

哈,看来只学会了一个套路:羊/yang (young),所以我害羞。

马少平:谐音梗:为什么不能吃藕?因为吃藕丑。

立委:这个强。马老师自己的灵感吗?

辞职算了,不要教书育人传授AI了,笑果文化更需要你。lol

马少平:不是,流行比较广的[Grin]

立委:lol

还有一个类似的感受,国内流行乐坛中的 rap 在大唐比想象的流行要广。在一个有数来宝的国度,rap 一样长驱直入。

马少平:我不喜欢rap,觉得就不是歌。

立委:可是很多年轻人喜欢啊。

马少平:确实。跟年轻人有沟。

立委:觉得文化的融合与流行 不是想象的那么难。

国内那些 rap,牵强的说辞泛滥,听着好别扭,觉得比虽然低俗但顺溜地道的数来宝或山东快书,是一种严重退步。但是我们的“成见”挡不住新一代的热情和迷恋,这里面可能有什么文化密码和奥秘。

最后就是日本动漫的文化,热度持续不减,横扫两个超级大国:引起中美年轻人的狂热。

陪女儿小时候看迪斯尼长大,没想到后来迪斯尼就被 anime 碾压了。anime,我不入,搞不清里面的奥秘。是为沟。

【相关】

《朝华午拾》电子版

李维 郭进《自然语言处理答问》(商务印书馆 2020)

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

chatGPT 网址:(需要注册)

发布于 分类 杂类于《AI浪潮:chatGPT 能写出段子吗》留下评论

说到chat里程碑的意义,盖茨比作电脑、互联网后的第三大里程碑,显然有点夸张了。可是我们进入计算机博物馆看里程碑展馆,有 1. 第一次下国际象棋打败人类 2. IBM 沃森问答打败人类,后面的还该有一系列打败人类的里程碑吧,例如围棋。

不得不佩服它条理化的能力,只有一个不妥:医学并入了教育。其余的综合 总结能力强过一干人,自然包括在下。在这一长串中,AI明星 chat 可以成为 top 几?

top 10 有点高抬了,top 20 似乎有余:就凭他建成了巴别塔,搞定了人类语言。

文字 应该是 语言/文字。宗教不该漏。

我是从语言角度。它的的确确证明了自己的万能的语言能力。语言能力其所以特别重要,不仅仅因为我是语言学家,难免强调它,更因为这是规模化机器能力的敲门砖,否则机器只是少数人的玩具。机器学会人话的意义,比人去适应机器,用程序去给它指令,意义大得多,这是人机接口的革命。

 

【相关】


问界m5后驱标准版涨价 aito问界m5预售价发布

问界M5后驱百公里加速,问界M5后驱版视频,问界m5后驱标准版什么时候上市,问界m5后驱上市时间
火狐、爱奇艺官宣接入百度文心一言
2 月 15 日消息,又有公司宣布接入百度基于文心大模型技术推出的生成式对话产品文心一言(英文名:ERNIE Bot),包括火狐和爱奇艺。火狐官方称,成为百度“文心一言”首批先行体验官。后续,火狐浏览器、火狐主页的搜索位将陆续接入百度“文心一言”。此次火狐加入百度文
02-15
ChatGPT 太火爆,美国议员们考虑如何监管
2 月 14 日消息,人工智能聊天机器人 ChatGPT 自从上线后就迅速火爆全网,人们对其能够快速回答各类问题的表现而赞不绝口,但其对各行各业的深远影响也引起了美国议员的关注。据估计,ChatGPT 在发布仅两个月后月活用户数量就达到了 1 亿,从而成为历史上增长最快的消费
02-14
北京经信局:支持头部企业打造对标ChatGPT的大模型
2月14日消息,据“北京经信局”官方公众号消息,北京市经济和信息化局正式发布《2022年北京人工智能产业发展白皮书》(以下简称白皮书),其中提到要全面夯实人工智能产业发展底座。支持头部企业打造对标ChatGPT的大模型。白皮书系统性展示了北京在构筑全球人工智能创新策
02-14
谷歌发布 ChatGPT 竞品为何犹犹豫豫:Alphabet 董事长透露原因
北京时间 2 月 14 日早间消息,据报道,AI 对话和撰稿工具 ChatGPT 爆红后,谷歌也发布了竞争产品 Bard,但是被指成熟度不高。当地时间周一,谷歌母公司 Alphabet 董事长 John Hennessy 表示,虽然 Bard 这一产品距离成熟还有一段路要走,但是谷歌上周之所以发布它,是
02-14
北京N腾人工智能计算中心正式点亮:一期算力规模达 100P
2 月 14 日消息,北京人工智能产业创新发展大会昨日举行。会上,北京N腾人工智能计算中心正式点亮。并与首批 47 家企业和科研单位签约。华为表示,北京N腾人工智能计算中心采用N腾 AI 基础软硬件,一期算力规模达 100P,可为企业和科研单位等提供N腾 AI 澎湃算力服
02-14
OpenAI CEO 高级凡尔赛:我知道 ChatGPT 很酷,但这却是个“糟糕的产品”
北京时间 2 月 14 日早间消息,据报道,OpenAI 联合创始人兼 CEO 山姆?阿尔特曼(Sam Altman)知道其人工智能聊天机器人 ChatGPT 存在问题。他在最近接受一档播客节目采访时称之为“糟糕的产品”。“人们访问的是一个有时能用,有时不能用的网站。”阿尔特曼说,他指的是
02-14
原美团联合创始人王慧文出资5000万美元入局人工智能领域
【ITBEAR科技资讯】2月13日消息,近日,原美团联合创始人王慧文宣布将出资5000万美元入局AI领域,并成立了北京光年之外科技有限公司。王慧文在中国互联网行业的影响力不可忽视。他曾是人人网和美团网的联合创始人,还创办了来电网和淘房网。他在美团网担任副总裁,直到2
02-13
ChatGPT爆红让谷歌抓狂:“退休”创始人布林罕见要求查看代码
北京时间2月13日早间消息,据报道,近日,早已经退出日常管理的谷歌联合创始人谢尔盖・布林几年来第一次要求访问谷歌内部的软件代码。人工智能领域的白热化竞争已经惊动了这位联合创始人。2019年,布林完全辞去了谷歌母公司Alphabet的管理职务,让桑达尔・皮查伊执掌大
02-13
韩国加入人工智能竞赛,Rebellions 推出功耗只有英伟达 A100 约 20% 的 AI 芯片
2 月 13 日消息,人工智能是目前科技行业当下最热门的话题。目前微软支持的 OpenAI 公司所开发的聊天机器人 ChatGPT 在发布仅两个月后就成为了历史上增长最快的消费应用,在各个领域引发人们的惊叹。杰富瑞 (Jefferies) 芯片分析师马克?利帕西斯 (Mark Lipacis) 说,美
02-13
谷歌的Bard聊天机器人演示失败,AI算法难以避免“错觉”现象
【ITBEAR科技资讯】2月12日消息,当谷歌在去年11月推出其人工智能聊天机器人Bard时,市场对此的反应是热烈的。随着OpenAI公司推出ChatGPT,聊天机器人的热度持续攀升,引发了投资者的极大关注。然而,最近谷歌的一次演示却暴露出人工智能聊天机器人的弊端:AI会出现错觉
02-12
微软加速推进人工智能:计划整合ChatGPT技术到Office
【ITBEAR科技资讯】2月11日消息,微软公司正在积极开展人工智能领域的业务,并计划将ChatGPT技术整合到Office应用程序中。据报道,微软将在3月发布更多与人工智能相关的消息,并在Word、PowerPoint和Outlook等应用程序中使用该技术。在Word中,微软可能展示如何使用模型
02-11
周鸿t谈ChatGPT:应用场景贴切痛点,但移动APP数据孤岛限制发展
周鸿t是中国著名的科技企业家,创办了中国最大的互联网安全公司――奇虎360,以及旗下的360搜索引擎等产品。他对人工智能领域有着深入的研究和探讨,并对近年来发展的自然语言处理技术给予了高度评价。在在张朝阳和周鸿t的《星空下的对话》节目中,周鸿t表示,ChatGP
02-11
人工智能发展前景广阔 赢家尚未定局
人工智能火爆,微软抓住商机随着人工智能技术的快速发展,投资者对这一领域的关注度也越来越高。本周,微软宣布将OpenAI的ChatGPT技术整合到旗下的必应搜索中,受此影响,该股周二大涨4.2%。而谷歌在展示ChatGPT的竞争对手Bard时,却意外遭遇翻车,导致其母公司Alphabet
02-11
比尔・盖茨:ChatGPT将改变世界
近日,微软联合创始人比尔・盖茨对人工智能聊天机器人ChatGPT进行了高度评价。他认为ChatGPT与互联网的发明一样重要,并表示这个新程序可以提高办公室工作的效率,比如能帮忙开发票、写邮件。ChatGPT是由美国OpenAI公司开发、微软公司支持的项目,也是史上增长最快的消
02-11
消息称微软 3 月推出集成 ChatGPT 功能的 Office 应用程序
2 月 10 日消息,微软已经在 Bing 搜索引擎新版和 Edge 浏览器中集成了大热的 ChatGPT,但并未放缓脚步,相反微软这次的行动十分迅速。The Verge 的一份新报告称,微软正计划在 3 月的某个时候发布更多与人工智能相关的消息,将聊天机器人 ChatGPT 技术整合到 Word、Pow
02-11
点击查看更多 +

BiologicallyInspiredMethods

biologically related,biologically dead,biologically inspired,biologically determined

Biologically Inspired Methods ―― 优化算法.zip(国外大学课件) Biologically Inspired Methods ―― 优化算法.zip(国外大学课件) Biologically Inspired Methods ―― 优化算法.zip(国外大学课件) Biologically Inspired Methods ―― 优化算法.zip(国外大学课件) Biologically Inspired Methods ―― 优化算法.zip(国外大学课件) Biologically Inspired Methods ―― 优化算法.zip(国外大学课件) Biologically Inspired Methods ―― 优化算法.zip(国外大学课件) Biologically Inspired Methods ―― 优化算法.zip(国外大学课件) Biologically Inspired Methods ―― 优化算法.zip(国外大学课件) Biologically Inspired Methods ―― 优化算法.zip(国外大学课件)