淘优惠

淘优惠

特稿 | ChatGPT生成作品的著作权认定

双十一活动 0

原标题:特稿 | ChatGPT生成作品的著作权认定

ChatGPT是由OpenAI公司制作的新一代人工智能聊天机器人程序,自推出以来引发了社会的剧烈讨论,同时其对社会带来的变革也蔓延至各个领域。ChatGPT作为人工智能是否应当被赋予法律的拟制人格、其生成的作品是否享有著作权等问题均亟待解决。

本文以著作权的主体、客体和内容为视角出发对ChatGPT生成作品的著作权问题进行判定:主体上,以法理学的角度出发探究ChatGPT的法律人格问题;客体上,以ChatGPT生成作品的过程和成果为角度来定义ChatGPT生成作品的法律属性;内容上,以著作人身财产权及ChatGPT使用的侵权与被侵权问题为线剖析ChatGPT生成作品后面临的法律后果。以此为据来论证ChatGPT生成作品的法律性质,以及其不应当被认定为著作权法意义上作品的法律逻辑。

作者 | 甄心奇 厦门大学知识产权研究院研究生

编辑 | Moker

ChatGPT的强势诞生,新一代人工智能引发的震动

( 一 )ChatGPT的诞生与人工智能的发展

ChatGPT是由OpenAI公司开发的一个人工智能聊天机器人程序,并于2022年11月推出。其以文字方式互动,可用于相对复杂的语言工作,包括自动文本生成、自动问答、自动摘要等在内的多种任务[1]。其在信息检索、解决问题、语言组建等处理问题的效率上,已经部分超越了现有的搜索引擎并且在语言表达上,也同样的超过了多数以往的人工智能技术。

从围棋界出名的阿尔法狗到2022年广为讨论的AI作画再到今天的ChatGPT,AI的创作水平得到了前所未有的提升。从AI的发展历程来看,我们可以得出AI的进化与发展主要取决于三个要素: 大数据、算法和算力[2]。OpenAI公司背靠微软的全球顶级 AI 实验室,其提出了强大的预训练语言模型:GPT(Generati【【微信】】rmer)系列,这一系列的模型可以在非常复杂的 NLP 任务中完成诸如生成文字、生成代码、回答问题等[3]。可以说ChatGPT既有相应的技术支撑,也有海量的数据支持,这是赋予ChatGPT强大语言能力的根基。AI必须且只能通过海量的学习、尝试,才能归纳总结出若干模型、风格与规则[4]。和人类利用自己的阅历和学习过程来提升自己大脑机能有着异曲同工之处,AI技术的发展也同样建立在自己不断学习和积累的过程。与此同时,又不断完成着对算法的更新以此不断地推动创作能力。

然ChatGPT也并非人们传说中的那样神奇,其本身也存在一定的局限性,ChatGPT没有自主意识,其通过运算得出的作品依然是围绕着所积累数据下的人类意志所创作的资料而生成的内容。ChatGPT 每次输出的答案其实是一次概率分布,它能“丝滑”地写出美妙的文章或代码,却很可能在极简单的问题上“翻车”[5]。ChatGPT可以作为文字工作者的辅助工具来帮助完成各项文字任务,然却不能独立的进行作业并进行运用,其“使用权”依然属于人类。

( 二 )ChatGPT对社会造成的影响

ChatGPT一经开放便爆火于网络,来自世界各地的用户通过ChatGPT检索资源、提出学习问题、修改文章和句子甚至利用ChatGPT来完成学业作业或学术论文。以致于短短一个月内,世界各大期刊、高校等学术领域的部分机构均对ChatGPT的使用和其他内容进行了规制和要求。据《自然》报道,出版商和预印本服务器一致认为,ChatGPT等 AI 工具不符合研究作者的标准,因为它们无法对科学论文的内容和完整性负责[6]。《自然》和《科学》的主编认为,ChatGPT不符合作者标准。“作者身份意味着要对作品负责。”《自然》杂志主编Magdalena Skipper说,作者在撰写论文时以任何方式使用LLM,都应在方法或致谢部分记录其使用情况[7]。不少人发出来“语言工作者未来是否要被代替?”、“法律工作者是否将会面临失业”、“人工智能是否将会引发新的一轮下岗潮?”等疑问的声音。这是过去人工智能技术的开发所不能引起的反响。

)ChatGPT引发的著作权问题

ChatGPT诞生前的人工智能技术应用多见于较常规的场合,或是应用于机械化作业,且用户往往集中于大型科技、互联网公司或专属性领域,因而对社会面和个人的影响相对有限且狭窄。ChatGPT一经推出,其强大的语言和检索能力足以应用于包括各类型的语言工作、学习研究、新闻媒体编辑等诸多场合,低廉使用成本致使全社会掀起了ChatGPT的使用狂潮,在此背景下,人工智能真正深入的被投入到社会的边边角角,在此背景下对现存版权法体系带来的冲击不言而喻,其影响远大于过去人工智能技术的开发与应用。那么,ChatGPT生成作品是否应当被赋予著作权?其在法律上的性质是什么?权利和义务归属又该如何进行界定?必须明晰著作权法对人工智能生成作品性质的定义以及进行全新的规制,以此扼制不断蔓延的ChatGPT所带来的负面社会效益,并尽可能的激发其最大价值。本文将从著作权的主体、客体及内容三方面出发,ChatGPT能否成为著作权法意义上的主体,其生成作品的法律属性是什么,著作权内容中权利享有与义务承担问题的分析,来应对ChatGPT生成作品的法律逻辑进行论证。

ChatGPT生成作品著作权分析之主体

)著作权主体的法理基础

纵观法律人格制度的历史发展,法律关系主体范围限于自然人和法人之内(法人或非法人组织属于拟制人格)。在传统法律人格制度中,法律关系主体的基本属性为: “享有权利、承担义务,具备意思表示的行为能力和责任能力。”成为法律关系主体,必须具有责任能力,这是成为法律关系主体的实质条件[8]。著作权的主体同样的应享有权利并承担义务。这同时也是成为著作权主体的条件。从逻辑上来说,AI创作物即使符合知识产权的全部形式要求,也不可能独立享有法律权利。因为法律权利和责任是事物的两面,主张权利的同时也要承担对应的社会责任。显然,ChatGPT和过去的人工智能不论其所著作品有多么出色,都无法逃离这样一个问题:人工智能如何享有权利?又该如何承担责任?这也是ChatGPT生成作品获得著作权的关键门槛之一。对此,有学者认为,人工智能也能产生责任能力――即便这种能力首先是人类预设的[9]。然其享有的权利最终流向依然是自然人,不论是经济利益还是其他形式的利益,不可能由AI来享有,此外AI亦不能去行使其“自己的”权利。与权利相对的另一面,责任的承担上,AI往往也仅能限定于民事责任中停止侵权等形式的责任方式,赔偿损失呢?显然现行立法并无法对此作出合理的规定,而AI本身更无法直接凭借其自身对受损害的一方进行弥补。

)ChatGPT能否作为著作权的主体?

机器介入创作由来已久。从辅助创作到“算法创作”,突破了“创作人=自然人”的“人类创作中心主义”的限定,标志着“后人类时代”有关主体性的一些基本假定发生了意义重大的转变[10]。ChatGPT的横空出世,更是将要加速对“后人类时代”有关人工智能生成作品的讨论。

我国著作权法第二条规定:中国公民、法人或者非法人组织的作品,不论是否发表,依照本法享有著作权。这是我国对于著作权主体最直接的一条规定,该条文直接指出了著作权的主体为自然人、法人或非法人组织。人工智能并不在其列。我国在立法层面中,并没有直接支持ChatGPT成为著作权的主体。在美国,最典型案例即是“猴子自拍照” 版权登记案。2011年,印尼原始森林的一只猿猴使用英国摄影师戴维的摄影设备自拍成照。事态后续的发展中美国版权局强调,只有人类创作的作品才受保护。“对自然力、动物、植物产生的作品,版权局不会予以登记”,“对机器产生的作品,没有任何创造性输入或没有人类作者的干预而通过自动或随机运作的机械方法产生的作品, 版权局也不会登记”[11]。2023年3月发生的Midjourney AI生成图像案中,美国版权局同样表示不会对AI作画进行登记和保护,也反映了当下对人工智能赋予版权保护的否定态度。

笔者认为,不论是过去的人工智能技术(例如Apple公司的Siri、AI绘画技术等),还是如今的ChatGPT,其都没有逃过一个评价的关键点――自主。ChatGPT的应用方式,就如工厂的工人使用机械工具进行生产,不论其制作出的产物有多么出彩,其开启“制造”的过程均未能脱离使用者(即用户)的“启动”。在新闻媒体行业中,“自动新闻写作”就是综合运用算法与模板的结果,如财经新闻、体育新闻等开发出针对原始数据进行分析的算法,再将其分类套入内置的各种模板[12]。而对原始数据进行输入以及启动算法的主体并不是ChatGPT本身而是人类。ChatGPT可以作为用户强大的“写作伙伴”而加以利用,却不能成为具有独立人格的主体去进行独立的创作。人们启动计算机打开软件后它睁开眼睛,人们关机它便闭上眼睛,没有人类的操作,其亦不过是一串保存在机器里的代码,永远不能苏醒。

也有学者认为,人工智能生成之内容, 即“机器创作的作品”, 实为人机合作的智力成果,并没有离开著作权法的人格主义基础[13]。不可否认,ChatGPT相比以往的人工智能已经又迈出了一大步,但距离所谓的“自主创作”依然有不少差距。我们从很多影视剧中可以看到人类对未来“人工智能”的想象,例如美国《终结者》系列电影中的“天网”,亦或者《复仇者联盟》电影中的“奥创”,其均有着独立于人类的思维,不仅仅是语言的创作,更有着独立的意志甚至感情,能够与人类对立,摆脱人类的指令输入,自主开机,自主关闭,行为不受人类的操控。因此,人工智能被赋予独立人格的前提,突破性的技术存在就必须是“自主思维”的完成,就像美国哲学家约翰・塞尔所说的“强人工智能”。

综合上文,ChatGPT当前尚不能成为著作权的主体,尽管“作者中心主义” 的理论基础在人工智能时代会有所动摇。但当前的人工智能技术依然无法突破“为人类所操控”和获得“自主意志”的技术背景。因此不论是从享有权利和承担责任的角度,还是其现有“自主”程度角度出发,ChatGPT再是拥有强大的语言能力和技术进步,却依然不能成为著作权的主体,对其赋予法律拟制人格的讨论也为时尚早。

ChatGPT生成作品的著作权分析之客体

)ChatGPT所生成作品属性

ChatGPT生成作品是由用户在使用的过程中,通过输入相应的字符等内容,然后经过其算法后所得出的作品。在输入相同的内容后,其所得出的作品并不会完全相同。在此基础上,ChatGPT更如一个写作的辅助工具,其生成物并不能自主产生,而是根据用户的输入自动产生的作品,应当称之为“半自动作品”。从目前有关人工智能的各种报道和描述来看,至少现阶段内,人工智能生成的内容只是应用某种算法、规则和模板的结果,与为形成作品所需的智力创作相去甚远[14]。ChatGPT的产生也源自于其背后的大数据与算法,其生成作品亦是经过对所积累的知识、数据的汇总与分析得出,而正如人脑写出作品同样是通过大脑对自己所掌握的学识的汇总会分析得出。人最重要的是心,最复杂的是感情。从主观角度来看,ChatGPT生成的作品即使能够包含整个互联网的知识与认知,也没有可能拥有人类一般的感情。因而亦不会像自然人对外做出自己的思想表达。ChatGPT生成作品仅是对大数据的分析与计算所得出的一个客观性结果,人工智能并没有自主意志,生成的作品是一种源自于输入数据的分析,而人类输入什么,ChatGPT才能得出怎样的内容。

康德认为作品是人格的反映,本质上是作者的意志。黑格尔同样指出,知识等是一种内部的精神的东西,作品在本质上表现了作者个人的独特性,是作者自身精神和技术才能的产物[15]。作品来源于人的内心深处的表达,有的是感情的表达,也有的是学识的表达,与生理学上的人脑无法分割。有学者认为,对人工智能生成作品的“可版权性”判断,可以遵循“额头冒汗” 原则建立独创性判断的客观标准,不能因为人工智能生成作品的创作主体不是自然人,就否认其“可版权性”[16]。但以此角度出发去看的话,会从逻辑上无限扩大“计算机创作作品的范围”,如若ChatGPT生成的作品遵循“额头冒汗”原则,那么利用Excel计算、排版获得的内容是否也应当遵循“额头冒汗”原则?通过stata等各类数据库运算得出的结果,stata是否也对其拥有著作权?甚至可以无限追溯到使用计算器得出的计算结果是否享有著作权?ChatGPT和其他的人工智能技术的区别更多的在于技术先进程度,即算法的先进力、背后大数据的载量等技术差距,而法理学背后的理论基础则并没有发生颠覆性的变化。

此外,ChatGPT生成作品依然需要经过修改和校正才会为用户投入到学习、研究当中去,被经过修改后的内容依然可以视为是自然人的作品。如前文所述,ChatGPT生成的作品并不是著作权法意义上的完整的作品,而是在人的操作下、人工智能辅助下产生的一种“半自动作品”。当下在人类社会中,人只能是当前社会的唯一主体,人工智能也尚未达到能够被法律赋予主体的地位。对ChatGPT生成作品的属性,我们也只能当作是用户利用文字辅助工具所获得作品的产物,其著作权依然属于数据使用者(用户)。

)从作品的构成要件看ChatGPT生成作品的性质

其一,从“独创性”看。

独创性是作品的基本构成要件之一,指的是独立创作,并源自于本人的智力成果。独创性是构成作品的核心要件,在判断ChatGPT生成作品性质中起到了至关重要的作用。用户使用ChatGPT是通过输入数据通过算法而得到相应的作品,在此过程中,ChatGPT的地位应被视为“工具”(前文所述),因此,针对作品的独创性而言,用户通过ChatGPT所生成作品仍应当被视为“用户利用工具”而产生的“半自动作品”。

其次,独创性中的“创”要求的应当是“智力成果”,智力成果指的是自然人通过智力劳动所收获具有创造性的成果。应当具有一定程度上的智力创造性。对于人工智能生成的内容而言,即便在表现形式上与人类创作的作品几无差别,如机器人生成的人像素描和财经报道等,由于是应用算法、规则和模板的结果,其生成过程没有给人工智能留下发挥其“聪明才智”的空间[17]。ChatGPT仍属于传统意义上的人工智能,即使其所能承载的数据更加庞大、运算能力更加先进,也无法否认其并不具有自主意志与思维,生成的作品同样也只能建立在其大数据的分析与计算基础上。人工智能的思维终究不是人类的思维。因而,ChatGPT生成作品依然不能成为著作权意义上的“智力成果”。

有学者提出人工智能生成内容的结果可以用独创性判定标准来认定,将人工智能的研发者或所有者认定为著作权人[18]。然从逻辑角度依然无法被认同,ChatGPT的研发者可以汇总和存储大量的数据于后台中,并升级其运算方法来提高ChatGPT的运算效率和能力。然ChatGPT的最终成果源自于其背后的数据,而非“自己的智慧”,数据的来源则是来自于直接各地的用户,换言之,是互联网的智慧,是全体使用互联网的人类的智慧。另,权利的享有就意味着义务的承担,一旦基于此而赋予ChatGPT著作权,那么未来使用ChatGPT产生的作品是通过侵害他人著作权而得出的话,其义务的承担又将由谁负责?是ChatGPT的使用者?还是背后的开发者OpenAI公司?恐怕均有不妥。同样有学者提出,可参照著作权法关于职务作品或雇佣作品的规定,由创制或投资机器作品生成软件的“人” 而不是机器人本身去享有和行使权利[19]。而基于同样的原理,如此过于庞大的资源均被赋予开发其的母公司必然是武断和不公平的,数据来源于所有的网络用户,而每一个用户都对自己所提供的数据拥有一定的权利(即使不是全部),而将所有网络用户的数据资源全部赋予一个仅仅是整合、存储与分析的互联网公司,显然有悖于市场的公平原则,是一种对社会公共资源的垄断。作品的优秀与否不再看使用者的水平高低、甚至不再看开发者对ChatGPT的技术研发,而只是看背后数据的堆叠有多大的话,必然也是对社会资源的一种极不合理的分配。大数据时代下,人民群众是数据的来源却不曾能够直接的享有数据带来的权益,这本身也是对现行法律的一个挑战,而盲目的赋予ChatGPT生成作品以著作权的话,亦会是先行对数据的权利进行了一次鲁莽的定性。

其二,从“表达”看。

绝大多数的作品作者在创作作品时候必然有一项初衷是为去进行表达,表达自己的感情、或是自己对某些知识的理解等。而ChatGPT生成作品,是否也蕴含有“表达”的意思?显然没有。ChatGPT生成作品并非属于AI对某一话题(用户给出的)的进行的客观表达或主观评价,而是依托数据对某一话题进行运算所生成的一个客观结果,即使每次得出内容有些许差别,但立场性的观点不会改变,亦不会通过对话的形式而对自己的观点做出相反的看法。这与自然人通过智力创作产生的作品去表达感情或其他是不同的。ChatGPT自始便无法做出“表达”的意思表示,而只是由用户去通过操作来获取某个答案,没有专有的创作空间。日本政府设立的“知识产权战略本部”在一份报告中指出“一般认为,人工智能自动生成的内容不属于著作权的客体”,其原因就在于“人工智能自动产生的创作物(类似作品的信息) ,并非(日本) 《著作权法》第2条第1项规定的‘表现思想或者情感的作品’,也就根本不存在对其享有的著作权”[20]。这也和笔者所认为的ChatGPT生成作品不具有“表达”的意思表示相贴合。

人工智能生成内容虽具备一般作品外观,但缺乏内在人格基础[21]。既不符合“独创性”的要求,同时也不符合“表达”的要求,ChatGPT终归是现阶段相对基础的人工智能,仍无法脱离人类的使用而独立的去创作,更没有自主思维和独立思考的本质,无法成为真正的“强人工智能”。也许在将来全新的人工智能出现后会出现新一轮的对人工智能作品著作权的谈论,但就现在而言,ChatGPT生成作品依然不能被视为著作权法意义上的作品。

ChatGPT生成作品著作权分析之内容

( 一 )著作人身权

著作人身权与财产权对立,体现了作者的人格、思想、意识、情感等精神方面的反映。著作人身权与自然人本身息息相关,不论是人格、思想还是意识均属于自然人所专属的内容。ChatGPT并不能获得与自然人相同的地位,依托于数据生成的作品并不

潮水长长长,商用CHATGPT该咋整?

潮水 logo,播放潮水,请播放潮水,潮水是啥

各类讯息中提到很多科技大佬下场蹭热创业,比如0.5个小目标先搞张入场券;

还有各类招聘网站最近的岗位招聘:

羡慕的泪水真从嘴角留下来了......

当然!以上动不动整点小目标的行为,跟笔者可以说是八竿子打不着。创造中国版CHATGPT什么的,就留给能创造的人。按照摩尔定律,几个月之后,GPT5,还是GPT10 其实就跟现在iPhone手机,你们折腾你们的,我只管“取肾”下单买就行(态度还是可圈可点的...)

因为最近关注很多,作为0.25个从业者笔者觉得商业CHATGPT或者是该大语言模型,对于我这样的“调包”工程师来说,商业场景使用的话,感觉需要有非常多、成品的底层技术组件,我就借一张百度AI中台的图片

感觉商用需要有以下几个要素(想到再加):

  • 训练数据的绝对安全性,这点一点不能含糊,现在openAI网站那种肯定是不行的
  • 云平台,最好是搭载在云平台,可以嵌入到一切的技术环境中,且搭载算力资源;最好有私有化部署的方案,基础模型在某个镜像备份中,可以直接使用
  • AI底层技术生态完备,这点对于商业项目非常重要,比如需要有配套的团队数据标注/清洗系统甚至标注外包服务(重中之重!!)、训练服务器、MLOps流程、API GETWAY、友好的域名管理体系等
  • 热加载,可以处理并发,后续基本会跟聊天机器人一样广泛使用,那么高并发等问题也能够很好处理
  • 网络安全,老问题,老被竞对攻击,一下子就被搞炸

以上列的来看,不说准备几个小目标,个人感觉一些细胳膊细腿的创业者有点难,纯搞个API让别人调着玩,红利期有限,理想的就是基于云平台做开发;但是呢,保不齐你搞了半天,大厂自己都有你的技术能力了;最后呢,就变成大厂技术的服务商...

做中国版ChatGPT,还有一个「隐身」大玩家

文中提到了一些国内大厂的布局:

  • 阿里,旗下的达摩院在大模型等 ChatGPT 所需底层技术上拥有强大技术能力。此前有消息透露,阿里版 ChatGPT 正在研发中,将和钉钉深度结合。
  • 腾讯,在大模型领域上一直较为低调,在去年 4 月才首次对外披露了混元 AI 大模型的研发进展。混元完整覆盖 NLP(自然语言处理)、CV(计算机视觉)、多模态等基础模型和众多行业 / 领域模型。在去年 12 月,腾讯混元推出了国内首个低成本、可落地的 NLP 万亿大模型,并再次登顶自然语言理解任务榜单 CLUE。
  • 华为, 2020 年开始在大模型开始有布局,2021 年基于N腾 AI 与鹏城实验室联合发布了鹏程?盘古大模型,是业界首个千亿级生成和理解中文 NLP 大模型。
  • 百度,百度 AI 中台与百舸异构计算平台两大部分共同构成了百度的 AI 大底座,形成了国内仅有的涵盖“芯片 - 框架 - 模型 - 应用”的 AI 生产全要素智能基础设施。

不过,Microsoft 最近的速度可是真快,重点来回看Microsoft Azure

企业级 Azure OpenAI ChatGPT 服务发布(国际预览版)
  • 3/10 Microsoft Azure 发布了企业级 Azure OpenAI ChatGPT 服务发布(国际预览版)
  • 3/13 所有 ChatGPT 使用的计费将于 3 月 13 日开始,价格 $0.002/1,000
  • 3/16 8:00(美国时间晚上21:30),Microsoft开发布会CHATGPT如何在office中使用

非常高效,而且这波Azure也用了大招,将大语言模型的强大功能和 Azure 的AI优化基础结构相结合,在我们的消费者和企业产品中引入新的体验。例如:

? GitHub Copilot利用 Azure OpenAI Service 的AI模型,帮助开发人员加速代码开发。

? 【【微信】】m 集成了由 AI 驱动的功能,包括智能回顾和AI生成的章节,帮助个人、团队和组织提高工作效率。

? Microsoft 【【微信】】 新的AI驱动的卖家体验,电子邮件内容推荐和生成,数据驱动的见解,帮助销售团队专注于客户策略和销售相关的行动。

? 无代码平台 Azure OpenAI Studio 在竞争中脱颖而出。Azure OpenAI Studio 为模型提供可自定义的能力,还提供一个独特的界面来自定义 ChatGPT 并配置与组织一致的响应行为。

OpenAI 【【微信】】u.org

摘录几点两者的差别:

  • OpenAI ChatGPT 可以根据他们的数据使用政策收集大量数据――他们可以收集(输入的提示,收到的输出)所以你永远不应该将敏感信息放入 ChatGPT
  • OpenAI没有说明在何处使用 ChatGPT 处理数据,语言模型的大部分训练都是在美国完成的。
  • Azure OpenAI 服务可以部署在三个特定的 Azure 区域中。美国东部、美国中南部和西欧。
  • Azure OpenAI 服务支持其他网络连接选项,允许我们使用私有端点等服务通过集中式网络过滤与服务的所有通信
  • Azure OpenAI 服务支持使用托管身份访问服务,这与仅使用本机 API 密钥对服务进行身份验证不同。
  • Azure OpenAI 服务利用提示和完成来增强其内容管理系统,以及识别和监控滥用行为。具有适当授权的 Microsoft 人员可以访问我们的自动化系统标记的提示和完成数据,特别是用于滥用调查和验证。对于在欧盟范围内使用 Azure OpenAI 服务的客户,只有在欧盟范围内获得授权的 Microsoft 员工才能访问此类数据。收集的数据也可用于改进内容管理系统。如果确认违反政策,我们可能会被要求立即采取补救措施并防止进一步滥用。

下图显示了如何在 Azure OpenAI 中处理数据。

How to customize a model with Azure OpenAI Ser【【微信】】

与训练、验证和训练结果相关的数据存储可以通过文件 API 实现,通过上传训练数据来微调模型。此上传的数据存储在 Azure 存储中,在静止时由 Microsoft 托管密钥加密,并且位于与资源相同的区域内。使用用户的 Azure 订阅和 API 凭据在逻辑上隔离数据。

为了创建我们自己的 OpenAI 模型微调版本,【【微信】】 与通过 Files API 上传的训练数据一起使用。创建的微调模型也存储在同一区域的 Azure 存储中,静态加密并使用用户的 Azure 订阅和 API 凭据进行逻辑隔离。用户可以使用 DELETE API 操作删除这些微调模型。

文本提示、查询和响应由 Azure OpenAI 服务临时存储最多 30 天。数据经过加密,只有经过授权的工程师才能访问,以便在系统出现故障时进行调试或调查滥用和误用模式。此外,已被标记为滥用或误用的提示和完成可用于改进内容过滤系统。

您使用的训练和验证数据必须格式化为JSON Lines (JSONL)文档,其中每行表示单个提示-补全对。OpenAI命令行界面(CLI)包括一个数据准备工具,用于验证、给出建议,并将训练数据重新格式化为JSONL文件,以便进行微调。

下面是一个训练数据格式的例子:

{"prompt": "<prompt text>", "completion": "<ideal generated text>"}  {"prompt": "<prompt text>", "completion": "<ideal generated text>"}  {"prompt": "<prompt text>", "completion": "<ideal generated text>"}

除了JSONL格式外,训练和验证数据文件必须用UTF-8编码,并包含字节顺序标记(BOM),文件大小必须小于200 MB。

数据准备的教程:

How to prepare a dataset for custom model training - Azure OpenAI Service

准备好数据,按照教程训练完之后可以直接部署:

一旦您的定制模型部署完成,您就可以像使用任何其他部署模型一样使用它。例如,您可以使用Azure OpenAI Studio的Playground窗格来试验新部署,如下图所示。

OpenAI GPT-3 Playground(您可能知道它是chatgpt playground)是一个基于Web的界面,它允许开发人员和用户试验和测试GPT-3语言模型的功能。playground提供了对GPT-3文本生成功能的访问,允许用户输入提示并查看模型生成的响应。这是了解GPT-3的功能和探索其潜在应用的好方法。

参考资料:

新智元:微软杀疯了!全家桶嵌入ChatGPT,云平台Azure强到发指