据互联网消息,近日,外媒The Verge曝出字节跳动正在研发一个被称为“种子计划”的AI大模型项目,该项目在训练和评估模型等多个研发阶段调用了OpenAI的应用程序接口(API),并使用ChatGPT输出的数据进行模型训练,这违反了微软和OpenAI的开发者许可。
不久后,OpenAI发言人Niko Felix发表声明,确认已经暂停了字节跳动的账户并将进行进一步调查。
对此,字节跳动回应称,部分工程师在年初将GPT的API服务应用于较小模型的实验性项目研究中,但在4月公司引入GPT API调用规范检查后,这种做法已经停止。
公司强调要遵守OpenAI的使用条款,并已经采取了措施进一步保证对GPT的API调用符合规范要求。同时也正在与OpenAI 联系沟通,以澄清外部报道可能引发的误解。
业内人士表示,在国内大厂中,将国外模型的输出结果作为训练集来训练自己的模型是较为普遍的做法,因为这样的开发效率更高。
在外媒The Verge的报道中提到,字节跳动发言人Jodi Seth表示,GPT生成的数据在种子计划的开发早期就于注释模型,而今年年中已经被从字节跳动的训练数据中删除。
同时Jodi Seth还在一份声明中表示,目前字节在海外市场中的一些服务是使用了OpenAI的API。但是中国国内的“豆包”,使用的是字节自主开发的“云雀”模型。
OpenAI 发言人则声明称:“虽然字节跳动对OpenAI 的API使用量很少,但在进一步调查期间,我们已暂停了他们的帐户,后续进一步调查,如果发现他们不遵守这些政策,我们将要求他们进行必要的更改或终止他们的帐户。”
另外,创新工厂旗下的“零一万物”大模型也同样被质疑完全使用LLaMA的架构,只对两个张量(Tensor)名称进行修改。零一万物回应称,公司内部经过几个周的国际国内法律研判,已经确认完全不涉及套壳、抄袭,并给出了进一步的澄清。
这则报道反映了当前全球大模型和AI技术革命的热潮下,国内企业在使用国外模型API进行业务试水和模型训练时所面临的挑战和争议,但小编相信,国内的AI技术发展一定不会辜负民众的期望。