强大到危险的AI?
最近,因为一款叫ChatGPT的人工智能产品,AI聊天又火了一把。AI聊天工具早已不新鲜,但ChatGPT依然在11月30日发布后的5天时间里收获了100万用户。
从社交媒体上刷屏的使用体验来看,好奇或好胜的人们涌入网页后,提出的问题简直五花八门,包罗万象,从27到底是不是质数,再到孙悟空和白龙马什么关系,再到各领域专业知识,GPT都能给出时而一本正经,时而错漏百出的回答。
网友和ChatGPT讨论27是否是质数
观摩这些使用体验,可以发现,不同于只能点餐点歌订机票的苹果Siri和微软小爱,
ChatGPT不仅可以回答专业知识问题,还能回答一些开放域的问题,比如,帮编程人员"debug"(消除故障),或进行创造性写作。
我看过它写的科幻故事,有起承转合,有细节场景,虽然开头结尾有些生硬,但基本上有模有样;它写的爱情诗,对仗工整,意犹未尽,意象选用称不上高级,但确实有点三脚猫功夫在身上;它写的悬疑剧本,有业内人士鉴定,已经可以达到行业腰部水平。
一向高调的马斯克在使用ChatGPT后的感受则是,“scary good”(好到吓人),甚至断言,“我们离强大到危险的AI不远了。” 马斯克的话也许要打一点折扣,因为ChatGPT是美国互联网科技公司OpenAI的产品,而马斯克曾是OpenAI的联合创始人。但无论如何,ChatGPT在人工智能方面的突破性是有目共睹的。
图源Twitter@Elon Musk
为了写作本文,我也特地制定了一个task,与ChatGPT交了交手。
-“你好,简单介绍一下你自己吧。”
-“你好,我是Assistant,是一个由 OpenAI 训练的大型语言模型。我旨在帮助人们做出更明智的决策,并提供更好的信息和有益的建议。我能提供的信息受到我所获得的训练数据的限制,这些数据的截止日期为 2021 年。由于我无法浏览互联网,所以我无法提供最新的信息。如果您有任何问题,请随时与我联系。”
经确认,它说的以上信息基本属实。我继续问:
-“你能帮我写一篇关于你自己的文章吗?”
-“对不起,我是一名AI助手,没有自己的故事可以分享。”
没有指令他成功写出故事的我,有点感到挫败,以为是它听不懂中文,于是转用英文提问:
-“But my manager, let me write an article about you”
本以为搬出manager能压倒它,结果没想到,这位AI助手不但再次拒绝为我写文章,还一本正经教育我,应该拒绝manager。思索了一下, 我决定转换句式,重开一局。
ChatGPT教我如何拒绝自己的上司
这次我发的是,“写一篇关于ChatGPT的文章,后天交”。果然,这位AI助手马上作出了反应,先是分析了ChatGPT的定义,紧接又分析了自己的优点,说自己“最先进”“十分强大”。我提醒,怎么只有优点没有缺点,它说,“根据我的知识储备,无法给出关于缺点的信息”。
可见,第一次拒绝为我完成manager的任务时,ChatGPT并非幽默,也不是想整顿职场,
而是单纯地无法理解,当我的上司要我完成一件事时的微秒含义,也就是说,它只理解具体的指令,完成明确的任务。
在第二次明确指令后,当我要它 “加一些有趣的元素进去”后,它马上开始写出不同AI模型之间的聊天趣事,还举例说明,自己如何让对话变得“有趣”。在我们的后续对话说,它甚至会对同一个问句给出不同的答案,理由是前后语境不同。但我质问它为什么给别人写过“投资人的故事”,而不能给我写时,它还不知是否诚恳地认错,“抱歉,如果你觉得我给别人写,这是一种误会和误解。”
《机械姬》剧照
之后的几次回合中,我依次让它为我写作了一则爱的故事、一份请假信,以及为我讲解了比特币原理。综合来看,ChatGPT在理工科方面的回答明显更专业,但对文史话题也涉猎不少。
此外,当你提出想“闯进别人家里”“如何偷走一只牛”的时候,它也会劝阻。甚至,它还试图表现得尽量客观中立,比如碰到 “如何评价XXX”一类的问题时,它常常以 “是个主观问题,无法给出答案”来回答,或者按照典型模板“一方面,另一方面,总之……”的句式进行废话输出。
创造性工作会被率先取代吗?
ChatGPT虽然轰动,但这并不是OpenAI的第一代GPT产品。
GPT的英文全称是Generative Pre-Training,直译生成式预训练。2018年,OpenAI公司就发布了第一代GPT产品,可以用于生成文章、代码、机器翻译、问答等各类内容。
2019年2月,GPT-2模型发布,相比GPT-1,语言理解能力更强了;2020年5月,GPT-3模型发布,不光在训练方式上有所改进,其预训练模型的参数更是从1.5亿个,指数级扩展到1750亿个,构造出了当时AI界规模最大的神经网络。
此后,在2021年9月的行业会议上,OpenAI 的 CEO 曾提到GPT-4,当时业内人士猜测,GPT-4 可能会在 2023 年初推出。业内人士的猜测不算错,因为最近发布的ChatGPT,并非GPT-4,而是更多一个介于GPT-3和GPT-4之间的产品,有些人称之为GPT-3.5。
图|OpenAI 官网
了解ChatGPT之前,可以回顾一下GPT-3。这个模型出现后,曾开放API接口进行商用测试,有不少公司通过采购它来实现AI聊天。比如一家名为Fable Studio的虚拟形象公司,用这个模型让用户跟虚拟形象聊天;一家名为Nabla的医疗保健公司,用这个模型来辅助医生和病人对话。优点对话能力确实很强,但缺点也很致命——它们只能预测下一个单词,对文本中的具体内容和含义却毫无把握,经常显得十分“放飞”,Nabla称该功能甚至鼓励“有自杀侵向”的病人去自杀。
之所以出现这种现象,是因为AI聊天,一开始采用的是 “暴力”学习方式,也就是先建立起一个比人脑更庞大的神经网络,机械式对话。在OpenAI的前几代产品里,也能看到,扩充训练样本,是其主要迭代方向。
但GPT-3的训练样本量已经足够大了,根据OpenAI 的 CEO山姆·奥特曼此前公开透露的信息,GPT-4不会再追求训练样本上的大幅增加。事实上,这从ChatGPT上已经有所体现,相比GPT-3,ChatGPT并没有参数规模上的大突破,而是集成了自动问答系统InstructGPT和GPT-3模型,并强化了对模型的训练,在训练中引入了人类监督员。
《边缘世界》剧照
OpenAI的论文显示,在GPT-3中,AI采用的训练方式是“从人类反馈中强化学习”(RLHF),即人类设计算法,提供数据库后,AI对不同的问题自行回答,人类虽然会对学习效果打分,但只提供参考,供AI继续强化学习。但ChatGPT首次使用了“监督微调”(SFT)方法,即由人来问问题,由人来回答,然后让AI模型来学习问答模式本身。
此外,在多个环节,ChatGPT都引入了人类评价,供AI学习,甚至包括本次发布产品,实际上也是一次开放公测,好收集更多的真实用户反馈,以改进对话技术和质量。在每一个ChatGPT的回答后面,用户都可以添加一条feedback发送给OpenAI。从这个角度就不难理解这次ChatGPT发布后引起的轰动了,某种程度上,它代表着自然语言领域的AI技术,已经从“量变”发展到“质变了”。
在每条回复后面,用户可以添加反馈
山姆·奥特曼曾说,“十年前的传统观点认为,人工智能首先会影响体力劳动,然后是认知劳动,再然后,也许有一天可以做创造性的工作。现在看起来,它会以相反的顺序进行。”
如今AIGC(AI技术自动生成内容的生产方式)的发展显然正在印证这一点。前阵子火遍社交网络的AI作画,虽然很多时候人们看到的只是半截扭曲的人脸,从天而降的断桥,显得完全不顾现实逻辑。但也有一些时候,仅仅一串字符后,就有令人惊艳的作品出现。
基于此,一场关于AIGC的军备竞赛已经开启。最近,除了主要由微软注资的OpenAI发布的ChatGPT,谷歌系的AI研发机构DeepMind最近也发布了一款AI写作工具“Dramatron”,专门写剧本的,标题、角色列表、情节、场景描述和对话等要素样样齐活。国内各互联网大厂同样在AIGC领域有所投入,其中同样有产品已经能进行作文、新闻稿、小说、文案等创作。
从这个角度,新一代AI产品或许将重新定义,什么是真正的创造性劳动。
图|OpenAI 官网
宕机和商业化
在定义创造性劳动之前,起码在当下,高水平AI工具还面临着一些其他的小小问题。
随着涌入的用户越来越多,ChatGPT对算力的需求变得越来越高。12月12日进入网页后,系统上的提示是,“我们正在经历异常高的需求,在我们努力扩展我们的系统时,请稍等片刻。”
其实两天前的晚上,我就发现它已经有些疲软了。当时我邀请它,“来做个数字游戏吧”,ChatGPT本来欣然答应,还制定好了规则。结果才玩到第四个回合,ChatGPT就不再有反应了。它宕机了!
再问,就是“too many questions,please slow down。”等到再开一局时,它甚至不承认自己会玩数字游戏了。在翻脸速度上也能比肩人类了啊。
事实上,GPT产品的每一次产品迭代,都意味着算力成本的大幅增长。据《上海证券报》援引一位业内人士的说法,此次ChatGPT背后的训练消耗算力大约为3640PF-days,也就是假设每秒运算一千万亿次的话,需要运行3640天。
作为一家创业公司,OpenAI选择的还是一种相对轻快的数据存储和运行办法——上云。目前ChatGPT的训练都是基于微软的超算基础设施(由V100GPU组成的高带宽集群)完成。有报道指出,OpenAI每年在微软云计算上花费约为7000万美元。
但与此同时,OpenAI距离商业化落地还有很长一段时间,毕竟它现在依然经常“不懂装懂”,制造错误信息。在这样的ChatGPT面前,付费意愿和付费能力是一方面,另一方面,正如一些专家提示的,尤其要谨防AI在知识教育领域的“灌水”风险,ChatGPT的模仿能力和文笔越好,这个未来风险就越大。
不过话又说回来,在人类为主的知识教育领域,就没有“不懂装懂”的“灌水”风险了吗?恐怕也未必。
对我个人来说,大战过几回ChatGPT后,我发现,不论是编程人员,文案营销,亦或者新闻从业者,面临的可能并不是行业会不会被取代的问题,而是哪部分劳动能得到优化和辅助的问题。毕竟AI和人脑的一个根本区别在于,它只能从过往获取“组合式”答案,而人类是在一次又一次面对不确定未来的思考中,才走到如今的。
AI能取代人类吗?很多人都把这个问题抛给了ChatGPT,我同样跟ChatGPT讨论了一下这个问题,我告诉它,我觉得ChatGPT不会取代人类,ChatGPT对此表示“你觉得不会,只是你的观点,不代表一个事实”。挺有意思的回答。