9月8日消息,The Information首次曝光了苹果公司AI大模型开发团队的核心成员,参与创造Java的Arthur Van Hoff、苹果公司机器学习和AI战略高级副总裁John Giannandre、神经网络领域专家Ruoming Pang等人强强联手助力苹果AI大模型发展。据知情人士透露,现在苹果公司最先进的大语言模型Ajax GPT的训练参数数量超过2000亿,或许在功能上比OpenAI的GPT-3.5更强。
如今,苹果公司计划将公司开发AI大模型的预算提高到每天数百万美元。还有消息称,苹果公司想将其大语言模型融入Siri产品,并且设想过在手机端运行其大语言模型。
本文将分析苹果公司开发AI大模型的资金投入规模、团队核心成员背景、目前的阶段性成果以及未来挑战,帮助读者了解苹果公司开发AI大模型一路走来的详细历程。
一、每日数百万美元投入,苹果AI大模型或融入其产品
根据The Information报道,如今苹果公司将把训练最先进模型的预算增加到每天数百万美元,而这只是对开发其中一种模型的投入,可见苹果公司对开发AI大语言模型的资金支持是不吝啬的。这意味着哪怕以高昂的研发成本的为代价,苹果也将重点发力大语言模型。
OpenAI首席执行官Sam Altman曾说,OpenAI在6个月的时间内训练ChatGPT的最先进模型GPT-4的花费是1亿多美元。而按照The Information报道的每天数百万美元来计算,苹果公司6个月的预算最少为1.8亿美元。相比之下,苹果公司为开发AI大模型投入的资金是远超OpenAI的。
在这样的资金支持下,苹果公司在AI大模型方面取得了不少成果。据The Information报道,Siri团队计划整合语言模型,使用户能够以目前无法实现的方式自动执行复杂的任务,例如使用简单命令创建和发送GIF。这项新功能与苹果的快捷指令相关,它可以让用户使用不同的应用程序手动编排一系列操作,预计在明年将与新版iPhone的操作系统一起发布。一位知情人士称,谷歌也一直在努力通过语言模型软件升级其语音助手,使其语音助手可以理解和处理更复杂的任务。
Siri
不过人们对于苹果公司如何将其大语言模型融入其产品中仍然存在疑问。根据多位曾在苹果公司从事机器学习的工程师称,苹果公司的领导层更偏向于利用“边缘AI”,即在设备上而不是在云服务器上运行AI模型软件,因为这样可以提高软件的隐私性和性能。例如,苹果公司的人脸检测AI模型就不是在服务器上运行,而是完全在iPhone上运行。但现在,AI大模型对于计算和内存的需求较高,在设备上运行苹果公司开发的大语言模型软件可能还比较难实现。
一位比较了解大语言模型的人士说,以Ajax GPT为例,Ajax GPT的训练参数数量超过了2000亿。大语言模型的训练参数反映了机器学习模型的规模和复杂程度,参数数量越高,表示复杂性越大,需要的存储空间和计算能力也越大。一个参数超过2000亿的大语言模型几乎不可能合理地装入iPhone。但这种情况在未来或许会改变,因为开发人员已经有缩小大型模型的先例可以参考。例如谷歌的PaLM 2模型有四种不同的尺寸,其中有一种就可以在设备和离线状态下运行。
如果苹果的开发人员能够使Ajax GPT的较小版本在iPhone和Macbook上完全运行,那么用户提供的数据就能够保留在这些设备中,并且可以利用设备中的闲置计算能力来缓解 AI 芯片短缺的问题。
二、三位技术大牛领导团队,为苹果AI大模型奠定研发基础
苹果公司早早就对开发AI大模型做出了准备。四年前,苹果公司在Giannandre带领下组建了Foundational Models团队来开发大语言模型,而Foundational Models团队的原身则是Van Hoff领导的一个开发内部代号为Blackbird的新版Siri的团队。后来,Pang加入苹果,成为Foundational Models团队的负责人。
Van Hoff、Giannandre、Pang三位技术大佬在不同程度上对苹果公司的AI大模型发展起了推动作用。
1、Arthur Van Hoff:苹果大语言模型带头人,曾开发新版Siri
有知情人士称,Van Hoff是Sun Microsystems团队的早期成员,该团队在20世纪90年代创造了Java,后来Van Hoff成为了知名企业家。2019年,Van Hoff加入苹果,在一开始是负责开发内部代号为Blackbird的新版Siri,但苹果最终放弃了该项目。
随后,Van Hoff的团队开始专注于大语言模型,最初的目标是开发出用于Blackbird的模型的基础版本。Van Hoff团队最初只有几名成员,其中最著名的是两名专门从事自然语言处理的英国研究人员Tom Gunter和Thomas Nickson。这两名研究人员都曾在牛津大学获得高级学位,并于2016年加入苹果公司从事Siri的研发工作。
Arthur Van Hoff(图源:VARIETY)
2、John Giannandre:苹果大语言模型主推人,使用谷歌云训练模型,曾开放源代码吸引人才
Giannandrea是前谷歌AI部门主管,在2018年加入苹果。他一开始加入苹果公司是为了改进Siri,并将更多的机器学习技术融入苹果的软件中。
加入苹果后,Giannandrea帮苹果公司招募到了来自谷歌的关键工程师和研究人员。四年前,Giannandre组建了一个名为Foundational Models的团队来开发大语言模型,这个团队规模比较小,大概有16个人,其中有若干个是前谷歌资深工程师。Giannandrea之前在谷歌的时候就曾是这些工程师的领导。
Giannandrea成立Foundational Models团队的初衷源于Giannandrea决定让苹果公司像谷歌一样,能够给予员工更大的灵活性来进行各种研究并发表论文。之前对这些做法的限制损害了苹果公司招揽人才的能力,因此苹果公司虽然一直在想办法将早期的AI运用到苹果产品中,但研究人才的缺乏仍然限制了其AI技术的发展和产品的进步。
如今,Foundational Models团队发挥的作用与谷歌、Facebook等公司的AI团队类似,先是研究人员来开发大语言模型,然后其他团队则将这些模型应用于公司的产品中。
虽然Giannandrea曾多次向同事表示怀疑,认为大语言模型驱动的聊天机器人的潜在实用性有限,但事实上他组建开发大语言模型的团队是有先见之明的,这让苹果公司对现在的大语言模型热潮有所准备。Giannandrea的几位同事也说,他改变了苹果公司的软件研究文化。并且,据知情人士透露,过去一年里,Giannandrea在看过一些内部演示后,开始认识到大语言模型技术在完成任务方面的潜力。
John Giannandrea(图源:The Information)
据知情人士称,Giannandrea更青睐使用谷歌的云服务,例如搭载谷歌开发的AI芯片(被称为张量处理单元)的服务器,来训练苹果用于改进Siri和其他产品功能的机器学习模型。Giannandrea的这一观点也与苹果公司相契合。
两位知情人士透露,因为谷歌的价格较低,为了节约成本,苹果公司的管理人员一直以来都鼓励机器学习工程师使用谷歌的云计算服务。据一位熟悉情况的前苹果高管透露,之前谷歌高管曾告诉苹果公司,谷歌云服务的定价较低有一部分原因是让谷歌和苹果之间达成更广泛的业务合作,例如谷歌搜索是Safari浏览器的默认搜索提供商。根据The Information的云数据库数据,多年来,苹果公司一直是全球最大的云服务器租赁商,并已经成为谷歌云最大客户之一。
Giannandrea还使得苹果公司在开放源代码方面做出了尝试。在Giannandrea来到苹果公司之前,苹果公司以保密著称,开放可用于商业用途的源代码是不寻常的。
而在Giannandrea的领导下,今年7月,Foundational Models团队悄悄地将机器学习框架AXLearn的代码上传到了开源及代码托管平台GitHub,公众可以利用它来训练自己的大语言模型,而不必从头开始构建所有内容。
我们无法得知苹果公司公开发布AXLearn的理由,但通常公司这样做是希望其他工程师能够对其进行改进。事实上,一位知情人士称,自从苹果公司将AXLearn的代码上传到GitHub,至少有12个人加入了苹果公司的机器学习小组中,其中有7个人之前曾在谷歌或Meta工作过,这帮助了Foundational Models团队更好地提升AXLearn的功能。
3、Ruoming Pang:苹果最先进大语言模型的训练者,曾领导开发AXLearn
2021年,在谷歌工作了15年的Pang加入苹果公司,帮助苹果公司训练最先进的大语言模型。
了解Pang的人说,Pang在神经网络方面的研究工作有很高的声誉。神经网络是机器学习的一个分支领域,涉及到训练软件以识别数据中的模式和关系,类似于人脑的工作原理。他有一些比较著名研究涉及到神经网络如何与手机处理器配合工作,以及如何使用并行计算来训练神经网络。其中,并行计算是将较大的问题分解为较小的任务,以方便多个处理器能够同时进行计算的过程。
并且据知情人士透露,与其他苹果公司的研究人员不同,Pang获准留在纽约工作,并被授权在纽约为苹果公司的机器学习小组建立一个新的前哨站。
选择Pang或许是苹果公司做出的一个非常正确的决定,从AXLearn中可以看出Pang对苹果公司的影响很大。
AXLearn是Pang的团队在过去一年中开发的用于训练大语言模型Ajax GPT的机器学习框架,它可以快速训练机器学习模型。而AXLearn开发出的功能一部分是基于Pang的研究,同时针对谷歌的AI芯片TPU进行了优化。知情人士透露,苹果公司的团队成员认为,其最先进的语言模型Ajax GPT在功能上超过了OpenAI的GPT-3.5。
AXLearn其实也是谷歌研究人员开发的开源框架JAX的一个分支。如果说苹果的Ajax GPT是一座房子,那么AXLearn就是施工图纸,而JAX就是用来绘制这些施工图纸的纸和笔。苹果用于训练其大语言模型的数据则相当于建筑材料。