大模型时代,数据决定AI智能的高度。日益“庞大”的架构体系,动辄十亿计的计算单位,庞大的云计算数据中心……“大”,似乎越来越成为与人工智能形影不离的标签。
“事实上,生活中很多场景属于小数据或者弱数据环境,很难达到传统AI训练需要的数据量。未来,小数据环境是AI发展必须要攻克的难题。”中国科学技术大学苏州高等研究院特任教授王江涛说。
正式归国才3个月,王江涛心中已经有了一份完整的学术蓝图:在小数据环境下加快人工智能落地,最终在数字健康、智慧养老等领域实现“一套智能算法搞定千万种小数据场景”,为人工智能赋能更多行业探索新的技术路径。
选择苏州是科研和生活的完美结合
科学研究、探寻真理,理想的环境是允许研究者从自己的想法出发自主发挥。在王江涛心中,苏州是回国最佳的选择。从某种意义上来说,与苏州发展同频共振的校地合作典范——中国科学技术大学苏州高等研究院,是必然的选择。
2015年获得北京大学计算机软件和理论专业博士学位;2015年至2019年在北京大学担任博士后、助理研究员,获自然科学基金面上项目、自然科学基金青年项目及博士后基金一等资助;先后在英国兰卡斯特大学、考文垂大学担任助理教授、副教授职位,其间获英国国家工程和自然科学研究委员会优秀青年基金New Investigator Award,并入选英国国家研究与创新局“未来领导者托举计划”……翻开王江涛的履历,中外多所高校的任教经历,让他对如何选择研究环境有自己独特的认识——理想状态下,既要有文化沉淀,能让学者沉下心做学问;又要有毗邻产业的优势,让身处这里的人未来发展有纵深。
“我是学计算机出身的,在博士后和国外的教学经历中,逐渐转向了人工智能领域。在这一研究赛道上,我认为回国是最佳选择。”王江涛表示,中国的人工智能研究近年来进入发展“快车道”,科研经费、科研平台、优质学生数量飞速增长,科研环境相对欧洲更有优势。前些年,他几次回国来到苏州参加各种学术会议,对这里的创新氛围和产业环境留下了深刻印象,尤其是苏州工业园区,集聚了33所中外名校和15家“国家队”科研院所,拥有人工智能相关企业超1800家,人工智能与实体经济深度融合。“这让我觉得,回国一定要选苏州这样的城市。”王江涛说。
作为苏州工业园区与中国科学技术大学更宽领域、更深层次校地合作的成果,中国科大苏州高研院自成立之日起就紧贴城市发展脉搏,设置的生物医学工程、先进材料、数据智能和管理商科四个学科方向,无一不与本地产业布局紧密相关。当中国科大苏州高研院伸出“橄榄枝”时,王江涛决定回国发展。今年7月,他正式入职中国科大,成为人工智能与数据科学学院和苏州高等研究院的特任教授。
“选择苏州,选择中国科大苏州高研院,是科研和生活的完美结合。”王江涛说。
探索AI在数据贫乏场景下的“生存之道”
人工智能的本质是计算机利用大数据和算力来解决智能问题,即通过人工神经网络对人脑进行模拟,凭借对大数据的深度学习,以代替人脑中的生物神经网络。大数据和人工智能的关系,就像燃料和发动机。人工智能目前的飞速发展,以海量数据为支撑。
“但很多行业和应用不太可能拥有海量且高质量的数据,比如一些罕见病,发病率为百万分之几,可能一个省都没有几个病例。在这种情况下,怎么训练AI,让它们快速学习新概念并产生良好的泛化能力,从而用于临床诊疗和医学实践,是全新的挑战。”王江涛说。近年来,小数据环境下的AI日益成为人工智能的前沿趋势之一。
王江涛专注于机器学习和数据分析,对小数据的关注始于他在英国的一个研究项目。当时,英国国家医疗服务体系(NHS)委托他所在的课题组进行一项研究,要针对不同地区的疾病发病率做预测。项目推进中,王江涛发现数据稀少成为预测的最大障碍。“我们当时引入了外部知识框架,从疾病并发规律的角度出发,成功做出了更准确的预测。”王江涛举了个例子,假设一个地区肥胖的人较多,那么往往糖尿病、高血压也会伴随多发。这样的预测模型把所有相关疾病放在一起考虑,会形成相互增强、同时并行的效果,有助于更加准确地预测趋势。
“大数据与大模型作为深度学习引擎已经成功运行了很多年,未来一段时间仍然深具活力。但我认为,当神经网络架构走向成熟,从数据科学角度切入,会带来新的驱动力。”王江涛说,他目前聚焦小数据和弱数据环境,希望引入特定的领域知识解决小数据环境下的人工智能发展“瓶颈”。“我选择数字健康和智慧养老这两个应用领域发力,一方面是因为跟我此前的研究相关;另一方面,也是考虑到我国老龄化问题和苏州本地相关产业的优势,让科研和技术未来落地都有了实际的社会和经济价值。”
让一个系统“单挑”千万个小数据场景
在传统算法训练模式下,一般是“一套算法对应一个场景”。换个识别对象,就需要从头收集样本数据、开发训练。这就导致一套算法上线,往往是长战线模式,背后需要投入很高的人力、物力成本。王江涛试图解决人工智能越来越“大”的问题,有望开启新的技术模式。
“我们将在开发通用算法和框架方面努力,并将其集成为一个系统,从理论上支撑小数据场景下不同技术路线人工智能的发展。或许在未来,不用收集大量样本数据集,小样本就能调优,一个系统满足多种场景、多项任务将成为现实。”王江涛说。他把自己的研究领域定义为“知识驱动的医学人工智能”。背靠中国科大苏州高研院,凭借在人工智能和数据科学这一前沿领域拥有独特的研究视角和深厚的科研背景,王江涛课题组已向优秀人才发出“召集令”。
按照课题组的研究规划,其研究内容从生成式人工智能到基于自监督学习的时序数据分析,其领域涉及的技术和方法都是当前学术界和工业界的热点。对于希望在人工智能和数据科学领域深耕的学者来说,这里无疑是一个梦寐以求的科研环境。
根据王江涛心中的“蓝图”,团队完成搭建后,首先将在实验中形成一套理论,第二步是在理论的基础上开发一系列算法,最后是在实际应用场景不断迭代、升级算法,在广泛应用中实现与研究和产业的完美衔接。“AI发展步入深水区后,需要寻找新的技术路线,来‘啃一些硬骨头’。我希望团队成员能一起朝着目标努力,让数据科学的‘种子’早日破土,让医疗领域大量的小数据长尾场景加快实现智能化。”王江涛说。
苏报驻园区首席记者 董捷
《苏州日报》 2024-11-7 A04版