■中国出版传媒商报记者 聂慧超
编者按 近日,国家数据局等17部门联合印发的《“数据要素×”三年行动计划(2024—2026年)》提出,挖掘文化数据价值,贯通各类文化机构数据中心,关联形成中华文化数据库,鼓励依托市场化机制开发文化大模型;建设高质量语料库和基础科学数据集,支持开展人工智能大模型开发和训练。总的来看,这无疑强化了出版机构利用与研发大模型的保障支撑。
2023年ChatGPT火爆全球,生成式人工智能(AIGC)引发了内容创作、审校、翻译、营销等传统生产方式的变革,同时也激发了大众对于多模态大模型的想象与真实需求。在新图景的驱动下,一批领域大模型冉冉升起,并逐步迈入探索商业化与应用场景的阶段。中国出版集团作为出版“国家队”,旗下多家企业依托自身内容资源和技术优势,加强对人工智能、大数据等前沿技术的研究,积极参与通用大数据和垂类大数据模型建设及应用,推进新技术与传统出版业态融合创新。2024年开年之际,商报采访了集团旗下的中译语通科技股份有限公司、中华书局古联(北京)数字传媒科技有限公司、中图科信数智技术(北京)有限公司3家公司负责人,探究各家布局大模型的战略进展。
技术派企业做大模型,走出一段新增长曲线
近日,中译语通科技股份有限公司(以下简称“中译语通”)与昆明人工智能计算中心签署人工智能战略合作协议,双方将以多模态大模型为核心的通用人工智能为基础展开深度合作,通过建设昆明人工智能计算中心,实现多模态大模型技术重要研究突破,大力探索在军事、国家安全和产业科技等关键领域的场景化应用。
中译语通是中国出版集团旗下中国对外翻译有限公司控股子公司。该公司自2013年成立以来,自主研发并构建起了包括机器翻译、大数据、知识图谱等方向的关键技术生态。在人工智能浪潮中,又成功架起人工智能生成、人机交互和大模型的技术桥梁。用从容、激进、有雄心这几个词描述它进军大模型的状态,仿佛都很适合。作为一家长期坚持技术务实的公司来说,如何在大模型技术浪潮里找到自身的“成长性”,将是其站稳科技前沿阵地的关键。
务实的技术基因
全力押注一个方向
技术作为核心,始终驱动着中译语通的业务成长,同样,中译语通也始终站在世界技术的前沿,发力自研技术与应用。展开中译语通大模型技术研发路线图,会发现,其表现称得上是布局早、发力猛。凭借自身强大的分析及决策工具平台,为企业用户的跨域协同和智能决策提供一体化人工智能解决方案。
中国对外翻译有限公司总经理、中译语通董事长于洋介绍道,2013年中译语通成立之初,公司就启动了以机器翻译和自然语言处理为核心的人工智能技术研发,那时还是以传统的统计机器学习和浅层深度学习网络为主。2017年,Google提出了Transformer模型架构,机器翻译技术由统计机器翻译过渡到神经网络机器翻译,中译语通在神经网络机器翻译方面取得了巨大成果,翻译质量和处理效率显著提高,模型网络结构的进化为后续大型模型打下了基础。
2018年末,Google发布了初代预训练模型BERT,中译语通敏锐地意识到预训练大模型的巨大潜力,开始利用BERT、Bart等预训练模型对自然语言处理、知识图谱和机器翻译进行全新革命,并在行业内取得了领跑多个自然语言处理任务榜单的佳绩。
2019年,中译语通在大模型领域初露头角——正式发布跨语言知识图谱平台产品,着手打造了预训练大模型和知识图谱的深度融合架构,大幅提升了预训练模型能力和跨语言知识构建能力。2020年,公司的研究重点转向了多语言翻译模型,利用多语言翻译模型的迁移学习能力,提升资源稀缺语种的翻译质量。2021年,依托科技部科技创新2030——“新一代人工智能”重大项目,致力“以中文为核心”的多语言多模态机器翻译核心技术、自然语言处理技术的基础研究和应用研究,同年成功申报了云南省科技厅重点研发计划“以中文为核心的超大规模神经机器翻译模型研究及产业应用项目”。
2022年,依托云南省项目、联合实验室,中译语通发布“格物”大模型,包括支持113个语种的多语言预训练模型、支持单一模型上百语种上万语言方向的千亿级参数多语言机器翻译超大模型,以及融合文本-图像-音频-视频全模态能力的多模态生成式对话模型,针对多行业和应用场景提供多模态机器翻译、语音识别与合成、图像理解与OCR(文字识别技术)、自然语言处理、知识图谱、多模态内容理解生成等一系列高效、准确的智能服务,为用户带来前所未有的便利和体验。
2023年,ChatGPT的横空出世,以生成式AI为核心的统一任务大模型开始席卷整个人工智能市场。这一年,中译语通公司将十余年积蓄的力量,精准输出,发布了格物—多语言生成式对话大模型,并启动格物—多模态生成式大模型的研发,实现垂直领域人工智能大模型的落地。
落地!保障场景应用的厚度与深度
从机器翻译、语音识别,到大数据分析、知识图谱,再到大模型全栈技术[指包括应用程序前端(客户端)和后端(服务器端)]等完整的开发生态,中译语通在军事、国家安全、国防科技、产业科技、数字经济和出版传媒等领域已拥有丰富的落地应用案例。于洋表示,中译语通将在2024年将大模型技术全面升级为全栈技术平台的底层基础技术框架,一方面快速迭代并适应大模型所带来的技术革命,提升研发效率,另一方面快速实现产业的场景化落地应用。
出版业是中译语通关注的重点领域之一。于洋认为,大模型技术在自然语言处理、图像识别等领域展示了巨大的潜力,在出版传媒行业同样有着丰富的应用场景。一方面,能够提升出版企业的生产效率,自动化处理大量数据和内容,实现编辑、排版和出版流程高效运作;另一方面,在内容制作方面,能助力出版机构实现个性化内容创造、内容分析与市场洞察、数据驱动的故事叙述,增强现实和虚拟现实内容。除了将大家熟知的机器翻译、语音识别和人工智能生成等技术应用在出版传媒领域,中译语通与商务印书馆共同打造了基于区块链的图书防伪溯源系统,实现了区块链、大数据以及人工智能技术在传统图书出版行业打击盗版新实践。
中国出版集团作为出版业的“国家队”,正在努力构建适合集团发展的新型共性技术平台服务支撑体系。于洋建议,集团首先要做好顶层设计,根据旗下企业实际情况制定集团内数字化与大模型战略推进时间表;其次,要加快推进大模型等新技术与业务的融合发展,统筹平台、技术和数据的建设实施,提高集团数字化水平的同时,最大程度地节约资源。此外,要统筹数据资产治理,形成集团的集约优势,发挥庞大的高质量知识数据的最大价值。
除了出版业,中译语通已将大模型技术应用于不同垂直领域、不同场景下的科学研究,“AI for Science”技术与产品生态已然形成。依托庞大的高质量全球专利、科技文献、科技资讯、专家学者和全球产业链数据,中译语通2030人工智能研究院与清华大学、天津大学、哈尔滨工业大学等高校展开联合研究合作。产业应用场景方面,与国防科工局成立了“全球防务信息系统创新实验室”,与中央广播电视总台新闻中心成立“多模态数据新闻联合实验室”,与军事和国家安全机关联合进行技术研发,与大型央企集团建设能源领域科技大脑大模型和航空航天科技大脑大模型,深度挖掘大模型技术在不同场景下的应用。
对于中译语通来说,关于大模型的探索,落地业务场景以后,并不代表着结束,而是开端。于洋表示,接下来,公司将发挥自身优势,夯实通用多模态大模型数据底座和技术基础,实现语言、视觉、声音的多模态统一感知和生成,结合行业特征,为一些关键领域用户构建可适应复杂场景应用的安全、可信的私有大模型应用,为用户的跨域协同、智能分析、研判决策提供一体化解决方案,打造可落地的行业级旗舰大模型,赋能大模型与行业的深度融合发展和安全可靠应用。
大模型带给古籍整理另一种突围方式
日前,中华书局古联(北京)数字传媒科技有限公司(以下简称“中华书局古联公司”)与南京农业大学信息管理学院(以下简称“南京农大”)王东波教授研究团队联合发布“荀子”古籍大语言模型。这是国内首个专门应用于古籍处理与研究的智能工具。这一尝试的分量到底有多重?很多人可能还不太清楚。但对于中华书局古联公司而言,“荀子”古籍大语言模型仿佛是重新打开了一扇窗,引领它踏上古籍智能化新时代的又一版图。
古籍大模型,懂古籍吗?
大模型经历了初期的狂奔后,厂商们已经意识到,“规模大”或“参数高”是不够的。回归产业、回归真实场景、解决实际问题,才是技术的最终归宿,也是大模型良性发展的开端。随着OpenAI的ChatGPT将更多触角伸向产业端,一批批具备扎实产业数据和场景实践的企业开始走向台前。2023年3月,中华书局古联公司也正式入局大模型赛道,并不断加码AI应用开发的信号。
对于“人工智能+古籍整理”这一课题,中华书局并不陌生,也可以说,早已涉足。“古籍数字化与知识工程重点实验室”是原国家新闻出版广电总局于2016年12月批准的首批新闻出版业科技与标准重点实验室,由古联公司牵头,致力于解决我国古籍整理出版数字化与知识服务的关键问题。在实验室研究阶段,古联公司研究人员就开始投入与古籍相关的人工智能研发工作,包括古籍OCR识别、自动标点、专名标引、繁体转换等一系列功能研发。这些成果为后期古联公司进行大模型探索打下重要基础。
中华书局古联公司总经理洪涛结合多年的探索实践谈道, 随着ChatGPT在不同行业的多模态应用,古联公司开始围绕古籍整理需求,利用ChatGPT进行了一些测试,进一步研究可落地的需求应用场景。同时,在国内积极寻找具备通用大模型的技术合作伙伴,以便更好地基于通用大模型开展古籍领域自适应研发。
在寻找过程中发现,南京农大正在研究古籍类大模型,该团队从2008年开始接触古籍,2013年至今一直专注于人工智能精准标注数据的工作,积累了一定的研发成果。这一研究方向,与古联公司的目标不谋而合。于是,双方迅速达成合作意向,在分工方面,南京农业大学负责出技术、出算力,古联公司负责提供古籍整理的常规训练方法、应用场景需求,以及相关产业推广,古联公司内部的编辑力量也会从专业角度协助南京农大的技术人员训练模型。同时,古联公司与清华大学基于大模型进行古籍整理和数字人文研究的技术合作也在持续推进中。
领域大模型的建设与通用大模型不同。如果说通用大模型考验的是企业的算力、算法积累,领域大模型则更考验企业对业务场景的触达与理解,以及对专业数据的积淀与运用。
洪涛表示,要想更清楚地解释古籍产业大模型的价值,首先要明确“古籍”与“古文”这两个概念的区别。很多人把二者当成同一个事物,其实不然。古籍承载的是中国历史文化内容,用户想快速了解历史人物、历史故事、古代制度等内容,也可以翻阅现代出版的学术书、工具书、科普书,或者在网络上查找。而古联公司要做的大模型的应用场景,主要是针对古文角度,即怎么去处理古籍,比如,生成古籍索引与摘要,进行文言到白话翻译。在检索时,不用输入古籍原文,也能找到全面的相关内容,让答案的外延更广。
目前,“荀子”古籍大语言模型包含了“四库全书”在内的古籍文献超20亿字大型语料库,能够实现自然语言理解、自动翻译、诗歌生成、自动标引等多项功能。洪涛表示,“荀子”古籍大语言模型的应用是古联公司在大模型领域研发工作的第一步,2024年,公司将在“荀子”古籍大语言模型现有语料的基础上,训练出一个从质量到性能更符合商用需求的大模型,打造古联公司自己的商业大模型。
生成式AI成本难控
垂类大模型盈利为王?
一个事实是,当下的大模型训练需要强大的算力支撑,尤其是参数量大的模型,花费极大。
洪涛表示,“荀子”古籍大语言模型是基于开源模型进行垂类模型开发,可兼顾开发成本和数据安全,但它的定位是公益性质的,非营利的。而古联公司正在积极研发的商用大模型,则是用来产业化开发和服务的。
洪涛坦言:“大模型研发最主要的条件就是技术,但我们在算力上比较缺乏。目前,显卡技术受限,且购买成本较高,溢价严重。即使租用服务器,自营成本也很高。基于这一考虑,我们选择和学校合作,利用学校的相关研发条件做一些基础性工作。确认技术路线和可行性后,再进行商业化的投入。”
盈利空间是大模型商业化的另一“拦路虎”。洪涛解释道,古籍相关内容不像法律、医学或经济类内容,可以直接产生经济效益。对于用户而言,付费意愿和付费能力都非常有限。在这种情况下,古联公司不会贸然用大模型去进行大范围的个人业务服务,而是将大模型应用于企业内部生产。比如,加快古籍数字化进度,提升生成知识库的效率,通过节省其他的生产成本来实现大模型的研发收益等。“有了初步的积累,接下来,古联公司将加速大模型的产业化落地,为其他出版社提供类似的技术服务。比如,中医古籍出版和研究机构需要一个中医古籍模型,我们在大模型中,依据其需求,并借助其资源进行合作训练,为其提供中医古籍领域的专业服务。”
洪涛对于大模型的发展抱持乐观的态度,他认为,大模型带给出版业的,更多是利好。一个深层次的大模型在某些方面可以为作者节省很多成本,出版社也可以生成很多自有知识产权的图书内容。“对于中华书局古联公司来说,希望上级单位在科技基础设施的研发上给予资金和政策支持,减轻企业研发压力;为旗下具有研发大模型的企业统一购买或搭建一个算力平台,大家都可以在该平台上进行训练,提升资源使用效率,降低研发成本。”
中图科信的机遇,藏在垂类大模型?
“水利工程师在进行水利调度设计、防洪调度设计、防洪预警与泄洪调度等水利工作时,需要参照水利工程手册、水库设计手册与调度规范等人工测量的图表与数据。有了水利行业垂类大模型,拿着手机拍个照,或者发一段语音描述,就可以快速获取对应流域、水库及历史洪水的详细信息与数据,并通过大模型对文档的推理与理解,给出相应的解决方案。”中图科信数智技术(北京)有限公司(简称“中图科信”)总经理李沄沨向记者描述的这幅智慧水利的景象,正是中图科信利用水利大模型解决水利工程真实困境的应用场景,也是接下来该模型的重点研发方向——辅助工程师设计和规划水利工程,以提高工程的效果和可持续性;模拟工程的运行情况和效果,为决策者提供设计和规划方案,优化工程设计与管理。正如2000多年前的李冰治水缔造了超级工程都江堰一样,今天的水利工程师在人工智能大模型的加持下,正在完成的新的治水工程方案。
伴随着ChatGPT的爆火出圈,生成式人工智能(AIGC)正引发新一波行业热潮。中国图书进出口(集团)有限公司(简称“中图公司”)旗下的中图科信,作为一家技术服务公司,敏锐地将目光瞄准了人工智能领域,研发出一款自主可控的大模型。在各项挑战之外,实际的场景需求也加快了大模型垂类化的过程。
李沄沨介绍说,中图科信自2021年开始布局NLP(自然语言处理的模型),尝试打造文本摘要训练新范式。2022年底,中图科信团队关注到GPT模型可能会有爆发的趋势,并意识到,从“通用”迈入“垂类”将是大模型发展的必经之路。于是,开始围绕这一技术方向进行深入研发。2023年5月,通过Transformer Decoder Only的架构,搭建出一款自主可控的垂类大模型——中图科信大模型,现阶段,该模型主要服务于水利、农业、医学、出版知识服务四大领域。
相比通用大模型,垂类大模型的开发需要坚实的技术支撑与高昂的训练成本。中图科信相信,虽然成本高昂,但持续性的逐步投入,与创新性的生产力会呈正相关。目前,中图科信由10多位算法工程博士组成人工智能研发团队,基于沉淀的海量科研数据,结合用户私域专属数据,为用户提供细分行业的垂类大模型服务。这也是中图科信在大模型时代所演化的主要商业模式。
大模型发展如火如荼,中图科信基于自身行业优势与核心技术的专属性,分别于2023年7月与9月,同华为和腾讯签署协议,在人工智能大模型领域就算法研发、算力资源、场景应用等方面开展合作。2023年11月,中图科信与香港中文大学(深圳)签约开展校企合作,双方就医疗领域的问答大模型研发、训练及学术成果发表,开展科技创新项目合作及成果转化。中图科信将深耕农业、水利、新材料、新能源等细分领域,为大模型服务拓展更多垂类方向。
在李沄沨看来,“中图科信只是产业链上的一部分,当产业的‘盘子’持续做大,上下游都能受益,每家企业也能更好地实现自己的价值”。利用大模型实现知识服务,不能贪多求快,应以更加开放包容的心态和长远的眼光来对待这件事。内容机构与技术公司各有其价值,只有彼此真心合作,将其擅长的方面做精做深,才能出现1+1>2的效果。此外,中国出版集团为企业技术研发进阶指明方向;中图公司重点落实“新质生产力”在出版行业知识服务的主体作用,整合集团各单位的优势,打好配合战,在数据端互联互通,在技术端相互支撑,共同打造垂类大模型产品,使之成为知识服务领域引领性的标杆,助力中图科信依托大模型技术的革新为行业带来新的生机。