| 广西新闻网 > 教育频道 > 要闻 > 正文 |
从有到优,语料库建设要迈多少坎 |
2026年02月02日 07:55 来源:广西云-广西日报 记者 黄玲娜 罗 丹 编辑:李香莹 |
|
一副看似普通的眼镜,仅重61克,却能实时翻译、AI交互,自带138种语言实时翻译,东盟小语种识别率达90%……第22届中国—东盟博览会上,一副看似普通的黑框眼镜被客商们争相试戴。 创造这副眼镜的迈越科技公司副总经理黄有章,就站在几步之外。这一幕,让他想起8年前在凭祥口岸看到的景象:中越商户们涨红了脸,用手势比划着水果价格,交易在计算器的“滴滴”声和含混的单词中进行!澳鞘蔽揖拖耄龀瞿艽髟诹成系姆牍ぞ。”他回忆道。 这副惊艳东博会的眼镜,背后远非一家企业的技术突破。
黄有章展示AI智能眼镜 。权晟 摄 “以前,寻找东盟小语种非通用语料,如同在沙漠中寻水;如今,高校、企业、政府三方拧成一股绳,数据池越积越满、质量越来越高!惫阄鞣胄岣被岢の录铱诮邮懿煞檬比缡歉锌。 广西的语料库建设何以起势?从有到优,还要迈过多少坎? 从“为什么是广西”到“广西如何做” “语料库绝不是单纯的‘数据仓库’,能切实解决实际问题才是核心!惫阄鞔笱斯ぶ悄苎г焊痹撼っ勺媲康墓鄣,道破了广西建设语料库的起点:强烈的现实需求驱动。 边境贸易的窘境、跨境医疗的风险、商事纠纷的僵局,这些具体痛点,成为倒逼语言数据建设的动力。但真正让广西得以蹚出一条路的,是独特禀赋与务实路径。 “其他省份可能更多依赖文献,而我们能直接在边境、在东盟,采集到鲜活、地道的语料。”黄有章认为。超过1.2万名东盟留学生和密集的小语种专业,为这座数据池提供了源源不断的活水。 “我们不需要一味追求最前沿的技术,更需要‘好用、便宜、适配本地需求’的实用技术!惫阄髅褡宕笱У墓鲜μ寡。例如,他们攻坚三个月,将老挝语的文字识别准确率从30%多提升至80%以上。这项“够用就好”但关键的突破,立刻盘活了海量纸质文献。 政策精准滴灌,更为语料库建设按下快进键。 2026年,自治区印发广西深入实施“人工智能+”三年行动方案,明确提出“加快实施高质量语料库建设工程”;自治区教育厅将语料库建设纳入高校学科评估核心指标,给予招生计划与科研经费双重倾斜;南宁、柳州等地创新推出“语料券”“算力券”补贴政策,企业与高校合作可申领最高100万元补贴,有效激发了协同共建活力…… “若没有‘人工智能+’行动方案的精准扶持,我们的语料库或许仍停留在理论构想阶段!币晃灰的谌耸扛锌。
黄有章介绍迈越科技东盟语料库管理平台。记者 黄玲娜 摄 从“数据荒漠”步入“数据丘陵” 当然,“并不是所有语种都能建立语料库。”广西医科大学王富博教授表示。 他以广西本土方言为例作了分析。据他介绍,广西的壮语语料库资源极度稀缺,目前尚无一本权威的壮语医学词典可供参考!案慰觯阄鞑唤鲇凶秤,也有粤语和各种方言,而要建立某种语料库必须具备语言和文字两个条件,这便是本土特色语料建设的困境”。 因此,尽管广西人工智能语料库建设成果初显,但前行之路并非坦途。受访者的一个共识是:广西正从“数据荒漠”步入“数据丘陵”,从“有没有”迈向“好不好”,挑战更为复杂。 调研表明,广西高校语料库存在明显短板,主要体现在三个方面:质量上,通用语料占比偏高,专业语料匮乏,东盟小语种语料中日常对话类超60%,医疗、法律等专业领域占比不足20%;范围上,越南语、泰语等主要语种布局较全,文莱语、东帝汶语等小众语种近乎空白;形式上,文本语料为主,语音、视频等多模态语料占比不足15%。 “我们曾经采集过一段老挝语工程机械维修视频,仅差旅费就数万元,还未必能获高质量素材!惫阄骺萍即笱斯ぶ悄苎г旱囊晃焕鲜樯,该校为收集100小时的泰语机械维修视频,耗时8个月、投入超40万元,高成本与高难度让多模态建设举步维艰。 更棘手的是语料标准化不足,各高校标注规则各异。“我们曾想引用某大学的越南语医疗语料,因标注规则不同需重新加工,成本高、效率低,最终只能放弃。”广西外国语学院人工智能学院院长钟明辉无奈表示。 “缺乏相关国家本土人员支持,公开语料多被大公司垄断,语音语料难辨有效信息等,都加剧了采集难度!泵勺媲坎钩淞擞锪匣袢∧训恪 如何构建能自我生长的生态 “首要任务,是‘立标准、通血脉’!倍辔皇芊谜吆粲,必须尽快从建设具体项目,转向构建一个能自我迭代、良性循环的生态系统。 一方面,是复合型人才的培育。“‘东盟小语种+AI’复合型人才招聘难,要么懂小语种缺AI技术,要么懂AI不懂小语种,供需错配突出!被朴姓陆樯,迈越科技的情况反映了行业普遍困境。 调研显示,广西高校语料库建设面临师资、学生“两缺”难题。具备东盟语言、AI技术与行业知识的教师不足50人,多依赖外聘专家;“人工智能+小语种”专业年均毕业生仅300余人,且60%以上流向发达地区,人才流失严重。 针对人才短板,区内高校纷纷创新模式。例如,广西民族大学设实验班、广西医科大学开微专业、广西外国语学院开发特色课程;不少高校依托“广西人才计划”引进高端人才,搭建校企联合培养基地实现就业无缝衔接。 另一方面,需要协同创新破局,激活语料库生态效能!暗ニ咝5淖试从肽芰τ邢蓿ㄓ斜欧⒄、协同发力,才能把语料库做大做强、做深做精!惫阄髅褡宕笱斯ぶ悄苎г涸撼じ鹄瞿忍岢龅墓鄣,也是广西高校的普遍共识。 针对校际、校企间的“数据壁垒”与安全顾虑,广西搭建起“高校牵头、企业参与、政府协调、东盟合作”的多元协同机制。 校企合作中,广西科技大学与五菱汽车共建“汽车术语语料库”,3个月内完成5000条车载越南语术语标注;跨境合作上,广西高校已与东盟160余所高校建立合作,联合研发小语种大语言模型、校准医疗语料。技术层面,聚焦东盟小语种特性,开发“东盟小语种智能预标注系统”,依托柳州东盟智算中心提供50%算力补贴。 “我们不仅要追赶前沿技术,更需要‘好用、便宜、适配本地需求’的实用技术。”广西民族大学老师郭泉建议。 “语料库建设不是短跑,而是久久为功的马拉松!弊乙恢卤硎荆、企、政协同发力,才能让语料库真正“用得好”,为广西AI产业发展、东盟多语种合作筑牢根基。 |
|
扫一扫在手机打开当前页
|
| >>更多精彩图集推荐 |
|
|
||||||||||||||||||||||||||||||