
未来人工智能将走向何方?知名大学专家学者聚集在静安开展“头脑风暴”
未来人工智能将走向何方?未来图形智能信息技术的发展方向是什么?近日,中国图像图形学会(CSIG)、合和信息公司、CSIG文档图像分析与识别专业委员会联合举办了以“图形智能处理与多场景应用技术展望”为主题的“CSIG企业之旅”活动分享结构建模、底层视觉技术、跨媒体数据协同应用、生成人工智能和对话大型语言模型在图像文档处理中的研究和实践成果。
生成人工智能
未来十年将成为研究的重点
根据国际IT研究机构Gartner的预测,到2025年,生成人工智能产生的数据将占人类数据的10%,生成人工智能技术正在加速数字经济的发展。
在活动现场,上海交通大学人工智能研究院执行副院长、长江学者杨晓康分享了该团队在生成人工智能领域的工作,并表示生成人工智能仍存在空间巨大、宏观一致性差、微观清晰度有限等问题,需要通过数学、物理、信息理论、大脑认知、计算机等学科的交叉研究,进一步巩固生成人工智能的基本理论,通过“物理 “虚拟数据”联合驱动 现实的深度融合有助于加速科学发现。
杨晓康认为,以“识别分析”为代表的识别人工智能促进了前十年人工智能的发展,未来十年,以“合成重建”为代表的生成人工智能将成为主流。
最近频繁的“热搜索”ChatGPT是生成人工智能的典型代表,复旦大学计算机学院教授、上海计算机学会自然语言处理委员会主任邱锡鹏认为,强大的情境学习能力、思维链能力和自然指令学习能力,是以ChatGPT对话大型语言模型的主要特点,将加快通用人工智能的实现。

复杂场景
多模态数据分析和理解进展迅速
要实现多场景“通用”,人工智能需要解决多源数据的问题。厦门大学科技部主任、人工智能研究所主任纪荣荣教授认为,社交媒体等信息渠道包含大量非合作、异构化、跨模式数据,包含大量的人类知识和高价值信息,也包含各种自然和人为噪声,其分析和处理需要集成脑计算、计算机视觉、自然语言处理等智能技术维度。
图像文档
近年来,人工智能与OCR(光学字符识别)技术的结合越来越紧密,汉字结构、表格结构、文档整体结构等复杂结构的建模问题逐渐成为研究热点。作为回应,中国科技大学语音语言信息处理国家工程研究中心副教授杜军分享了该团队在文档结构层次重建领域的最新进展。
“在目前的文档分析任务中,大多数研究都是针对单页中文章元素的分析,但从内容的角度来看,许多文档页面与页面之间的内容是相关的。”杜军表示,图像文档处理能力应达到“章节级”,突破手写和自然场景中汉字建模的困难,做好跨页文档元素分类和文档结构恢复是团队的主要研究目标。
在活动现场,合和信息图像算法研发总监郭丰军博士分享了公司技术团队在智能图像处理技术模块、集成技术典型应用、图像安全等领域的研究成果。
据郭凤军介绍,合和信息智能文档处理技术基于图像目标区域的精确切割,对弯曲、倾斜的页面进行变形矫正。去除阴影和摩尔图案后,通过人工智能技术提高文档图像的锐化和清晰度,可以达到“提高图像质量”的效果,提高识别转换、图像分析等文档处理下游任务的质量和效率。通过“扫描全能王”等智能文字识别产品,相关技术为全球数百个国家和地区的数亿用户提供服务。






















