基于图像与语义分析的文档图像理解

 报告时间:2020年11月19日下午15:00-16:00

 报告地点:红瓦楼726报告厅

 报告人:郑莹斌,上海兑观信息科技技术有限公司联合创始人、首席科学家。

 报告人简介:复旦大学博士,曾担任中国科学院副研究员、中国科学院大学硕士生导师、SAP中国研究院研究员。2019年被认定为首批上海市人工智能高级职称专家,2020年被评为上海软件企业技能人才。在计算机视觉、多媒体信息处理等领域有丰富的研究和工程经验,曾主持多项国家自然科学基金、上海市科委、经信委项目。曾发表四十余篇国际学术会议与专业期刊论文,代表性工作发表在IJCAI、AAAI、TIP等知名国际刊物上,申请十余项国内外专利,两次获得IEEE国际会议最佳论文奖项。

 报告摘要:作为图像内容理解的基础任务之一,字符检测和识别对于准确提取图像文字信息至关重要。随着深度学习研究的深入,基于深度学习框架的图像字符检测与识别算法也取得了巨大的进展。在构建新的模型基础上,考虑到现有算法对海量训练数据的依赖性,同时基于端到端的图片视频等非结构化数据处理算法已接近极限,我们也尝试通过融合语义分析和知识表示的方法进一步提高精度和可解释性。通过构建特定领域知识库,实现特定领域的知识推理+机器学习系统,从而帮助提高算法在特定领域应用场景落地的精度和鲁棒性,实现文档图像理解在特定应用场景中的突破。