科研项目

研究成果

首页研究成果科研项目

图文问答顶会挑战赛

介绍：在实际应用场景中，人工智能需要面对多模态的参考信息，而传统的视觉问答任务在背景信息上只提供了图像，这导致问题的答案通常只来自于图像，从而使得模型难以学习到文本域特有的关系以及图文之间的局部对齐规则。本团队针对图文实体关系以及图文信息平衡问题，自主设计实现了一套带审核的标注系统并构建了一个包含10124个图文对和23781个相关问题的图文问答数据集。该数据集每张图像配备一个完全基于人类创造的文本和若干问题，问题的答案可能来自于图像也可能来自于文本，且文本中含有干扰项，使得其问题必须通过同时关联图像和文本才能回答。基于该数据集，本团队于ACM Multimedia 2023 Grand Challenge提交提案并举办了Visual Text Question Answer（VTQA）挑战赛，收到了来自中国、印度、美国等各国各高校、企业、研究中心的46个参赛团队的共148次有效提交，并推荐前三名的方法入选ACM Multimedia 2023主会，促进了学界对多模态实体对齐和复杂环境下推理能力的关注和探索。VTQA挑战赛

2025-11-10
司法舆情分级与预警系统

介绍：考虑到互联网司法舆情信息的多变性、多源性和多模态性，使得法、检、司三部门很难及时掌握司法舆情变化的趋势，无法实现对司法舆情的精确监测与预警，很难协同处理相关的司法舆情。本团队基于前期图像识别成果，研发结合图像识别和文本分析的司法舆情监测与分级预警系统。该系统将在海南、安徽和浙江三个省份的法院、检察院、司法厅(局)示范应用，满足国家智慧司法等重大需求，促进司法的公平公正。

2025-11-10
掌纹识别系统

介绍：掌纹识别具备精度高、速度快、更鲁棒、更易用的优点，也是唯一一个由中国人开创的生物特征识别领域。本团队首次验证了掌纹的唯一性和稳定性，为掌纹识别提供了依据；首次研制了掌纹图像联机采集系统，实现掌纹的高质量实时采集；首次发布并建立了国际上规模最大的掌纹图像公开数据库，现已被50多个国家和地区的300余家研究单位申请使用，已成为掌纹识别研究领域的基础资源和标准数据库；提出了一整套掌纹特征提取与匹配算法，实现了高精度掌纹识别；建立了形变掌纹匹配模型，解决了掌纹图像的各种形变问题；提出了掌纹图像的分类方法，提高了大规模掌纹识别的速度；提出了结合手静脉的掌纹防伪方法，提高了识别系统的防伪能力；研制了各类掌纹识别系统，推动了掌纹识别技术的实用化。掌纹识别技术凭借数据采集方便、识别精度高、难以伪造和注重用户隐私保护等优点，在身份认证、安防等领域发挥了重大的作用。基于上述方向，可以联合承担国家级、省部级重点研发计划项目，或针对性开展企业需要的技术开发和技术服务。

2025-11-10
智慧医疗自动分析筛查系统

介绍：本团队研究了基于彩色视网膜图像的视网膜病变（也称眼底病变）自动检测，在充分分析各种病变和眼底结构基础上，提出了多种有效的生理组织区域的检测和分割方法，可在包括带有各种干扰（如病变）的各种眼底图像中有效检测和分割视盘、血管、中央凹等各种生理组织区域等。在眼底病变检测方面，邬向前教授提出了多种病变特征的检测、分割和识别的方法，可在眼底图像中有效检测和识别各种眼底病变，包括微动脉瘤、棉绒斑和硬性渗出等。基于相关研究成果开发的“眼底病自动筛查系统”已成功应用于哈尔滨医科大学第二附属医院，经过医院测试，该系统的糖尿病视网膜病变检测率基本达到高年资医生水平，阅片效率约为人工阅片的15倍，同时可针对多个病变进行综合评估，从而可以更准确全面地对糖网进行诊疗，可以大幅降低临床医师的工作负担，使得糖网患者能得到早期诊断和及时治疗。基于眼底病变检测的研究成果，本团队研发了CT 图像自动分析系统，可根据肺部CT图像，自动检测和识别病变，并计算其在整个肺部的占比，实现患者筛查和病情评估，在哈尔滨医科大学第二附属医院获得成功使用。该系统可以根据应用情况和医生的反馈，自动准确地检测CT 图像上与新冠肺炎相关的

2025-11-10
目标物跟踪分析系统

介绍：现有的回归跟踪器很少考虑部分对象之间的关系，导致在缺少目标对象的某些部分时发生飘逸。针对该问题，本团队首次将胶囊网络引入视觉目标跟踪任务，在解决胶囊网络高计算复杂度的同时有效利用胶囊网络构建部分-整体的关系，分别提出了基于胶囊的关系感知的回归跟踪、基于四叉树胶囊的深度回归跟踪、以及基于背景修复和胶囊网络的回归跟踪。所提出的跟踪方法均达到了当时最优的性能并超过了同期基于transformer的跟踪方法，并填补了将胶囊网络应用于目标跟踪任务的空白。此外，针对传统矩形框标注需要耗费大量的人力资源、易产生歧义、无法灵活切换目标等缺陷，本团队提出了多种基于自然语言查询的目标跟踪方法，包括基于胶囊和自然语言查询的回归跟踪和基于长短时上下文解耦和自然语言查询的目标跟踪。以上两种方法均实现了通过自然语言描述来指定和跟踪视频中的目标，极大地提升了目标跟踪的灵活性，也为人机交互、智能监控、自动驾驶等领域提供了更为智能、灵活的目标跟踪解决方案。视觉目标跟踪

2025-11-10

每页 14 记录总共 5 记录
第一页 <<上一页下一页>> 尾页
页码 1/1 跳转到