向善而生的AI助盲,让AI多一点,障碍少一点******
有人说,盲人与世界之间,相差的只是一个黎明。在浪潮信息研发人员的心中,失去视力的盲人不会陷入永夜,科技的进步正在力图给每一个人以光明未来。
AI助盲在人工智能赛道上一直是最热门的话题之一。以前,让失明者重见光明依靠的是医学的进步或“奇迹”。而随着以“机器视觉+自然语言理解”为代表的多模态智能技术的爆发式突破,更多的失明者正在借助AI提供的感知、理解与交互能力,以另一种方式重新“看见世界”。
新契机:多模态算法或将造福数以亿计失明者
科学实验表明,在人类获取的外界信息中,来自视觉的占比高达70%~80%,因此基于AI构建机器视觉系统,帮助视障患者拥有对外界环境的视觉感知与视觉理解能力,无疑是最直接有效的解决方案。
一个优秀的AI助盲技术,需要通过智能传感、智能用户意图推理和智能信息呈现的系统化发展,才能构建信息无障碍的交互界面。仅仅依靠“一枝独秀”超越人类水平的单模态人工智能比如计算机视觉技术还远远不够,以“机器视觉+自然语言理解”为代表的多模态算法的突破才是正确的新方向和新契机。
多个模态的交互可以提升AI的感知、理解与交互能力,也为AI理解并帮助残障人士带来了更多可能。浪潮信息研发人员介绍说,多模态算法在AI助盲领域的应用一旦成熟,将能够造福数以亿计的失明者。据世卫组织统计,全球至少22亿人视力受损或失明,而我国是世界上盲人最多的国家,占世界盲人总数的18%-20%,每年新增的盲人数量甚至高达45万。
大挑战:如何看到盲人“眼中”的千人千面
AI助盲看似简单,但多模态算法依然面临重大挑战。
多模态智能算法,营造的是沉浸式人机交互体验。在该领域,盲人视觉问答任务成为学术界研究AI助盲的起点和核心研究方向之一,这项研究已经吸引了全球数以万计的视障患者参与,这些患者们上传自己拍摄的图像数据和相匹配的文本问题,形成了最真实的模型训练数据集。
但是在现有技术条件下,盲人视觉问答任务的精度提升面临巨大挑战:一方面是盲人上传的问题类型很复杂,比如说分辨冰箱里的肉类、咨询药品的服用说明、挑选独特颜色的衬衣、介绍书籍内容等等。
另一方面,由于盲人的特殊性,很难提取面前物体的有效特征。比如盲人在拍照时,经常会产生虚焦的情况,可能上传的照片是模糊的或者没有拍全,或者没拍到关键信息,这就给AI推理增加了难度。
为推动相关研究,来自卡内基梅隆大学等机构的学者们共同构建了一个盲人视觉数据库“VizWiz”,并发起全球多模态视觉问答挑战赛。挑战赛是给定一张盲人拍摄的图片和问题,然后要求给出相应的答案,解决盲人的求助。
另外,盲人的视觉问答还会遭遇到噪声干扰的衍生问题。比如说,盲人逛超市,由于商品外观触感相似,很容易犯错,他可能会拿起一瓶醋却询问酱油的成分表,拿起酸奶却询问牛奶的保质期等等。这种噪声干扰往往会导致现有AI模型失效,没法给出有效信息。
最后,针对不同盲人患者的个性化交互服务以及算法自有的反馈闭环机制,同样也是现阶段的研发难点。
多解法:浪潮信息AI助盲靶向消灭痛点
AI助盲哪怕形式百变,无一例外都是消灭痛点,逐光而行。浪潮信息多模态算法研发团队正在推动多个领域的AI助盲研究,只为帮助盲人“看”到愈发精彩的世界。
在VizWiz官网上公布的2万份求助中,盲人最多的提问就是想知道他们面前的是什么东西,很多情况下这些物品没法靠触觉或嗅觉来做出判断,例如 “这本书书名是什么?”为此研发团队在双流多模态锚点对齐模型的基础上,提出了自监督旋转多模态模型,通过自动修正图像角度及字符语义增强,结合光学字符检测识别技术解决“是什么”的问题。
盲人所拍摄图片模糊、有效信息少?研发团队提出了答案驱动视觉定位与大模型图文匹配结合的算法,并提出多阶段交叉训练策略,具备更充分的常识能力,低质量图像、残缺的信息,依然能够精准的解答用户的求助。
目前浪潮信息研发团队在盲人视觉问答任务VizWiz-VQA上算法精度已领先人类表现9.5个百分点,在AI助盲领域斩获世界冠军两项、亚军两项。
真实场景中的盲人在口述时往往会有口误、歧义、修辞等噪声。为此,研发团队首次提出视觉定位文本去噪推理任务FREC,FREC提供3万图片和超过25万的文本标注,囊括了口误、歧义、主观偏差等多种噪声,还提供噪声纠错、含噪证据等可解释标签。同时,该团队还构建了首个可解释去噪视觉定位模型FCTR,噪声文本描述条件下精度较传统模型提升11个百分点。上述研究成果已发表于ACM Multimedia 2022会议,该会议为国际多媒体领域最顶级会议、也是该领域唯一CCF推荐A类国际会议。
在智能交互研究方面上,浪潮信息研发团队构建了可解释智能体视觉交互问答任务AI-VQA,同时给出首个智能体交互行为理解算法模型ARE。该研究成果已发表于ACM Multimedia 2022会议。该研究项目的底层技术未来可广泛应用于AI医疗诊断、故事续写、剧情推理、危情告警、智能政务等多模态交互推理场景。
眼球虽然对温度并不敏感,但浪潮信息的研发团队,却在努力让盲人能“看”到科技的温度,也希望吸引更多人一起推动人工智能技术在AI助盲、AI反诈、AI诊疗、AI灾情预警等更多场景中的落地。有AI无碍,跨越山海。科技的伟大之处不仅仅在于改变世界,更重要的是如何造福人类,让更多的不可能变成可能。当科技成为人的延伸,当AI充满人性光辉,我们终将在瞬息万变的科技浪潮中感受到更加细腻温柔的善意,见证着更加光明宏大的远方。
焦点访谈丨向创新要发展——新时代 新征程 新伟业******
党的二十大报告指出,我们要坚持以推动高质量发展为主题,推动经济实现质的有效提升和量的合理增长。企业是推动高质量发展的关键之一。近日,记者在调研采访中了解到,无论是国有企业还是民营企业,都在从实际出发,在创新上下功夫,不断提高企业的核心竞争力,在推进高质量发展中贡献着自己的力量。
记者来到大庆油田这一天,正赶上寒潮来临的第一天,室外气温零下15度。
大庆油田第一采油厂第二作业区经理 张向东:当时开采初期油多水少,到了目前油少水多,每采出100吨液量当中有96吨是水,4吨是油,相当于在水中捞油,拿油的难度越来越困难。
大庆油田已经开采了63年。几代大庆人凭借着铁人精神、大庆精神,一举甩掉了中国“贫油”的帽子,成为全国工业企业学习的榜样。到2022年10月,大庆已经累计生产原油超过24亿吨,占国内陆地同期原油总产量的40%。党的二十大报告指出,要坚持以推动高质量发展为主题,推动国有企业做强做优做大。
大庆油田总经理 党委副书记 张赫:高质量发展对于大庆油田来说,其中首要的就是高质量原油稳产,在已经高强度开发63年的基础上,我们要实现原油3000万吨高质量稳产难度更大。
原油越采越少,要想仍然保持高产稳产,困难越来越多。记者旁听了第二作业区的晨会。采油一厂第二作业区有17个基层班队,管理维护着2911口油水井,分布在30平方公里土地上。记者注意到,每天的晨会就是发现问题,第一时间解决问题,把责任落实到每一个人身上,确保每一口油水井没有故障、没有跑冒滴漏、运行正常。
室外很冷,记者在寒风里站一会儿就得不停跺跺脚。寒冷天气下作业,人可能冻坏,设备也会冻坏。晨会后,工人们就要顶着严寒对油井进行维护。
大庆油田第一采油厂第二作业区经理 张向东:我们的油水井的管理难度特别大,就像人的体检一样,发现问题及时采取维护作业,如果停产之后,我们的产量任务就无从谈起。
高质量稳产,不仅要产业工人们继续发扬铁人精神的干劲,也要不断依靠科技创新来支撑。党的二十大报告指出,要加快实施创新驱动发展战略,强化企业科技创新主体地位。面对原油越采越少的局面,十八大以来,大庆油田创造的陆相油田开发水平已经达到世界领先,水驱、聚驱、复合驱等核心技术的运用,使主力油田采收率比世界同类油田高出10到15个百分点。
复合驱技术是大庆油田正在试验和采用的自主创新型技术。截至2022年10月,已经累计从石头缝里“洗”出原油4833万吨,年产量连续6年超过400万吨。
大庆油田总经理 党委副书记 张赫:比如说二氧化碳,在别人看来是废气,但是我们通过创新,把废气变成了宝贝,把原本排向空中的二氧化碳埋进地下,把石油驱出来。我们目前已经累计埋存二氧化碳近200万吨,靠二氧化碳驱油累计已经产油80余万吨。
可是资源总有耗尽的那一天,该怎么办呢?寒潮持续影响着松辽平原,记者来到大庆油田的第三天,气温已经降到零下21℃,还伴随着5级风。大庆是一个百湖之城,有很多的泡泽,记者看到,在封冻的水泡子上,已经建设了一批水面光伏。
学习贯彻党的二十大精神,大庆油田提出要在“十四五”期间,实现“一稳三增”。在稳定国内原油高质量稳产基础上,要实现天然气、页岩油气等非常规油气资源,地热和风、光等新能源的高质量增产,清洁能源替代率达到20%以上。要想达到这一目标,仍然需要不断地创新驱动来实现。
大庆油田总经理 党委副书记 张赫:我们相信,资源有限科技无限,全力推动实现高水平的科技自立自强,为国家端稳端牢能源饭碗贡献大庆油田的力量。
中国国际经济交流中心首席研究员 张燕生:从国家高质量发展的角度来讲,粮食的安全、能源的安全、大宗商品的安全,这些安全都是中国的生命线。国企和央企在这个方面是负有重要的责任,是中华复兴战略全局,对科技、产业、现代金融提出了更高的要求。
企业是社会经济发展和创新驱动的重要力量。二十大报告不仅提出,要推动国有企业做强做优做大。同时,也提出要优化民营企业发展环境,促进民营经济发展壮大,这就给民营企业的未来发展吃了定心丸。
记者来到小米集团的时候,手机相机部总经理易彦正在上海通过视频与北京研发团队进行课题研究。过几天是新品手机发布会,相机部团队还在认真研究着相机功能的优化问题。
民企的发展壮大,同样离不开创新驱动。易彦是党的二十大代表,在手机相机领域,已经是14项发明专利发明人或共同发明人。几年来,她所领导的相机部从原先零散的几个部门发展成具备完整体系架构、远景规划和系统级技术储备能力的高科技部门,使相机成为手机的核心竞争力之一。
冬日的夜晚,记者看到,小米办公楼不少的窗户还亮着灯。白天与易彦进行了沟通,夜晚,相机部的夜枭团队还在做着测试工作。
经过与工程师长时间的了解,记者大概知道了他们在做什么。按下快门,一张照片在不到3秒的时间里,要经过去噪、提亮、细节增强、色彩还原、对齐等等十几项环节的计算,这背后,每一个环节都要依靠不同的AI算法,最终展示出一张细节清晰、颜色真实、画面干净的夜景照片。
小米集团高级算法工程师 夜枭算法研发负责人 冯超禹:夜枭算法,不光可以应用到手机拍照领域,还可以应用到自动驾驶,或者监控领域,在夜景下可以将画面处理得更清晰。
去年,在全球智能手机出货量普遍下滑情况下,小米全球智能手机市场份额连续两个季度实现环比提升,在全球55个国家和地区排名前三,欧洲地区排名第二。
小米集团党委书记 高级副总裁 曾学忠:科技创新是我们企业生存发展的基础,也是我们安身立命长远发展的资源,所以我们的高质量发展都是靠着科技创新。在咱们国家这次二十大特别强调的智能制造方面,我们构建了行业一流的灯塔工厂,探索高质量高效率发展,把技术为本、技术创新作为企业发展的源动力和推进器。
一款人形机器人,在2022年8月已经有过正式亮相。它身高177cm,体重52kg,能感知45种人类语义情绪,自主行走。现在,工程师们正在进一步优化拟人化的仿生功能,让它变得更聪明、更灵活。
二十大报告提出,强化企业科技创新主体地位,发挥科技型骨干企业引领支撑作用。一个面向未来的企业,不仅要在现有产品上始终具备核心竞争力,在未来领域也要不断探索和深耕。
实体经济是社会经济发展的基础。坚持推动高质量发展,是新时代的主题。记者走进一家家企业看到,扎实干事创业、积极创新发展,实体经济正在焕发着新活力。
核电技术已经列为我国进入创新型国家行列的重大成果之一,中核集团持续加大技术创新力度,不仅利用核能发电,还利用核能供热,可以为企业节约天然气,减少二氧化碳排放,经济账可观,环保账更亮眼。
在海南三亚西南200公里外的深海海域,我国首个自营超深水大气田“深海一号”二期工程正准备开钻,中海油正在集聚重大油气工程的技术力量,做最后的攻关。
特殊钢是制造业高质量发展的基石之一,中信泰富特钢集团潜心研发,成功生产出直径1200毫米连铸圆坯,刷新了最大规格的世界纪录,正在稳步推进大飞机、高铁、风电等领域的应用。
推动高质量发展,企业责无旁贷。习近平总书记指出,高质量发展要靠创新。我们看到,有的企业在不断挖掘潜力,寻找新的增长点;有的企业不断优化产品,出新出彩;有的不断探索前沿技术,引领行业发展。党的二十大报告指出,要强化企业科技创新主体地位。在国家一系列政策的推动下,在企业持续的努力下,中国的企业一定会在推进高质量发展中展现新作为。(央视新闻客户端)
中国网客户端 国家重点新闻网站,9语种权威发布 |