凤凰彩票登录|百度词条
凤凰彩票下载2023-01-31 16:05

向善而生的AI助盲,让AI多一点,障碍少一点******

  有人说,盲人与世界之间,相差的只是一个黎明。在浪潮信息研发人员的心中,失去视力的盲人不会陷入永夜,科技的进步正在力图给每一个人以光明未来。

  AI助盲在人工智能赛道上一直是最热门的话题之一。以前,让失明者重见光明依靠的是医学的进步或“奇迹”。而随着以“机器视觉+自然语言理解”为代表的多模态智能技术的爆发式突破,更多的失明者正在借助AI提供的感知、理解与交互能力,以另一种方式重新“看见世界”。

  新契机:多模态算法或将造福数以亿计失明者

  科学实验表明,在人类获取的外界信息中,来自视觉的占比高达70%~80%,因此基于AI构建机器视觉系统,帮助视障患者拥有对外界环境的视觉感知与视觉理解能力,无疑是最直接有效的解决方案。

  一个优秀的AI助盲技术,需要通过智能传感、智能用户意图推理和智能信息呈现的系统化发展,才能构建信息无障碍的交互界面。仅仅依靠“一枝独秀”超越人类水平的单模态人工智能比如计算机视觉技术还远远不够,以“机器视觉+自然语言理解”为代表的多模态算法的突破才是正确的新方向和新契机。

  多个模态的交互可以提升AI的感知、理解与交互能力,也为AI理解并帮助残障人士带来了更多可能。浪潮信息研发人员介绍说,多模态算法在AI助盲领域的应用一旦成熟,将能够造福数以亿计的失明者。据世卫组织统计,全球至少22亿人视力受损或失明,而我国是世界上盲人最多的国家,占世界盲人总数的18%-20%,每年新增的盲人数量甚至高达45万。

  大挑战:如何看到盲人“眼中”的千人千面

  AI助盲看似简单,但多模态算法依然面临重大挑战。

  多模态智能算法,营造的是沉浸式人机交互体验。在该领域,盲人视觉问答任务成为学术界研究AI助盲的起点和核心研究方向之一,这项研究已经吸引了全球数以万计的视障患者参与,这些患者们上传自己拍摄的图像数据和相匹配的文本问题,形成了最真实的模型训练数据集。

  但是在现有技术条件下,盲人视觉问答任务的精度提升面临巨大挑战:一方面是盲人上传的问题类型很复杂,比如说分辨冰箱里的肉类、咨询药品的服用说明、挑选独特颜色的衬衣、介绍书籍内容等等。

  另一方面,由于盲人的特殊性,很难提取面前物体的有效特征。比如盲人在拍照时,经常会产生虚焦的情况,可能上传的照片是模糊的或者没有拍全,或者没拍到关键信息,这就给AI推理增加了难度。

  为推动相关研究,来自卡内基梅隆大学等机构的学者们共同构建了一个盲人视觉数据库“VizWiz”,并发起全球多模态视觉问答挑战赛。挑战赛是给定一张盲人拍摄的图片和问题,然后要求给出相应的答案,解决盲人的求助。

  另外,盲人的视觉问答还会遭遇到噪声干扰的衍生问题。比如说,盲人逛超市,由于商品外观触感相似,很容易犯错,他可能会拿起一瓶醋却询问酱油的成分表,拿起酸奶却询问牛奶的保质期等等。这种噪声干扰往往会导致现有AI模型失效,没法给出有效信息。

  最后,针对不同盲人患者的个性化交互服务以及算法自有的反馈闭环机制,同样也是现阶段的研发难点。

  多解法:浪潮信息AI助盲靶向消灭痛点

  AI助盲哪怕形式百变,无一例外都是消灭痛点,逐光而行。浪潮信息多模态算法研发团队正在推动多个领域的AI助盲研究,只为帮助盲人“看”到愈发精彩的世界。

  在VizWiz官网上公布的2万份求助中,盲人最多的提问就是想知道他们面前的是什么东西,很多情况下这些物品没法靠触觉或嗅觉来做出判断,例如 “这本书书名是什么?”为此研发团队在双流多模态锚点对齐模型的基础上,提出了自监督旋转多模态模型,通过自动修正图像角度及字符语义增强,结合光学字符检测识别技术解决“是什么”的问题。

  盲人所拍摄图片模糊、有效信息少?研发团队提出了答案驱动视觉定位与大模型图文匹配结合的算法,并提出多阶段交叉训练策略,具备更充分的常识能力,低质量图像、残缺的信息,依然能够精准的解答用户的求助。

  目前浪潮信息研发团队在盲人视觉问答任务VizWiz-VQA上算法精度已领先人类表现9.5个百分点,在AI助盲领域斩获世界冠军两项、亚军两项。

  真实场景中的盲人在口述时往往会有口误、歧义、修辞等噪声。为此,研发团队首次提出视觉定位文本去噪推理任务FREC,FREC提供3万图片和超过25万的文本标注,囊括了口误、歧义、主观偏差等多种噪声,还提供噪声纠错、含噪证据等可解释标签。同时,该团队还构建了首个可解释去噪视觉定位模型FCTR,噪声文本描述条件下精度较传统模型提升11个百分点。上述研究成果已发表于ACM Multimedia 2022会议,该会议为国际多媒体领域最顶级会议、也是该领域唯一CCF推荐A类国际会议。

  在智能交互研究方面上,浪潮信息研发团队构建了可解释智能体视觉交互问答任务AI-VQA,同时给出首个智能体交互行为理解算法模型ARE。该研究成果已发表于ACM Multimedia 2022会议。该研究项目的底层技术未来可广泛应用于AI医疗诊断、故事续写、剧情推理、危情告警、智能政务等多模态交互推理场景。

  眼球虽然对温度并不敏感,但浪潮信息的研发团队,却在努力让盲人能“看”到科技的温度,也希望吸引更多人一起推动人工智能技术在AI助盲、AI反诈、AI诊疗、AI灾情预警等更多场景中的落地。有AI无碍,跨越山海。科技的伟大之处不仅仅在于改变世界,更重要的是如何造福人类,让更多的不可能变成可能。当科技成为人的延伸,当AI充满人性光辉,我们终将在瞬息万变的科技浪潮中感受到更加细腻温柔的善意,见证着更加光明宏大的远方。

凤凰彩票登录

新时代新征程新伟业丨用新题材唐卡讲好西藏发展故事******

  新华社拉萨12月22日电题:用新题材唐卡讲好西藏发展故事

  新华社记者春拉

  冬日的早晨,西藏自治区日喀则市非物质文化遗产展示中心的画室内,43岁的西落正仔细端详着眼前的画作——画布上,远处白雪覆盖的珠穆朗玛峰与近处的绿水青山相辉映,花果丰饶的山水间,藏羚羊、梅花鹿等嬉戏奔跑,一派生机盎然的高原景象……

  “我现在画的是‘珠峰起源’,是日喀则大型新题材唐卡创作——‘百匠唐卡·千米画卷’组图的一部分。”西落介绍,这组新题材唐卡作品长848.43米,宽2.5米,力求生动呈现跨越千年的高原变迁,表现西藏人民坚韧不拔、感恩向上、敢为人先的精神风貌。

  这位西藏勉萨画派非遗传承人,两个月来,和他的学生们埋头于唐卡“珠峰起源”的绘制。他们熟练运用度量、勾线、填色、描金、开眼等手法,在画卷中真实展现藏族人民的生活巨变,展示传承千年的西藏唐卡绘画技艺。

  西落说,在党的二十大精神指引下,艺术百花齐放、与时俱进,传统唐卡画师和受众将更多得到探索多元表达的珍贵机会与体验,中华多元一体文化的感召力与凝聚力将进一步增强。

  日喀则市文化局党组书记普次仁说,党的二十大报告指出,坚持以人民为中心的创作导向,推出更多增强人民精神力量的优秀作品。这对文化工作者来说,是极大的激励。这些年,日喀则市以保护传承唐卡文化、发展壮大唐卡产业为目标,创作了一批不失传统色彩、紧扣时代主题,融合观赏性、艺术性、思想性的新时代优秀唐卡作品。

  “百幅新题材唐卡创作与展览 ”就是一次全新的尝试。普次仁介绍,该创新项目于2019年启动,首批近50幅作品由37名本地老中青三代唐卡画师参与创作,历时两年完成。

  《川藏公路》《草原新象》《团结抱紧》……一幅幅新题材唐卡展陈于非遗展示中心内,“古老”的唐卡多了现代气息,观众在熟悉的传统艺术中感受到时代的步履、家乡的巨变。

  其中,《团结抱紧》就是西落的作品。

  “这幅唐卡中,在盛满五谷,寓意吉祥如意的切玛和青稞酒桌前,身着民族特色服饰的人们围着篝火欢快地跳着锅庄,56个民族亲如一家,大家团结抱紧、生活红火、幸福安康。”西落说。

  另一幅作品《庄重歌舞》则出自西落的学生普穷之手。画作中,扶老携幼的藏族百姓正与国内外游人一道,沉浸在西藏国家级非物质文化遗产代表性项目“谐钦”歌舞表演中;远处,政府兴建的安居工程错落有致。

  “我想表达这样的主题:在国家的大好政策下,西藏百姓安居乐业,优秀传统文化得到全面保护、传承与弘扬。”普穷说。

  记者了解到,目前日喀则市唐卡画师已超过千人,全市唐卡年产值超过2000万元;全市国家级和自治区级非遗代表性名录项目合计达95项、代表性传承人77名。

  “接下来,我们要以党的二十大精神为引领,更好开展高质量非物质文化遗产传承与创新工作,进一步激发文化创新创造活力,力争通过更多优秀作品讲好中国西藏故事。”普次仁说。

中国网客户端

国家重点新闻网站,9语种权威发布

凤凰彩票地图