华为ai手语在哪里?

在应用商店中搜索StorySign。

它集成了HMS Core的光学字符识别(OCR)技术,这是一种基于深度学习的AI技术,可以智能地将图片中的字符识别为文本。那么,既然AI可以智能识别图片上的文字,那么AI可以做手语翻译吗?给AI一段话,如果能自动翻译成手语动画,每个人都可以用AI学习手语,甚至AI可以成为聋人和健全人之间的实时翻译器,让AI受益的不仅仅是孩子的阅读场景,还有更广泛的听障人群!

为了通过HMS核心能力让AI手语翻译开放,让开发者整合服务全球4.6亿听障人群。我们要面对的第一个问题是——AI能做手语翻译,从文字智能生成手语动画吗?HMS Core组建了涵盖3D数字人体建模、自然语言理解、计算机视觉、3D动画、图形渲染、移动Android开发、云端服务等多项关键技术的专家团队,并邀请国内手语语言学权威教授作为项目顾问,携手* * *攻关智能实时手语翻译项目。算法和数据的双重挑战

手语翻译项目上线后,团队通过查阅大量文献和专利,迅速调研了行业内的相关技术,一起梳理了几大问题。首先,考虑到手语动作的高精度要求,1 cm的指尖位置误差可能意味着完全不同的意义。其次,要获得大规模、高质量的汉语和手语的手语语料库是极其困难的,短时间内也不可能找到那么多专业的手语教师来提供语料库。第三,手语作为一种独立的语言,有自己的语法和语序,汉语和手语在语法和语序上存在差异。比如中文“我没带身份证”,对应的手语顺序是“身份证/我/腰带/没有”。最后,手语不仅包括手部动作,还包括身体姿势、面部表情和嘴部动作,因此多模态数据的协同生成非常重要。

手语团队通过逐一分析这些问题并讨论解决方案,输出了一个基于文本的多模态数字人体动作和表情生成方案。该方案由手语转录模块和手语动作表情生成模块组成,融合了手语语言学领域的知识,能有效解决高质量运动捕捉数据较少的问题。

算法方案确定后,手语团队面临更大的挑战——数据。人工智能领域有句话叫“兵马未动,粮草先行”。对于手语翻译项目来说,“粮草”就是获取手语数据的问题,包括手语转录数据和3D运动数据。如何制定合理的转移计划?什么样的动作捕捉设备可以采集数据满足手语项目的商业需求?

转录是一项需要和语言学、计算机科学紧密结合的工作。为此,技术专家与手语顾问密切合作,致力于手语语言学的研究。经过多次讨论,制定了适合本项目的手语转录标准。语言是语感驱动的东西,而计算机讲究的是规则。为了将手语语言学的知识总结成可以用计算机表达的规则,团队中的人工智能专家和手语顾问多次讨论转录的规则,反复修改优化了20多个版本,最终完成了适合项目需求的定制化转录方案。

在动作捕捉数据方面,通过多方调研和对动作捕捉设备的现场考察,经过几十种,手语团队发现动作捕捉的数据采集远比想象中复杂。在动态抓拍过程中,有很多原因可能引入误差,比如动态抓拍服不贴身,动态抓拍人员比例与手语数字人比例不一致,导致直接使用动态抓拍原始数据。于是手语团队立即成立了动作修复小组,加快移动抓拍数据的收集,让项目稳步推进。

手语数字人和开发者大会的故事

随着数据收集的进展和AI算法模型的迭代优化,手语服务的工程进展顺利。手语翻译团队仅用一周时间就完成了移动SDK开发代码,并成功完成了端云调试。同时,手语翻译团队在尝试了多种不同的解决方案后,通过旋转角度直接驱动骨骼,避免数字人开车后的动作造成手语含义的细微差异,让手语数字人准确完成手语动作。

一切准备就绪,手语服务准备开启第一版,在HDC交出一份满意的答卷。手语团队决定让手语数字人一直支持开发者大会的现场演讲。这个挑战可想而知。华为开发者大会看直播的人数非常多。如果手语数字人能登上这个舞台,在直播过程中为听障朋友提供手语翻译,所有看直播的人都会注意到这个会玩手语的红衣女孩。这无疑会吸引更多人关注听障人士,也吸引更多开发者用手语服务为听障手语用户提供服务。

手语服务是从文本中生成手语,算法的输出很大程度上依赖于直播时语音识别的结果。如何保证语音识别的准确性?HDC大会的发言中包含了大量中英文混杂的专业术语。手语数字人怎么打这些字?把整套驱动和渲染方案搬到自研引擎上兼容吗?面对这些棘手的问题,手语团队成立了HDC大会直播研究小组,部分成员正在进行算法研究,优化手语生成算法模型,覆盖HDC大会可能出现的科技语料;其他成员攻关云上语音识别、文字转手语算法部署、直播过程中3D模型驱动等问题,确保手语数字人在直播过程中能够成功识别麦克风中的声音和手语。不到一个月的时间,我做足了准备。

HDC2021如期举行的那天。手语团队的伙伴们正在紧张地看着后台的直播画面。他们紧紧盯着直播画面左下角的红衣少女,担心手语数码人有任何故障。好在整个直播中,她表现的游刃有余,令人惊艳!这一刻,团队里每个人的心情都是一样的:不懈的努力没有白费,终于在HDC的大舞台上看到了手语数字人!

这是国内首个由数字虚拟人物进行的实时会议现场手语翻译,这一切都得益于华为自主研发的AI算法和渲染技术,使得实时会议现场手语翻译完全无需真人即可实现。这个基于云技术的手语翻译方案,包括语音识别、手语生成和驱动渲染,已经得到了HDC2021的验证。它不仅准确地呈现了手语动作,还解决了手语翻译中一个常见的技术难点——表情系统。表情的出现使手语数字人能够更完整、更准确地表达手语的意思。目前,手语服务已经支持10种不同表达类型的输出。相信在不久的将来,这个方案可以投入到媒体内容的制作中,听障朋友也可以获得更多的社会信息。

技术转移温度

世界上有4.6亿听障人士,目前这一代中国手语还远远不足以覆盖这些人。未来,HMS核心手语团队将继续优化手语翻译的效果和手语数字人的渲染效果,同时也将构建英语手语生成能力,将手语服务全球化,为更多听障人士服务。

相信在不久的将来,手语数字人可以在更多的场合与大家见面,她可以出现在电视新闻节目的手语翻译窗口,为大家翻译新闻;还可以在乘坐地铁或飞机时,用手语为听障朋友播报安全须知;甚至在一些特殊教育学校,她可以当手语老师,教有听力障碍的学生学习手语。带着这个美好的愿望,HMS核心团队正在打造基于手语服务能力的StorySign2.0 APP,希望能给听障人士带来更多的温度。

正如HDC大会上的一句话:天上的星星谁也熄灭不了,每一个开发者都是华为想要聚集的火花。目前,手语数字人已经通过HMS核心手语服务向开发者全面开放,让更多的应用开发者通过调用我们的手语服务SDK,快速实现实时手语翻译,打造各种手语app,为听障人士提供更加多元化的服务。手语服务团队希望与开发者一起打造华为移动服务的星光,创造一个交流无障碍的世界。