数据分析起家的海云数据,还想向唇语识别冲刺

简介: 作为海云数据创始人兼 CEO,不仅是因为其自主研发的唇语识别技术,提高英文识别准确率,更重要的是,冯一村找到了唇语识别的变现之道。

再次谈起公司发展的下一步时,冯一村难掩兴奋。


作为海云数据创始人兼 CEO,不仅是因为其自主研发的唇语识别技术,提高英文识别准确率,更重要的是,冯一村找到了唇语识别的变现之道。


「唇语识别能帮助聋哑人、老人交流,裁定体育赛事语言暴力。在公安领域,也具有颠覆意义。」冯一村分析。因为大量视频只有图像,没有声音,如能识别视频中犯罪嫌疑人的讲话内容,将会提高刑侦效率。


正因如此,冯一村说,海云数据未来将不遗余力地投入唇语识别的研究。


成立于 2013 年的海云数据,以数据可视化分析起家,旗下数据可视化分析平台「图易」具备 12 层神经网络,分布式 GPU,可实现数据自动匹配,并能通过智能数据实现深度学习。当冯一村无意中发现,企业内部研究院将唇语识别加入现有的数据可视分析系统,他很快意识到,这个尝试对现有业务的突破具有重要价值。


2016 年 12 月,海云数据联合重庆公安科研所研究唇语识别。


微信图片_20211128163403.jpg

海云唇语识别


冯一村介绍,唇语识别是典型的 AI 应用,集机器视觉与自然语言处理,从图像中连续识别出人脸,并提取此人连续的口型变化特征,将其输入模型,识别出讲话人口型对应的发音,从而计算出可能性最大的表达语句。而成熟的唇语识别系统需要建立在大量人脸特征样本的基础之上,通过带记忆的深度神经网络,保证结果的最大准确性。


在 2017 年 3 月的亚洲大数据可视分析峰会上,海云数据在正式发布唇语识别技术时称,其由 1 万小时新闻式唇语节目训练而成的唇语识别 AI,英文识别准确率达 80%,中文准确率达到 71%。不过,冯一村认为,「若要投入实战,准确率需要 90% 甚至 95% 以上。」


微信图片_20211128163439.jpg

1万小时新闻类节目进行唇语识别训练


更早一些时候,一则唇语识别 AI 超过人类专家的消息还曾刷屏研究界。2016 年 11 月,牛津大学工程科学系与谷歌母公司 Alphabet 下属公司 DeepMind 合作进行唇语识别开发,选择英国 BBC 5000 个小时的电视节目,总共 118000 个句子作为训练素材,最终结果是相比人类专家 12.4% 的准确率,AI 的准确率为 46.8%。


但对一家商业化公司来说,缩小准确率差距的前提下找准方向也同样重要。「AI 要在特定领域解决特定问题,初创企业更需要找准细分领域。」冯一村分析他的业务逻辑,「我们做唇语识别,至少公安、政法委、军队、教育四个行业可以应用。」


冯一村尤其看好唇语识别在公安领域的应用,因为这是海云数据的优势。事实上,海云数据正是发家于此。


众所周知,城市交通卡口处都有摄像头,但大量摄像头的背后需要公安指挥中心部署更多警力监控视频。而海云数据的数据可视化分析技术则能有效改善这类状况,通过将卡口处的视频、犯罪分子的数据、户籍数据、车辆数据等实时呈现在同一个平台,公安人员能直观了解卡口数据、警力部署、出警信息、犯罪线索等信息,既能实时判断警力部署、犯罪分子行动轨迹等情况,还能降低人力成本,提高效率。


为了深入理解公安业务,海云数据聘请了老专家,他们熟悉公安业务系统,从业经验长达数十年。正是如此,海云数据占据了公安领域三分之一的市场份额。


实际上,海云数据并非第一天就做数据可视化分析,也并非第一天就将公安领域确定为目标。从创业之初的数据新闻,到数据可视化,再到奠定核心竞争力的数据可视化分析,海云数据花了两年试错。


冯一村表示,传统的数据可视化是将数据以图形、图表等形式呈现,强调结果的呈现效果,而数据可视化分析能实时有效地表达过程数据,可以实时分析,实时决策。


2015 年 6 月,冯一村重新确定技术方向——数据可视化分析,并将目标瞄向公安领域。「大数据可视化分析业务要产生商业价值,就需要与行业结合,落地业务层。」冯一村如此表示。而这需要真实有效的数据,同一领域不同客户的业务逻辑也不能有太大差异,从而易于标准化并实现快速复制。公安领域就符合这样的标准,举个例子,北京与重庆的公安系统,业务都是刑侦,无太大变化。


由此,海云数据建立了对 B 端客户收取管理服务费的营收模式,冯一村称,找到准确方向的海云数据很快就实现了盈利,并在公安领域站稳脚跟。


2015 年 11 月,海云数据在此前的底层架构基础上,发布可视化分析平台「图易 4.0」,经过迭代,「图易 5.0」已具有一定 AI 智能,覆盖 323 种数据源,651 个 API 接口,318729TB 数据量,涵盖 20 多种行业。而基于图易,海云数据已推出「智航顺」、「智警」、「金智」、「医智佳」、「智胜」等细分领域产品。


如今,海云数据团队成员已达 300 多人,服务将近 90 家客户,其中 76 家是世界 500 强企业,覆盖行业也早已突破公安、民航等达到 13 个。


而在冯一村的规划中,2017 年,海云数据将拓展全新行业,发力大交通、大公安、军民融合以及智慧城市四大领域。技术方向上,则双管齐下,在深耕数据可视化分析的同时,继续向唇语识别冲刺。


海云数据融资进展:


  • 2013 年 4 月,种子资金 20 万,投资人为海量创始人郝玺龙。
  • 2014 年 4 月,天使投资 300 万,投资机构为华创盛景。
  • 2015 年 4 月,Pre-A 轮 1500 万元,投资机构为东方富海。
  • 2016 年 3 月,A 轮 1 亿元,上古资本(华创盛景创始人李汉生主导的另一家投资机构)领投,东方富海跟投。
相关文章
|
9月前
|
数据采集 数据可视化 数据挖掘
用 Excel+Power Query 做电商数据分析:从 “每天加班整理数据” 到 “一键生成报表” 的配置教程
在电商运营中,数据是增长的关键驱动力。然而,传统的手工数据处理方式效率低下,耗费大量时间且易出错。本文介绍如何利用 Excel 中的 Power Query 工具,自动化完成电商数据的采集、清洗与分析,大幅提升数据处理效率。通过某美妆电商的实战案例,详细拆解从多平台数据整合到可视化报表生成的全流程,帮助电商从业者摆脱繁琐操作,聚焦业务增长,实现数据驱动的高效运营。
|
数据采集 数据可视化 数据挖掘
Pandas数据应用:天气数据分析
本文介绍如何使用 Pandas 进行天气数据分析。Pandas 是一个强大的 Python 数据处理库,适合处理表格型数据。文章涵盖加载天气数据、处理缺失值、转换数据类型、时间序列分析(如滚动平均和重采样)等内容,并解决常见报错如 SettingWithCopyWarning、KeyError 和 TypeError。通过这些方法,帮助用户更好地进行气候趋势预测和决策。
429 71
|
8月前
|
SQL 数据挖掘 BI
数据分析的尽头,是跳出数据看数据!
当前许多企业在数据分析上投入大量资源,却常陷入“数据越看越细,业务越看越虚”的困境。报表繁杂、指标众多,但决策难、行动少,分析流于形式。真正有价值的数据分析,不在于图表多漂亮,而在于能否带来洞察、推动决策、指导行动。本文探讨如何跳出数据、回归业务场景,实现数据驱动的有效落地。
|
SQL 人工智能 数据可视化
数据团队必读:智能数据分析文档(DataV Note)五种高效工作模式
数据项目复杂,涉及代码、数据、运行环境等多部分。随着AI发展,数据科学团队面临挑战。协作式数据文档(如阿里云DataV Note)成为提升效率的关键工具。它支持跨角色协同、异构数据处理、多语言分析及高效沟通,帮助创建知识库,实现可重现的数据科学过程,并通过一键分享报告促进数据驱动决策。未来,大模型AI将进一步增强其功能,如智能绘图、总结探索、NLP2SQL/Python和AutoReport,为数据分析带来更多可能。
770 142
|
SQL 数据可视化 大数据
从数据小白到大数据达人:一步步成为数据分析专家
从数据小白到大数据达人:一步步成为数据分析专家
691 92
|
数据挖掘 PyTorch TensorFlow
|
存储 数据采集 数据可视化
Pandas数据应用:电子商务数据分析
本文介绍如何使用 Pandas 进行电子商务数据分析,涵盖数据加载、清洗、预处理、分析与可视化。通过 `read_csv` 等函数加载数据,利用 `info()` 和 `describe()` 探索数据结构和统计信息。针对常见问题如缺失值、重复记录、异常值等,提供解决方案,如 `dropna()`、`drop_duplicates()` 和正则表达式处理。结合 Matplotlib 等库实现数据可视化,探讨内存不足和性能瓶颈的应对方法,并总结常见报错及解决策略,帮助提升电商企业的数据分析能力。
679 73
|
存储 机器学习/深度学习 数据可视化
数据集中存在大量的重复值,会对后续的数据分析和处理产生什么影响?
数据集中存在大量重复值可能会对后续的数据分析和处理产生多方面的负面影响
963 56
|
存储 数据采集 数据可视化
Pandas数据应用:医疗数据分析
Pandas是Python中强大的数据操作和分析库,广泛应用于医疗数据分析。本文介绍了使用Pandas进行医疗数据分析的常见问题及解决方案,涵盖数据导入、预处理、清洗、转换、可视化等方面。通过解决文件路径错误、编码不匹配、缺失值处理、异常值识别、分类变量编码等问题,结合Matplotlib等工具实现数据可视化,并提供了解决常见报错的方法。掌握这些技巧可以提高医疗数据分析的效率和准确性。
474 22
|
机器学习/深度学习 传感器 数据采集
基于机器学习的数据分析:PLC采集的生产数据预测设备故障模型
本文介绍如何利用Python和Scikit-learn构建基于PLC数据的设备故障预测模型。通过实时采集温度、振动、电流等参数,进行数据预处理和特征提取,选择合适的机器学习模型(如随机森林、XGBoost),并优化模型性能。文章还分享了边缘计算部署方案及常见问题排查,强调模型预测应结合定期维护,确保系统稳定运行。
1183 0