场景:
获取用户本地磁盘文件名,匹配数据库中的记录。进行关联。
比如用户D盘里有一个战狼2.mp4文件,扫描到后,要和数据库中战狼2中的记录进行关联,
用户磁盘文件的名称是不一样的比如说xxx战狼2xxx.mp4等等吧,这种文件,该如何跟数据库中匹配。
数据库中的记录也可能是战狼2xxx,或者名称是战狼二xx
比如有些电影是系列的:谍影重重系列,用户的磁盘文件是谍影重重2001,谍影重重2002 。。而数据库中存储的名称是谍影重重1,谍影重重2。。。诸如此类的。
如何做到精确匹配呢?
我见过豆瓣有个插件,就是能根据我本地的影片文件,自动获取到影片详细资料信息(导演,主演等等),例如这样的?
目前的想法是用中文分词,匹配。但是精准度有点差
如下图的这种做法
第一种,首先你的词库要非常庞大,比如战狼2这个词,你要在自己的数据库里存上战狼2、战狼二、战狼xxx2等词,用本地的文件名去库里匹配,先精准再模糊。这些词应该来源于各大下载网站。
第二种,视频、音频都有自己的唯一标识,可以使用MD5或者关键帧来判断。最简单的就是MD5校验,这种校验可以识别改名的文件;关键帧校验比较耗时,根据视频的某些帧对比判断。
推荐MD5+文件名识别
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。