我有两个充满电影的SQL Server表。一个称为ML_movies,另一个称为GL_movies。每个表包含大约35,000个电影标题。每个表唯一包含的内容是模糊的movieID,电影标题和发行年份。我想将它们合并并删除重复项,这可能会给我一个包含70,000部电影的数据集。
但是,没有重复是至关重要的。我尝试使用Levenshtein_Distance算法,但是比较两个字符串并发现最少的字符交换数被证明太不一致了。
这将有效地返回ML_movies中与(在这种情况下)“ The Trip”最相似的前10个标题。但是我不得不硬编码两个标题
相反,我需要它来搜索GL_movies中最相似的标题。
如何在表A中找到与电影B最接近的电影标题的记录?
谢谢您的帮助!
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。