我最近开始使用python和正则表达式。作为第一个项目,我想读取pdf文件,过滤特定的文本数据并在Excel工作表中重新组合。因此,我遇到了一个正则表达式问题:
pdf文件输出格式:
...
此行的文本并不总是在这里\ n
这里的社区可以帮助您解决特定的编码,算法或语言问题。\ n
总结\ n
问 \ n
此行的文本并不总是在这里\ n
...
我想搜索“询问”并通过“特定编码”和“ \ nSummarize \ n”找到它。“询问”下面的文本不能始终可靠地使用,因为它总是不同的。
我试图为此使用(?= ...)和(?<= ...),但我找不到合适的解决方案。
也许我做错了。有人知道吗?
如果要查找ask,可以使用捕获组代替环顾四周。您可以匹配specific coding该行的其余部分.*
如果其后有空行和换行符,则可以使用它们\s*进行匹配。
然后匹配换行符,然后再匹配Summarize。
再次匹配空行和换行符,然后ask在捕获组中捕获
\bspecific coding\b.*\s*\r?\nSummarize\s*\r?\n(ask)\b
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。