《Java安全编码标准》一2.9 IDS08-J净化传递给正则表达式的非受信数据

简介: 本节书摘来自华章出版社《Java安全编码标准》一书中的第2章,第2.9节,作者 (美)Fred Long,Dhruv Mohindra,Robert C. Seacord,Dean F. Sutherland,David Svoboda,更多章节内容可以访问云栖社区“华章计算机”公众号查看

2.9 IDS08-J净化传递给正则表达式的非受信数据

正则表达式在匹配文本字符串时被广泛使用。比如,在POSIX中,grep命令就支持正则表达式,使用它可以在指定文本中搜索模式。如果要了解正则表达式的基本情况,请参考Java教程[Tutorials 08]。java.util.regex包提供了Pattern?类,这个类封装了一个编译过的正则表达式和一个Matcher类,通过Matcher类这个引擎,可以使用Pattern?在CharSequence中进行匹配操作。
在Java中,必须注意不能误用强大的正则表达式功能。攻击者也许会通过提供一个恶意输入对初始的正则表达式进行修改,比如使其不符合程序规定的正则表达的要求。这种攻击方式称为正则注入(regex injection),它可以影响程序控制流、导致信息泄露,并引起拒绝服务漏洞。
以下这些是在使用正则表达式时,容易被利用的地方。
匹配标志:非受信的输入可能覆盖匹配选项,然后可能会也可能不会传给Pattern.compile()方法。
贪婪:一个非受信的输入可能试图注入一个正则表达式,通过它来改变初始的那个正则表达式,从而匹配尽可能多的字符串,从而暴露敏感信息。
分组:程序员会用括号包括一部分的正则表达式以完成一组动作中某些共同的部分。攻击者可能通过提供非受信的输入来改变这种分组。
非受信的输入应该在使用前净化,从而防止发生正则表达式注入。当用户必须指定正则表达式作为输入时,必须注意需要保证初始的正则表达式没有被无限制修改。在用户输入字符串提交给正则解析之前,进行白名单字符处理(比如字母和数字)是一个很好的输入净化策略。开发人员必须仅仅提供最有限的正则表达式功能给用户,从而减少被误用的可能。
正则表达式注入示例
假设一个系统日志文件包含一系列系统过程的输出信息。其中一些过程会产生公开的信息,而另一些会产生被标识为“private”的敏感信息。以下是这个日志文件的例子:

10:47:03 private[423] Successful logout name: usr1 ssn: 111223333
10:47:04 public[48964] Failed to resolve network service
10:47:04 public[1](public.message[49367]) Exited with exit code: 255
10:47:43 private[423] Successful login name: usr2 ssn: 444556666
10:48:08 public[48964] Backup failed with error: 19

用户希望搜索日志文件以寻找感兴趣的信息,然而又必须防止读取私有数据。程序可能会采用以下的方式,它允许用户将搜索文本作为下面所示正则表达式的一部分:

(.*? +public\[\d+\] +.*<SEARCHTEXT>.*)

然而,攻击者可以用任何字符串替代,这样他就可以通过下面的文本实现正则表达式注入:

.*)|(.*

注入后的正则表达式为:

(.*? +public\[\d+\] +.*.*)|(.*.*)

这个正则表达式会匹配日志文件中的所有信息,包括那些私有的信息。

2.9.1 不符合规则的代码示例

这个不符合规则的代码示例将日志文件周期性地载入内存,它通过将关键词作为参数传给suggestSearches()方法来获得关键词搜索建议。

public class Keywords {
??private static ScheduledExecutorService scheduler
?????= Executors.newSingleThreadScheduledExecutor();
??private static CharBuffer log;
??private static final Object lock = new Object();

??// Map log file into memory, and periodically reload
??static
????try {
??????FileChannel channel = new FileInputStream(
?????????"path").getChannel();

??????// Get the file’s size and map it into memory
??????int size = (int) channel.size();
??????final MappedByteBuffer mappedBuffer = channel.map(
?????????FileChannel.MapMode.READ_ONLY, 0, size);

??????Charset charset = Charset.forName("ISO-8859-15");
??????final CharsetDecoder decoder = charset.newDecoder();

?????log = decoder.decode(mappedBuffer); // Read file into char buffer
??????Runnable periodicLogRead = new Runnable() {
????????@Override public void run() {
??????????synchronized(lock) {?
????????????try {
??????????????log = decoder.decode(mappedBuffer);
????????????} catch (CharacterCodingException e) {
??????????????// Forward to handler?
????????????}?
??????????}
????????}
??????};
??????scheduler.scheduleAtFixedRate(periodicLogRead,
????????????????????????????????????0, 5, TimeUnit.SECONDS);
????} catch (Throwable t) {
??????// Forward to handler
????}
??}

??public static Set<String> suggestSearches(String search) {
????synchronized(lock) {
??????Set<String> searches = new HashSet<String>();

??????// Construct regex dynamically from user string
??????String regex = "(.*? +public\\[\\d+\\] +.*" + search + ".*)";
??
??????Pattern keywordPattern = Pattern.compile(regex);
??????Matcher logMatcher = keywordPattern.matcher(log);
??????while (logMatcher.find()) {
????????String found = logMatcher.group(1);
????????searches.add(found);
??????}
??????return searches;
????}??
??}

}

这段代码允许受信用户在公共日志信息中搜索“error”关键词。然而,这样会导致前面提到的通过正则注入进行的恶意攻击。

2.9.2 符合规则的方案(白名单方法)

这个符合规则的方案过滤搜索字符串中的非字母数字的字符(除了空格和单引号外),这种方案可以阻止前面介绍的正则表达式注入。

public class Keywords {
??// ...
??public static Set<String> suggestSearches(String search) {
????synchronized(lock) {
??????Set<String> searches = new HashSet<String>();

??????StringBuilder sb = new StringBuilder(search.length());
??????for (int i = 0; i < search.length(); ++i) {
????????char ch = search.charAt(i);
????????if (Character.isLetterOrDigit(ch) ||
????????????ch == ' ' ||
????????????ch == '\ ") {
??????????sb.append(ch);
????????}
??????}
??????search = sb.toString();

??????// Construct regex dynamically from user string
??????String regex = "(.*? +public\\[\\d+\\] +.*" + search + ".*)";
??????// ...
????}
??}
}

这个方案同样对有效的搜索项进行限制。例如,用户不再可以使用类似“name=”这样的搜索,因为=字符会被净化掉。

2.9.3 符合规则的方案

另一个减少这种漏洞的方法是,在匹配前过滤敏感信息。这样的方案要求每一次日志文件定期更新时都要进行过滤,从而会产生额外的复杂性和性能损失。如果日志格式变化了,但类的设计没有反映这些变化,那么敏感数据依然可能被暴露。

2.9.4 风险评估

在正则表达式中,没有对非受信的数据进行净化,会导致敏感信息的泄露。
image

2.9.5 相关规范

image

2.9.6 参考书目

image

相关文章
|
3月前
|
Java API 开发工具
【Azure Developer】Java代码实现获取Azure 资源的指标数据却报错 "invalid time interval input"
在使用 Java 调用虚拟机 API 获取指标数据时,因本地时区设置非 UTC,导致时间格式解析错误。解决方法是在代码中手动指定时区为 UTC,使用 `ZoneOffset.ofHours(0)` 并结合 `withOffsetSameInstant` 方法进行时区转换,从而避免因时区差异引发的时间格式问题。
229 3
|
4月前
|
数据采集 JSON Java
Java爬虫获取1688店铺所有商品接口数据实战指南
本文介绍如何使用Java爬虫技术高效获取1688店铺商品信息,涵盖环境搭建、API调用、签名生成及数据抓取全流程,并附完整代码示例,助力市场分析与选品决策。
|
4月前
|
数据采集 存储 前端开发
Java爬虫性能优化:多线程抓取JSP动态数据实践
Java爬虫性能优化:多线程抓取JSP动态数据实践
|
3月前
|
算法 Java
Java多线程编程:实现线程间数据共享机制
以上就是Java中几种主要处理多线程序列化资源以及协调各自独立运行但需相互配合以完成任务threads 的技术手段与策略。正确应用上述技术将大大增强你程序稳定性与效率同时也降低bug出现率因此深刻理解每项技术背后理论至关重要.
275 16
|
传感器 分布式计算 安全
Java 大视界 -- Java 大数据在智能安防入侵检测系统中的多源数据融合与分析技术(171)
本文围绕 Java 大数据在智能安防入侵检测系统中的应用展开,剖析系统现状与挑战,阐释多源数据融合及分析技术,结合案例与代码给出实操方案,提升入侵检测效能。
Python 内置正则表达式库re的使用
正则表达式是记录文本规则的代码,用于查找和处理符合特定规则的字符串。在Python中,常通过原生字符串`r&#39;string&#39;`表示。使用`re.compile()`创建正则对象,便于多次使用。匹配字符串有`match()`(从开头匹配)、`search()`(搜索首个匹配)和`findall()`(找所有匹配)。替换字符串用`sub()`,分割字符串则用`split()`。
|
数据库 Python
Python网络数据抓取(8):正则表达式
Python网络数据抓取(8):正则表达式
|
自然语言处理 JavaScript 前端开发
Python高级语法与正则表达式(二)
正则表达式描述了一种字符串匹配的模式,可以用来检查一个串是否含有某种子串、将匹配的子串做替换或者从某个串中取出符合某个条件的子串等。
|
安全 算法 Python
Python高级语法与正则表达式(一)
Python提供了 with 语句的写法,既简单又安全。 文件操作的时候使用with语句可以自动调用关闭文件操作,即使出现异常也会自动关闭文件操作。
Python使用正则表达式分割字符串
在Python中,你可以使用re模块的split()函数来根据正则表达式分割字符串。这个函数的工作原理类似于Python内置的str.split()方法,但它允许你使用正则表达式作为分隔符。