Cromwell release-49 新特性解析

本文涉及的产品
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
全局流量管理 GTM,标准版 1个月
云解析 DNS,旗舰版 1个月
简介: 近期发布的 Cromwell release-49 版本发布了 Task 级别 Callcaching 开关和中间数据删除两个比较有用的新特性,下面对这些特性做个解析。

Task 级别 Callcaching 开关

我们知道,Callcaching是否启用可以通过如下方式来控制:

  • 配置文件:控制全局的Callcaching 是否开启
# Optional call-caching configuration.
call-caching {
  # Allows re-use of existing results for jobs you've already run
  # (default: false)
  enabled = true

  # Whether to invalidate a cache result forever if we cannot reuse them. Disable this if you expect some cache copies
  # to fail for external reasons which should not invalidate the cache (e.g. auth differences between users):
  # (default: true)
  invalidate-bad-cache-results = true
}

enabled 设置为 true 时,表示 Callcaching 开启,反正 Callcaching 关闭。

  • 提交工作流时的option选项
{
  "read_from_cache": true,
  "write_to_cache": true
}

其中 read_from_cache 表示本次工作流的执行是否从 cache 读取数据,即是否复用之前的运行结果。write_to_cache 表示本次工作流的执行结果是否写入 cache,即本次运行的结果是否给后面的执行复用。

但在有些场景下,我们需要工作流中的某个指定 task 每次都重新运行,即不使用 Callcaching。使用上面的方式是无法支持的。从 Release-49 版本开始,Cromwell 支持对单个 task 设置是否启用 Callcaching(官方文档),下面对这个特性做个介绍。

使用方法

具体来讲,我们可以在 task 定义的 meta 部分使用 volatile 来指定当前 task 是否使用 Callcaching,例如:

version 1.0

task make_random_int {

  meta {
    volatile: true
  }

  command <<<
    echo $RANDOM
  >>>

  output {
    Int random = read_string(stdout())
  }
}

volatile 设置为 true 时,表示当前 task 需要重新执行,不启用 Callcaching。不设置时,默认为false。

其实volatile在计算机编程语言中是个常见的关键字,比如在 C/C++/Java 等语言中都有,只不过各自代表的含义不同。例如在C语言中,volatile 关键字可以用来提醒编译器它后面所定义的变量随时有可能改变,因此编译后的程序每次需要存储或读取这个变量的时候,都会直接从变量地址中读取数据。如果没有 volatile 关键字,则编译器可能优化读取和存储,可能暂时使用寄存器中的值,如果这个变量由别的程序更新了的话,将出现不一致的现象。

在 WDL 中,volatile的含义和C语言有点类似,表示当前的 task,需要每次都重新执行不要使用 Cache 中的记录。

中间文件删除

我们在使用 Cromwell 运行 WDL 的时候可能有这样的经历:一个工作流有若干个 task,每个 task 都会产生一定的输出文件。但是整个 Workflow 的输出是最后一个 Task 的输出,也就是说如果工作流运行结束后,只有最后一个 task 的输出是需要保存的,其他 task 的输出都属于中间文件。例如:

task task1 {
  input {
    File file1
    File file2
  }
  command {
    python do_stuff.py ${file2} ${file2}
  }
  output {
    File results = stdout()
  }
}

task task2 {
  input {
    File foobar
  }
  command {
    python do_stuff2.py ${foobar}
  }
  output {
    File results = stdout()
  }
}

workflow wf {
  input {
    File file1
    File file2
  }

  call task1 {
      input: file1 = file1, file2 = file2
  }
  call task2 {
    input: foobar=task1.results
  }

  output {
      File finals = task2.results
  }
}

在上面的例子中,workflow 最终的输出,只是task2的输出 results 这一个文件。但在 task1 中我们还产生了 task1.results 这样一个中间文件。
如果这些中间文件比较大的话,会占用较多的存储空间,不管是线上存储还是云上存储,都意味着成本。

Release-49 版本开始,Cromwell 支持一个 workflow option,来设置工作流运行结束后是否要将中间文件删除。

使用方法

要使用这个特性,需要配置两个地方:

  • 全局配置中,设置 delete-workflow-files 开关打开
system {
  # Option to allow Cromwell to delete intermediate output files once the workflow succeeds
  delete-workflow-files = true
}
  • 提交工作流时,在 option 中设置 delete_intermediate_output_files 为 true,表示当前工作流需要删除中间文件
{
  "delete_intermediate_output_files": true
}
目录
相关文章
|
2月前
|
存储 Java
深入探讨了Java集合框架中的HashSet和TreeSet,解析了两者在元素存储上的无序与有序特性。
【10月更文挑战第16天】本文深入探讨了Java集合框架中的HashSet和TreeSet,解析了两者在元素存储上的无序与有序特性。HashSet基于哈希表实现,添加元素时根据哈希值分布,遍历时顺序不可预测;而TreeSet利用红黑树结构,按自然顺序或自定义顺序存储元素,确保遍历时有序输出。文章还提供了示例代码,帮助读者更好地理解这两种集合类型的使用场景和内部机制。
43 3
|
2月前
|
存储 算法 Java
解析HashSet的工作原理,揭示Set如何利用哈希算法和equals()方法确保元素唯一性,并通过示例代码展示了其“无重复”特性的具体应用
在Java中,Set接口以其独特的“无重复”特性脱颖而出。本文通过解析HashSet的工作原理,揭示Set如何利用哈希算法和equals()方法确保元素唯一性,并通过示例代码展示了其“无重复”特性的具体应用。
50 3
|
2月前
|
缓存 JavaScript 前端开发
Vue3与Vue2生命周期对比:新特性解析与差异探讨
Vue3与Vue2生命周期对比:新特性解析与差异探讨
128 2
|
29天前
|
编译器 C# 开发者
C# 9.0 新特性解析
C# 9.0 是微软在2020年11月随.NET 5.0发布的重大更新,带来了一系列新特性和改进,如记录类型、初始化器增强、顶级语句、模式匹配增强、目标类型的新表达式、属性模式和空值处理操作符等,旨在提升开发效率和代码可读性。本文将详细介绍这些新特性,并提供代码示例和常见问题解答。
39 7
C# 9.0 新特性解析
|
28天前
|
C# 开发者
C# 10.0 新特性解析
C# 10.0 在性能、可读性和开发效率方面进行了多项增强。本文介绍了文件范围的命名空间、记录结构体、只读结构体、局部函数的递归优化、改进的模式匹配和 lambda 表达式等新特性,并通过代码示例帮助理解这些特性。
33 2
|
1月前
|
PHP 开发者
PHP 7新特性深度解析及其最佳实践
【10月更文挑战第31天】本文将深入探讨PHP 7带来的革新,从性能提升到语法改进,再到错误处理机制的变革。我们将通过实际代码示例,展示如何高效利用这些新特性来编写更加健壮和高效的PHP应用。无论你是PHP新手还是资深开发者,这篇文章都将为你打开一扇窗,让你看到PHP 7的强大之处。
|
1月前
|
安全 编译器 PHP
PHP 8新特性解析与实践应用####
————探索PHP 8的创新功能及其在现代Web开发中的实际应用
|
1月前
|
Kubernetes Cloud Native 调度
云原生批量任务编排引擎Argo Workflows发布3.6,一文解析关键新特性
Argo Workflows是CNCF毕业项目,最受欢迎的云原生工作流引擎,专为Kubernetes上编排批量任务而设计,本文主要对最新发布的Argo Workflows 3.6版本的关键新特性做一个深入的解析。
|
2月前
|
PHP 数据安全/隐私保护 开发者
PHP 7新特性解析与实践
【10月更文挑战第20天】本文将深入浅出地介绍PHP 7的新特性,包括性能提升、语法改进等方面。我们将通过实际代码示例,展示如何利用这些新特性优化现有项目,提高开发效率。无论你是PHP新手还是资深开发者,都能从中获得启发和帮助。
|
2月前
|
JavaScript 前端开发 索引
JavaScript ES6及后续版本:新增的常用特性与亮点解析
JavaScript ES6及后续版本:新增的常用特性与亮点解析
48 4