开发者社区> 问答> 正文

请教一下,有没有大牛测试过mongodb的change stream特性?

请教一下,有没有大牛测试过mongodb的change stream特性? 本问题来自阿里云开发者社区的【11大垂直技术领域开发者社群】。 点击链接欢迎加入感兴趣的技术领域群。

展开
收起
游客pklijor6gytpx 2019-10-18 17:27:43 1542 0
1 条回答
写回答
取消 提交回答
  • Change Stream即变更流,是MongoDB向应用发布数据变更的一种方式。即当数据库中有任何数据发生变化,应用端都可以得到通知。我们可以将其理解为在应用中执行的触发器。至于应用想得到什么数据,以什么形式得到数据,则可以通过聚合框架加以过滤和转换。这点将在后文中讨论。

     Change Stream 的原理 

    我们先来回顾一下MongoDB复制集大致是如何工作的:

    应用通过驱动向数据库发起写入请求;

    在同一个事务中,MongoDB完成oplog和集合的修改;

    oplog被其他从节点拉走;

    从节点应用得到的oplog,同样在一个事务中完成对oplog和集合的修改;

    至此,复制集同步完成。可以发现,整个同步过程是依赖于oplog来进行的。也就是说oplog实际上已经包含了我们需要的所有变更数据。如果观测oplog的变化,是否就能够得到所有变更的数据了呢?对,change stream正是基于这个原理实现的。但事情并没有这么简单!我们来看一下问题有可能出在什么地方。

    如何从断点恢复 现实世界中,没有哪个应用是可以不间断运行的。不考虑bug导致的问题,正常的应用升级也会导致应用中断运行。那么在应用恢复的时候,从哪里开始继续获取变更呢?oplog当然是可以帮我们做到这点的,但你必须对MongoDB足够了解,才知道有oplogReplay这样的参数,以及其他一些问题。

    如何有效地处理订阅 假设在一个应用中需要订阅10个不同集合的变更情况,是否需要开10个tailable cursor去获取oplog的变更呢?如果是100个集合呢?出于效率考虑显然不应该这么做。那么整个过程就会变成一个生产者-消费者模式,由一个线程负责从oplog获取变更,由订阅的线程负责消费这些变更。虽然实现也不是那么复杂,并且多半可以找到开源实现,但是涉及多线程就已经足够让初学者头疼一阵的了。 公平地说,上面这些还不算严重的问题,下面这些问题可能会更让人头疼。

    如何管理权限 想要tail oplog,必须对local.oplog.rs有读权限。实际上这相当于对整个数据库都有了读权限,因为所有的变更都会在这里体现出来。DBA可能会阻止你这么做,因为这实在不是一个很安全的做法。

    如何数据回滚 极端情况下,如果应用处理不当,MongoDB中可能发生数据回滚rollback的问题。如果仅仅通过跟踪oplog,则会出现已经通知出去的变更被回滚的情况。

    幸运的是上面这些问题现在都不是问题了,因为change stream帮我们规避了这些复杂的细节。

    使用方法 由于各种驱动都会有不同的语法和API,从shell中尝试使用change stream可能是最简便的方法。这并不妨碍你随后在各种驱动中的使用,因为shell中能实现的功能在驱动中一定有对应的语法。下面就以shell为例看看change stream应该如何使用。

    打开一个shell,订阅你需要关注的集合

    比如: var cursor = db.bar.watch(); 为了便于演示,我们在这个shell中不断遍历这个游标以获取新数据: while(true) {    if (cursor.hasNext()) {        print(JSON.stringify(cursor.next()));    } } 打开另一个shell,向bar集合中插入一条数据:

    db.bar.insert({y: 1}) 此时第一个shell中会立即输出变更数据: {"_id":{"_data": {"$binary":"glzquiIAAAACRmRfaWQAZFzquiK0lDNo+K0DpwBaEARUMrm0ruVACoftuxjt1RtCBA==","$type":"00"}}, "operationType":"insert","fullDocument":{"_id":{"$oid":"5ceaba22b4943368f8ad03a7"},"y":1},"ns": {"db":"test","coll":"bar"},"documentKey":{"_id":{"$oid":"5ceaba22b4943368f8ad03a7"}}} 这里的一些字段的简单介绍。更完整的介绍请查阅文档change events:

    _id: 用于恢复断点时使用。即知道这个值,应用断开后下次重启里就可以从这个断点之后开始恢复获得变更;

    operationType: 操作类型,常见的值包括:

    insert

    update

    delete

    ns: 正在操作的命名空间

    fullDocument: 完整的文档

    从断点恢复 var cursor = db.bar.watch([], {resumeAfter: <_id>}) 此时使用hasNext()/next()即可获取到随后的变更。

    2019-11-06 17:09:21
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
移动互联网测试到质量的转变 立即下载
给ITer的技术实战进阶课-阿里CIO学院独家教材(四) 立即下载
F2etest — 多浏览器兼容性测试整体解决方案 立即下载