备案控制台

开发者社区人工智能文章正文

TensorFlow Lite源码解析--模型加载和执行

2018-10-18 7417

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

全局流量管理 GTM，标准版 1个月

公共DNS（含HTTPDNS解析），每月1000万次HTTP解析

云解析 DNS，旗舰版 1个月

简介： TensorFlow Lite是专门针对移动和嵌入式设备的特性重新实现的TensorFlow版本。相比普通的TensorFlow，它的功能更加精简，不支持模型的训练，不支持分布式运行，也没有太多跨平台逻辑，支持的op也比较有限。但正因其精简性，因此比较适合用来探究一个机器学习框架的实现原理。不过准确讲，从TensorFlow Lite只能看到预测（inference）部分，无法看到训练（t

TensorFlow Lite是专门针对移动和嵌入式设备的特性重新实现的TensorFlow版本。相比普通的TensorFlow，它的功能更加精简，不支持模型的训练，不支持分布式运行，也没有太多跨平台逻辑，支持的op也比较有限。但正因其精简性，因此比较适合用来探究一个机器学习框架的实现原理。不过准确讲，从TensorFlow Lite只能看到预测（inference）部分，无法看到训练（training）部分。

TensorFlow Lite的架构如下（图片来自官网）

从架构图中，可以看到TensorFlow Lite主要功能可以分成几块：

TensorFlow模型文件的格式转换。将普通的TensorFlow的pb文件转换成TensorFlow Lite需要的FlatBuffers文件。
模型文件的加载和解析。将文本的FlatBuffers文件解析成对应的op，用以执行。
op的执行。具体op的实现本文暂不涉及。

TensorFlow Lite的源码结构

TensorFlow Lite源码位于tensorflow/contrib/lite，目录结构如下：

- lite
    - [d] c             一些基础数据结构定义，例如TfLiteContext, TfLiteStatus
    - [d] core          基础API定义
    - [d] delegates     对eager和nnapi的代理封装
    - [d] examples      使用例子，包括android和iOS的demo
    - [d] experimental  
    - [d] g3doc
    - [d] java          Java API
    - [d] kernels       内部实现的op，包括op的注册逻辑
    - [d] lib_package
    - [d] models        内置的模型，例如智能回复功能
    - [d] nnapi         对android平台硬件加速接口的调用
    - [d] profiling     内部分析库，例如模型执行次数之类。可关掉
    - [d] python        Python API
    - [d] schema        对TensorFlow Lite的FlatBuffers文件格式的解析
    - [d] testdata
    - [d] testing
    - [d] toco          TensorFlow Lite Converter，将普通的TensorFlow的pb格式转换成TensorFlow Lite的FlatBuffers格式
    - [d] tools
    - [d] tutorials
    - BUILD
    - README.md
    - allocation.cc
    - allocation.h
    - arena_planner.cc
    - arena_planner.h
    - arena_planner_test.cc
    - build_def.bzl
    - builtin_op_data.h
    - builtin_ops.h
    - context.h
    - context_util.h
    - error_reporter.h
    - graph_info.cc
    - graph_info.h
    - graph_info_test.cc
    - interpreter.cc
    - interpreter.h     TensorFlow Lite解释器，C++的入口API
    - interpreter_test.cc
    - memory_planner.h
    - mmap_allocation.cc
    - mmap_allocation_disabled.cc
    - model.cc
    - model.h           TensorFlow Lite的加载和解析
    - model_test.cc
    - mutable_op_resolver.cc
    - mutable_op_resolver.h
    - mutable_op_resolver_test.cc
    - nnapi_delegate.cc
    - nnapi_delegate.h
    - nnapi_delegate_disabled.cc
    - op_resolver.h     op的查找
    - optional_debug_tools.cc
    - optional_debug_tools.h
    - simple_memory_arena.cc
    - simple_memory_arena.h
    - simple_memory_arena_test.cc
    - special_rules.bzl
    - stderr_reporter.cc
    - stderr_reporter.h
    - string.h
    - string_util.cc
    - string_util.h
    - string_util_test.cc
    - util.cc
    - util.h
    - util_test.cc
    - version.h

我们主要看op_resolver.h，model.h，interpreter.h，schema/，java/，kernels/register.h等文件。

TensorFlow Lite执行过程分析

因为比较熟悉，我们从Java的API入手分析。Java API的核心类是Interpreter.java，其具体实现是在NativeInterpreterWrappter.java，而最终是调用到Native的nativeinterpreterwraptter_jni.h，自此就进入C++实现的逻辑。

模型文件的加载和解析

加载模型文件

//nativeinterpreter_jni.cc的createModel()函数是加载和解析文件的入口
JNIEXPORT jlong JNICALL
Java_org_tensorflow_lite_NativeInterpreterWrapper_createModel(
    JNIEnv* env, jclass clazz, jstring model_file, jlong error_handle) {
  BufferErrorReporter* error_reporter =
      convertLongToErrorReporter(env, error_handle);
  if (error_reporter == nullptr) return 0;
  const char* path = env->GetStringUTFChars(model_file, nullptr);

  std::unique_ptr<tflite::TfLiteVerifier> verifier;
  verifier.reset(new JNIFlatBufferVerifier());

  //读取并解析文件关键代码
  auto model = tflite::FlatBufferModel::VerifyAndBuildFromFile(
      path, verifier.get(), error_reporter);
  if (!model) {
    throwException(env, kIllegalArgumentException,
                   "Contents of %s does not encode a valid "
                   "TensorFlowLite model: %s",
                   path, error_reporter->CachedErrorMessage());
    env->ReleaseStringUTFChars(model_file, path);
    return 0;
  }
  env->ReleaseStringUTFChars(model_file, path);
  return reinterpret_cast<jlong>(model.release());
}

上述逻辑中，最关键之处在于

auto model = tflite::FlatBufferModel::VerifyAndBuildFromFile(path, verifier.get(), error_reporter);

这行代码的作用是读取并解析文件看起具体实现。

//代码再model.cc文件中
std::unique_ptr<FlatBufferModel> FlatBufferModel::VerifyAndBuildFromFile(
    const char* filename, TfLiteVerifier* verifier,
    ErrorReporter* error_reporter) {
  error_reporter = ValidateErrorReporter(error_reporter);

  std::unique_ptr<FlatBufferModel> model;
  //读取文件
  auto allocation = GetAllocationFromFile(filename, /*mmap_file=*/true,
                                          error_reporter, /*use_nnapi=*/true);
  if (verifier &&
      !verifier->Verify(static_cast<const char*>(allocation->base()),
                        allocation->bytes(), error_reporter)) {
    return model;
  }
  //用FlatBuffers库解析文件
  model.reset(new FlatBufferModel(allocation.release(), error_reporter));
  if (!model->initialized()) model.reset();
  return model;
}

这段逻辑中GetAllocationFromFile()函数获取了文件内容的地址，FlatBufferModel()构造函数中则利用FlatBuffers库读取文件内容。

解析模型文件

上面的流程将模型文件读到FlatBuffers的Model数据结构中，具体数据结构定义可以见schema.fbs。接下去，需要文件中的数据映射成对应可以执行的op数据结构。这个工作主要由InterpreterBuilder完成。

//nativeinterpreter_jni.cc的createInterpreter()函数是将模型文件映射成可以执行的op的入口函数。
JNIEXPORT jlong JNICALL
Java_org_tensorflow_lite_NativeInterpreterWrapper_createInterpreter(
    JNIEnv* env, jclass clazz, jlong model_handle, jlong error_handle,
    jint num_threads) {
  tflite::FlatBufferModel* model = convertLongToModel(env, model_handle);
  if (model == nullptr) return 0;
  BufferErrorReporter* error_reporter =
      convertLongToErrorReporter(env, error_handle);
  if (error_reporter == nullptr) return 0;
  //先注册op，将op的实现和FlatBuffers中的index关联起来。
  auto resolver = ::tflite::CreateOpResolver();
  std::unique_ptr<tflite::Interpreter> interpreter;
  //解析FlatBuffers，将配置文件中的内容映射成可以执行的op实例。
  TfLiteStatus status = tflite::InterpreterBuilder(*model, *(resolver.get()))(
      &interpreter, static_cast<int>(num_threads));
  if (status != kTfLiteOk) {
    throwException(env, kIllegalArgumentException,
                   "Internal error: Cannot create interpreter: %s",
                   error_reporter->CachedErrorMessage());
    return 0;
  }
  // allocates memory
  status = interpreter->AllocateTensors();
  if (status != kTfLiteOk) {
    throwException(
        env, kIllegalStateException,
        "Internal error: Unexpected failure when preparing tensor allocations:"
        " %s",
        error_reporter->CachedErrorMessage());
    return 0;
  }
  return reinterpret_cast<jlong>(interpreter.release());
}

这里首先调用::tflite::CreateOpResolver()完成op的注册，将op实例和FlatBuffers中的索引对应起来，具体索引见schema_generated.h里面的BuiltinOperator枚举。

//builtin_ops_jni.cc
std::unique_ptr<OpResolver> CreateOpResolver() {  // NOLINT
  return std::unique_ptr<tflite::ops::builtin::BuiltinOpResolver>(
      new tflite::ops::builtin::BuiltinOpResolver());
}


//register.cc
BuiltinOpResolver::BuiltinOpResolver() {
  AddBuiltin(BuiltinOperator_RELU, Register_RELU());
  AddBuiltin(BuiltinOperator_RELU_N1_TO_1, Register_RELU_N1_TO_1());
  AddBuiltin(BuiltinOperator_RELU6, Register_RELU6());
  AddBuiltin(BuiltinOperator_TANH, Register_TANH());
  AddBuiltin(BuiltinOperator_LOGISTIC, Register_LOGISTIC());
  AddBuiltin(BuiltinOperator_AVERAGE_POOL_2D, Register_AVERAGE_POOL_2D());
  AddBuiltin(BuiltinOperator_MAX_POOL_2D, Register_MAX_POOL_2D());
  AddBuiltin(BuiltinOperator_L2_POOL_2D, Register_L2_POOL_2D());
  AddBuiltin(BuiltinOperator_CONV_2D, Register_CONV_2D());
  AddBuiltin(BuiltinOperator_DEPTHWISE_CONV_2D, Register_DEPTHWISE_CONV_2D()
  ...
}

InterpreterBuilder则负责根据FlatBuffers内容，构建Interpreter对象。


TfLiteStatus InterpreterBuilder::operator()(
    std::unique_ptr<Interpreter>* interpreter, int num_threads) {
  
  .....

  // Flatbuffer model schemas define a list of opcodes independent of the graph.
  // We first map those to registrations. This reduces string lookups for custom
  // ops since we only do it once per custom op rather than once per custom op
  // invocation in the model graph.
  // Construct interpreter with correct number of tensors and operators.
  auto* subgraphs = model_->subgraphs();
  auto* buffers = model_->buffers();
  if (subgraphs->size() != 1) {
    error_reporter_->Report("Only 1 subgraph is currently supported.\n");
    return cleanup_and_error();
  }
  const tflite::SubGraph* subgraph = (*subgraphs)[0];
  auto operators = subgraph->operators();
  auto tensors = subgraph->tensors();
  if (!operators || !tensors || !buffers) {
    error_reporter_->Report(
        "Did not get operators, tensors, or buffers in input flat buffer.\n");
    return cleanup_and_error();
  }
  interpreter->reset(new Interpreter(error_reporter_));
  if ((**interpreter).AddTensors(tensors->Length()) != kTfLiteOk) {
    return cleanup_and_error();
  }
  // Set num threads
  (**interpreter).SetNumThreads(num_threads);
  // Parse inputs/outputs
  (**interpreter).SetInputs(FlatBufferIntArrayToVector(subgraph->inputs()));
  (**interpreter).SetOutputs(FlatBufferIntArrayToVector(subgraph->outputs()));

  // Finally setup nodes and tensors
  if (ParseNodes(operators, interpreter->get()) != kTfLiteOk)
    return cleanup_and_error();
  if (ParseTensors(buffers, tensors, interpreter->get()) != kTfLiteOk)
    return cleanup_and_error();

  std::vector<int> variables;
  for (int i = 0; i < (*interpreter)->tensors_size(); ++i) {
    auto* tensor = (*interpreter)->tensor(i);
    if (tensor->is_variable) {
      variables.push_back(i);
    }
  }
  (**interpreter).SetVariables(std::move(variables));

  return kTfLiteOk;
}

模型的执行

经过InterpreterBuilder的工作，模型文件的内容已经解析成可执行的op，存储在interpreter.cc的nodes_and_registration_列表中。剩下的工作就是循环遍历调用每个op的invoke接口。

//interpreter.cc
TfLiteStatus Interpreter::Invoke() {
.....

  // Invocations are always done in node order.
  // Note that calling Invoke repeatedly will cause the original memory plan to
  // be reused, unless either ResizeInputTensor() or AllocateTensors() has been
  // called.
  // TODO(b/71913981): we should force recalculation in the presence of dynamic
  // tensors, because they may have new value which in turn may affect shapes
  // and allocations.
  for (int execution_plan_index = 0;
       execution_plan_index < execution_plan_.size(); execution_plan_index++) {
    if (execution_plan_index == next_execution_plan_index_to_prepare_) {
      TF_LITE_ENSURE_STATUS(PrepareOpsAndTensors());
      TF_LITE_ENSURE(&context_, next_execution_plan_index_to_prepare_ >=
                                    execution_plan_index);
    }
    int node_index = execution_plan_[execution_plan_index];
    TfLiteNode& node = nodes_and_registration_[node_index].first;
    const TfLiteRegistration& registration =
        nodes_and_registration_[node_index].second;
    SCOPED_OPERATOR_PROFILE(profiler_, node_index);

    // TODO(ycling): This is an extra loop through inputs to check if the data
    // need to be copied from Delegate buffer to raw memory, which is often not
    // needed. We may want to cache this in prepare to know if this needs to be
    // done for a node or not.
    for (int i = 0; i < node.inputs->size; ++i) {
      int tensor_index = node.inputs->data[i];
      if (tensor_index == kOptionalTensor) {
        continue;
      }
      TfLiteTensor* tensor = &tensors_[tensor_index];
      if (tensor->delegate && tensor->delegate != node.delegate &&
          tensor->data_is_stale) {
        EnsureTensorDataIsReadable(tensor_index);
      }
    }

    EnsureTensorsVectorCapacity();
    tensor_resized_since_op_invoke_ = false;
    //逐个op调用
    if (OpInvoke(registration, &node) == kTfLiteError) {
      status = ReportOpError(&context_, node, registration, node_index,
                             "failed to invoke");
    }

    // Force execution prep for downstream ops if the latest op triggered the
    // resize of a dynamic tensor.
    if (tensor_resized_since_op_invoke_ &&
        HasDynamicTensor(context_, node.outputs)) {
      next_execution_plan_index_to_prepare_ = execution_plan_index + 1;
    }
  }

  if (!allow_buffer_handle_output_) {
    for (int tensor_index : outputs_) {
      EnsureTensorDataIsReadable(tensor_index);
    }
  }

  return status;
}

参考文章

文章标签：

云解析DNS

算法框架/工具

TensorFlow

C++

API

Java

关键词：

TensorFlow模型

源码云解析DNS

TensorFlow lite

TensorFlow lite模型

云解析DNS模型

zhang_sl

目录

相关文章

1030024444162706

|

22天前

|

监控网络协议 Java

Tomcat源码解析】整体架构组成及核心组件

Tomcat，原名Catalina，是一款优雅轻盈的Web服务器，自4.x版本起扩展了JSP、EL等功能，超越了单纯的Servlet容器范畴。Servlet是Sun公司为Java编程Web应用制定的规范，Tomcat作为Servlet容器，负责构建Request与Response对象，并执行业务逻辑。

1030024444162706

74 1 1

Tomcat源码解析】整体架构组成及核心组件

程序员小海绵

|

7天前

|

存储缓存 Java

什么是线程池？从底层源码入手，深度解析线程池的工作原理

本文从底层源码入手，深度解析ThreadPoolExecutor底层源码，包括其核心字段、内部类和重要方法，另外对Executors工具类下的四种自带线程池源码进行解释。阅读本文后，可以对线程池的工作原理、七大参数、生命周期、拒绝策略等内容拥有更深入的认识。

程序员小海绵

63 29 31

什么是线程池？从底层源码入手，深度解析线程池的工作原理

无所不能的蛋蛋

|

11天前

|

开发工具

Flutter-AnimatedWidget组件源码解析

Flutter-AnimatedWidget组件源码解析

无所不能的蛋蛋

108 60 60

程序员小海绵

|

7天前

|

设计模式 Java 关系型数据库

【Java笔记+踩坑汇总】Java基础+JavaWeb+SSM+SpringBoot+SpringCloud+瑞吉外卖/谷粒商城/学成在线+设计模式+面试题汇总+性能调优/架构设计+源码解析

本文是“Java学习路线”专栏的导航文章，目标是为Java初学者和初中高级工程师提供一套完整的Java学习路线。

程序员小海绵

87 37 38

Deephub

|

1天前

|

机器学习/深度学习存储人工智能

让模型评估模型：构建双代理RAG评估系统的步骤解析

在当前大语言模型（LLM）应用开发中，评估模型输出的准确性成为关键问题。本文介绍了一个基于双代理的RAG（检索增强生成）评估系统，使用生成代理和反馈代理对输出进行评估。文中详细描述了系统的构建过程，并展示了基于四种提示工程技术（ReAct、思维链、自一致性和角色提示）的不同结果。实验结果显示，ReAct和思维链技术表现相似，自一致性技术则呈现相反结果，角色提示技术最为不稳定。研究强调了多角度评估的重要性，并提供了系统实现的详细代码。

Deephub

20 10 10

让模型评估模型：构建双代理RAG评估系统的步骤解析

Deephub

|

18天前

|

机器学习/深度学习数据采集存储

一文读懂蒙特卡洛算法：从概率模拟到机器学习模型优化的全方位解析

蒙特卡洛方法起源于1945年科学家斯坦尼斯劳·乌拉姆对纸牌游戏中概率问题的思考，与约翰·冯·诺依曼共同奠定了该方法的理论基础。该方法通过模拟大量随机场景来近似复杂问题的解，因命名灵感源自蒙特卡洛赌场。如今，蒙特卡洛方法广泛应用于机器学习领域，尤其在超参数调优、贝叶斯滤波等方面表现出色。通过随机采样超参数空间，蒙特卡洛方法能够高效地找到优质组合，适用于处理高维度、非线性问题。本文通过实例展示了蒙特卡洛方法在估算圆周率π和优化机器学习模型中的应用，并对比了其与网格搜索方法的性能。

Deephub

117 1 1

蓝易云

|

29天前

|

测试技术 Python

python自动化测试中装饰器@ddt与@data源码深入解析

综上所述，使用 `@ddt`和 `@data`可以大大简化写作测试用例的过程，让我们能专注于测试逻辑的本身，而无需编写重复的测试方法。通过讲解了 `@ddt`和 `@data`源码的关键部分，我们可以更深入地理解其背后的工作原理。

蓝易云

25 1 1

1941623231718325

|

1月前

|

机器学习/深度学习数据挖掘

机器学习模型的选择与评估：技术深度解析

【8月更文挑战第21天】机器学习模型的选择与评估是一个复杂而重要的过程。通过深入理解问题、选择合适的评估指标和交叉验证方法，我们可以更准确地评估模型的性能，并选择出最适合当前问题的模型。然而，机器学习领域的发展日新月异，新的模型和评估方法不断涌现。因此，我们需要保持对新技术的学习和关注，不断优化和改进我们的模型选择与评估策略。

1941623231718325

29 1 1

土木林森

|

1月前

|

机器学习/深度学习自然语言处理负载均衡

揭秘混合专家（MoE）模型的神秘面纱：算法、系统和应用三大视角全面解析，带你领略深度学习领域的前沿技术！

【8月更文挑战第19天】在深度学习领域，混合专家（Mixture of Experts, MoE）模型通过整合多个小型专家网络的输出以实现高性能。从算法视角，MoE利用门控网络分配输入至专家网络，并通过组合机制集成输出。系统视角下，MoE需考虑并行化、通信开销及负载均衡等优化策略。在应用层面，MoE已成功应用于Google的BERT模型、Facebook的推荐系统及Microsoft的语音识别系统等多个场景。这是一种强有力的工具，能够解决复杂问题并提升效率。

土木林森

45 2 2

土木林森

|

20天前

|

UED 开发者

哇塞！Uno Platform 数据绑定超全技巧大揭秘！从基础绑定到高级转换，优化性能让你的开发如虎添翼

【8月更文挑战第31天】在开发过程中，数据绑定是连接数据模型与用户界面的关键环节，可实现数据自动更新。Uno Platform 提供了简洁高效的数据绑定方式，使属性变化时 UI 自动同步更新。通过示例展示了基本绑定方法及使用 `Converter` 转换数据的高级技巧，如将年龄转换为格式化字符串。此外，还可利用 `BindingMode.OneTime` 提升性能。掌握这些技巧能显著提高开发效率并优化用户体验。

土木林森

40 0 0

热门文章

最新文章

DDNS配置实例（DHCP+DNS=DDNS）

阿里云基于OSS的云上统一数据保护方案2.0技术解析

JVM深入学习：Java解析Class文件过程解析

客观解析开发小程序该选择模板还是定制开发？

北京大学2016年高等代数与解析几何考研试题

面试题24解析-详谈DNS域名解析过程

windows终止处理程序( __try __finally) 简单解析

ln命令解析_学习笔记

一个不错的命令行解析类

使用Fiddler解析WCF RIA Service传输的数据

【Python 机器学习专栏】使用 TensorFlow 构建深度学习模型

Python用线性回归和TensorFlow非线性概率神经网络不同激活函数分析可视化

Python中TensorFlow的长短期记忆神经网络(LSTM)、指数移动平均法预测股票市场和可视化

TensorFlow 2keras开发深度学习模型实例：多层感知器（MLP），卷积神经网络（CNN）和递归神经网络（RNN）

TensorFlow、Keras 和 Python 构建神经网络分析鸢尾花iris数据集|代码数据分享

Python安装TensorFlow 2、tf.keras和深度学习模型的定义

Python TensorFlow循环神经网络RNN-LSTM神经网络预测股票市场价格时间序列和MSE评估准确性

PYTHON TENSORFLOW 2二维卷积神经网络CNN对图像物体识别混淆矩阵评估|数据分享

使用TensorFlow实现Python简版神经网络模型

TensorFlow与PyTorch在Python面试中的对比与应用

相关课程

更多

深度学习框架TensorFlow入门

云计算工程师解析与实战-网络专家篇（体验版）

深入解析Docker容器化技术

Java面试疑难点解析 - 面试技巧及语言基础

Java面试疑难点解析 - Java Web开发

Java面试疑难点解析 - 系统架构及项目设计

相关电子书

更多

使用TensorFlow搭建智能开发系统自动生成App UI

从零到一：IOS平台TensorFlow入门及应用详解

从零到一：IOS平台TensorFlow入门及应用详解（附源

相关实验场景

更多

通过云拨测对指定服务器进行Ping/DNS监测

推荐镜像

更多

DNS

NTP

termux

下一篇

通义千问API入门教程