文档解析(大模型版)之初体验

简介: 该文档介绍如何使用阿里云文档智能解析服务,包括样式效果、在线文档和Python SDK调用方法。提供了处理本地及在线文件的具体示例代码,并指导如何安装依赖包、配置身份认证以及设置超时参数等关键步骤。

1.文档参考地址
https://docmind.console.aliyun.com/file/largeModelVersion
2.文档智能解析
2.1样式效果如下
image.png
2.2jdk在线文档
https://help.aliyun.com/zh/document-mind/developer-reference/docstructure?spm=a2c4g.11186623.0.0.4d5810faBqxTpF
2.3使用python语言调用sdk
2.3.1下载相关依赖包
pip install alibabacloud_tea_openapi
pip install alibabacloud_docmind_api20220711==1.4.1
2.3.2配置身份认证
https://help.aliyun.com/zh/sdk/developer-reference/v2-manage-python-access-credentials?spm=a2c4g.11186623.0.i8
2.3.3如处理文件太大,导致耗时太久,需要以下配置

建立连接超时时间

config.connect_timeout = 60000;

读取资源超时时间

config.read_timeout = 60000;
2.3.4处理本地文件
```# -- coding: utf-8 --
import sys
from typing import List
from alibabacloud_docmind_api20220711.client import Client as docmind_api20220711Client
from alibabacloud_tea_openapi import models as open_api_models
from alibabacloud_docmind_api20220711 import models as docmind_api20220711_models
from alibabacloud_tea_util.client import Client as UtilClient
from alibabacloud_tea_util import models as util_models
from alibabacloud_credentials.client import Client as CredClient

def create_client() -> docmind_api20220711Client:
"""
@return: Client
@throws Exception
"""

# 调用接口时,程序直接访问凭证,读取您的访问密钥(即AccessKey)并自动完成鉴权。
# 运行本示例前,请先完成步骤二:配置身份认证。
# 本示例使用默认配置文件方式,通过配置Credentials文件创建默认的访问凭证。
# 使用默认凭证初始化Credentials Client。
cred=CredClient()
config = open_api_models.Config(
    # 通过Credentials获取配置中的AccessKey ID
    access_key_id=cred.get_access_key_id(),
    # 通过Credentials获取配置中的AccessKey Secret
    access_key_secret=cred.get_access_key_secret()
)
# 访问的域名
config.endpoint = f'docmind-api.cn-hangzhou.aliyuncs.com'
return docmind_api20220711Client(config)

def main() -> None:
client = create_client()
request = docmind_api20220711_models.SubmitDocStructureJobAdvanceRequest(

    # file_url_object : 本地文件流
    file_url_object=open("./example.pdf", "rb"),
    # file_name :文件名称。名称必须包含文件类型
    file_name='123.pdf',
    # file_name_extension : 文件后缀格式。与文件名二选一
    file_name_extension='pdf'
)
runtime = util_models.RuntimeOptions()
try:
    # 复制代码运行请自行打印 API 的返回值
    response = client.submit_doc_structure_job_advance(request, runtime)
    # API返回值格式层级为 body -> data -> 具体属性。可根据业务需要打印相应的结果。如下示例为打印返回的业务id格式
    # 获取属性值均以小写开头,
    print(response.body.data.id)       
except Exception as error:
    # 如有需要,请打印 error
    UtilClient.assert_as_string(error.message)

2.3.5处理在线文件

```# -*- coding: utf-8 -*-
import sys
from typing import List
from alibabacloud_docmind_api20220711.client import Client as docmind_api20220711Client
from alibabacloud_tea_openapi import models as open_api_models
from alibabacloud_docmind_api20220711 import models as docmind_api20220711_models
from alibabacloud_tea_util.client import Client as UtilClient
from alibabacloud_credentials.client import Client as CredClient

def create_client() -> docmind_api20220711Client:
    """   
    @return: Client
    @throws Exception
    """
    # 调用接口时,程序直接访问凭证,读取您的访问密钥(即AccessKey)并自动完成鉴权。
    # 运行本示例前,请先完成步骤二:配置身份认证。
    # 本示例使用默认配置文件方式,通过配置Credentials文件创建默认的访问凭证。
    # 使用默认凭证初始化Credentials Client。
    cred=CredClient()
    config = open_api_models.Config(
        # 通过Credentials获取配置中的AccessKey ID
        access_key_id=cred.get_access_key_id(),
        # 通过Credentials获取配置中的AccessKey Secret
        access_key_secret=cred.get_access_key_secret()
    )
    # 访问的域名
    config.endpoint = f'docmind-api.cn-hangzhou.aliyuncs.com'
    return docmind_api20220711Client(config)


def main() -> None:
    client = create_client()
    request = docmind_api20220711_models.SubmitDocStructureJobRequest(
         # file_url : 文件url地址
        file_url='https://example.com/example.pdf',
         # file_name :文件名称。名称必须包含文件类型
        file_name='123.pdf',
        # file_name_extension : 文件后缀格式。与文件名二选一
        file_name_extension='pdf'
    )
    try:
        # 复制代码运行请自行打印 API 的返回值
        response = client.submit_doc_structure_job(request)
        # API返回值格式层级为 body -> data -> 具体属性。可根据业务需要打印相应的结果。如下示例为打印返回的业务id格式
        # 获取属性值均以小写开头,
        print(response.body.data.id)        
    except Exception as error:
        # 如有需要,请打印 error
        UtilClient.assert_as_string(error.message)
相关文章
|
1月前
|
存储 算法 API
文档解析(大模型版)能力对比测评
文档解析(大模型版)能力对比测评
146 41
|
5天前
|
存储 算法 UED
深度解析RAG优化之道:从检索到生成全面升级大模型应用性能,探索提升企业服务质量与用户体验的终极秘密
【10月更文挑战第3天】随着大模型技术的进步,人们愈发关注如何针对特定任务优化模型表现,尤其是在需要深厚背景知识的领域。RAG(Retrieval-Augmented Generation)技术因其能检索相关文档以辅助生成内容而备受青睐。本文将通过问答形式深入探讨RAG优化的关键点,并提供具体实现思路及示例代码。
12 2
|
1月前
|
机器学习/深度学习 Java API
阿里云文档智能解析——大模型版能力最佳实践与体验评测
阿里云文档智能解析(大模型版)在处理非结构化数据方面表现优异,尤其是在性能和可扩展性上具有明显优势。虽然存在一些待完善之处,但其强大的基础能力和广泛的适用场景使其成为企业数字转型过程中的有力助手。随着技术的不断进步和完善,相信它会在更多领域展现出更大的价值。
101 5
阿里云文档智能解析——大模型版能力最佳实践与体验评测
|
25天前
|
文字识别 算法 API
阿里云文档解析(大模型版)优化
阿里云文档解析(大模型版
|
1月前
|
JSON 达摩院 Java
大模型时代下的文档智能 | 文档解析(大模型版)
文档智能(Document Mind)是基于阿里巴巴达摩院技术打造的多模态文档识别与理解引擎,提供通用文档智能、行业文档智能和文档自学习能力,满足各类智能文档处理需求。尤其在企业中,它能有效处理文本、图片、扫描件等多种非结构化文档,释放数据价值。本文将介绍文档智能的应用场景、产品架构及其核心功能——文档解析(大模型版),并展示其在线体验与API接口调用方法。
|
29天前
|
自然语言处理 数据可视化 BI
文档解析(大模型版)服务体验评测
体验文档解析(大模型版)服务时,清晰的入门指南、操作手册和FAQ至关重要。若存在不足,需增加直观的操作流程说明(如动画演示)、深化高级功能文档,并提供实时在线支持,帮助用户快速解决问题。
|
1月前
|
弹性计算 自然语言处理 数据可视化
|
6天前
|
机器学习/深度学习 人工智能
【AI大模型】深入Transformer架构:编码器部分的实现与解析(下)
【AI大模型】深入Transformer架构:编码器部分的实现与解析(下)
|
1月前
|
文字识别 算法 API
文档解析(大模型版)能力测评
文档解析(大模型版)能力测评
75 8
|
1月前
|
人工智能 自然语言处理 监控
文档解析(大模型版)能力最佳实践测评
文档解析(大模型版)能力最佳实践测评
46 7

热门文章

最新文章

推荐镜像

更多