发票PDF在线合并小工具

简介: 在公司报销的时候虽然已经有了电子发票,但是贴票还是需要将发票打印出来贴上,如果只有一两张也就算了,如果几十张.. 呵呵,光胶水我都不够用的,找了好多工具、在线版本都不合心意,烦死,自己做个自己喜欢的吧。

在公司报销的时候虽然已经有了电子发票,但是贴票还是需要将发票打印出来贴上,如果只有一两张也就算了,如果几十张.. 呵呵,光胶水我都不够用的,找了好多工具、在线版本都不合心意,烦死,自己做个自己喜欢的吧。
二次更新 : 发票PDF在线合并来啦
查了下lib库,看了下API 开干。

准备

  • nodejs 环境
  • pdf-lib module
  • N张发票PDF文件

文档准备

本来想着,将pdf读成图片然后缩放在一个PDF中,结果发现pdf-lib直接就可以将pdf进行缩放,到时省事了。

pdf-lib github地址: https://github.com/Hopding/pdf-lib

代码

这里用到的API很少,主要有以下几个:

embedPdf  :  嵌入PDF文档 
scale           :  将PDF进行缩放    
addPage    :  添加一个新的pdf页面
drawPage  : 将PDF写入新pdf页面

完整代码:

/**
 * 年底,将12个月份的发票合并在一个pdf中。
 * ps.在线的各种不中意,线下的各种收费加水印。
 * npm i pdf-lib
 */
const pdfLib = require('pdf-lib')
const PDFDocument = pdfLib.PDFDocument
// import { PDFDocument } from 'pdf-lib'
const fs = require('fs')
const path = require('path')
//这里需要修改为自己的路径
const folderPath = `I:\\huafei\\huafei\\2020pdf`
  ; (async function () {
    // Create a new PDFDocument
    const pdfDoc = await PDFDocument.create()
    // Add a blank page to the document
    let page = pdfDoc.addPage()

    let lineNum = 1 //每行几张发票

    let fileList = fs.readdirSync(folderPath)
    let i = 0
    fileList.sort((a, b) => {
      let aa = path.basename(a)
      let bb = path.basename(b)
      return aa - bb
    })
    for (let file of fileList) {
      let filePath = path.join(folderPath, file)
      let fileStream = fs.readFileSync(filePath)
      const [americanFlag] = await pdfDoc.embedPdf(fileStream)
      const dims = americanFlag.scale(1 / lineNum)
      // Draw the JPG image in the center of the page
      let opts = {
        ...dims,
        x: (i % lineNum) * (dims.width - 20) - 5,
        y:
          page.getHeight() -
          Math.floor(i / lineNum) * (dims.height + 5) -
          dims.height,
      }
      //如果当前高度不足,则创建新页面
      console.log(opts)
      if (opts.y < 0) {
        //换页面
        page = pdfDoc.addPage()
        i = 0
        opts = {
          ...dims,
          x: (i % lineNum) * (dims.width - 20) - 5,
          y:
            page.getHeight() -
            Math.floor(i / lineNum) * (dims.height + 5) -
            dims.height,
        }
      }
      page.drawPage(americanFlag, opts)
      i++
    }
    // Serialize the PDFDocument to bytes (a Uint8Array)
    const pdfBytes = await pdfDoc.save()
    fs.writeFileSync(path.join(folderPath, 'total.pdf'), pdfBytes)
  })()

以上,核心代码在github都有,直接拿过来稍微改动即可。
接下来,准备将这个小工具做成web服务,扔到我的小工具中...

相关文章
|
10天前
|
机器学习/深度学习 人工智能 文字识别
Zerox:AI驱动的万能OCR工具,精准识别复杂布局并输出Markdown格式,支持PDF、DOCX、图片等多种文件格式
Zerox 是一款开源的本地化高精度OCR工具,基于GPT-4o-mini模型,支持PDF、DOCX、图片等多种格式文件,能够零样本识别复杂布局文档,输出Markdown格式结果。
61 4
Zerox:AI驱动的万能OCR工具,精准识别复杂布局并输出Markdown格式,支持PDF、DOCX、图片等多种文件格式
|
30天前
|
人工智能 文字识别 自然语言处理
Vision Parse:开源的 PDF 转 Markdown 工具,结合视觉语言模型和 OCR,识别文本和表格并保持原格式
Vision Parse 是一款开源的 PDF 转 Markdown 工具,基于视觉语言模型,能够智能识别和提取 PDF 中的文本和表格,并保持原有格式和结构。
115 19
Vision Parse:开源的 PDF 转 Markdown 工具,结合视觉语言模型和 OCR,识别文本和表格并保持原格式
|
2月前
|
人工智能 文字识别 数据挖掘
MarkItDown:微软开源的多格式转Markdown工具,支持将PDF、Word、图像和音频等文件转换为Markdown格式
MarkItDown 是微软开源的多功能文档转换工具,支持将 PDF、PPT、Word、Excel、图像、音频等多种格式的文件转换为 Markdown 格式,具备 OCR 文字识别、语音转文字和元数据提取等功能。
252 9
MarkItDown:微软开源的多格式转Markdown工具,支持将PDF、Word、图像和音频等文件转换为Markdown格式
|
2月前
|
XML C# 数据格式
一个.NET开源、免费、功能强大的 PDF 处理工具
一个.NET开源、免费、功能强大的 PDF 处理工具
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
Documind:开源 AI 文档处理工具,将 PDF 转换为图像提取结构化数据
Documind 是一款利用 AI 技术从 PDF 中提取结构化数据的先进文档处理工具,支持灵活的本地或云端部署。
130 8
Documind:开源 AI 文档处理工具,将 PDF 转换为图像提取结构化数据
|
4月前
|
Java BI API
spring boot 整合 itextpdf 导出 PDF,写入大文本,写入HTML代码,分析当下导出PDF的几个工具
这篇文章介绍了如何在Spring Boot项目中整合iTextPDF库来导出PDF文件,包括写入大文本和HTML代码,并分析了几种常用的Java PDF导出工具。
842 0
spring boot 整合 itextpdf 导出 PDF,写入大文本,写入HTML代码,分析当下导出PDF的几个工具
|
7月前
|
API Docker 容器
超实用工具分享!Gotenberg,让你的文档转换PDF无缝对接
超实用工具分享!Gotenberg,让你的文档转换PDF无缝对接
125 4
|
6月前
|
Python
还不会免费将PDF转为Word?你可以试试这3种工具!
还不会免费将PDF转为Word?你可以试试这3种工具!
141 0
|
7月前
|
JSON 测试技术 数据安全/隐私保护
【Docker项目实战篇】Docker部署PDF多功能工具Stirling-PDF
【7月更文挑战第7天】Docker部署PDF多功能工具Stirling-PDF
464 2
|
7月前
|
Unix Linux Shell
Sphinx是一个Python文档生成工具,它可以解析reStructuredText或Markdown格式的源代码注释,并生成多种输出格式,如HTML、LaTeX、PDF、ePub等。
Sphinx是一个Python文档生成工具,它可以解析reStructuredText或Markdown格式的源代码注释,并生成多种输出格式,如HTML、LaTeX、PDF、ePub等。