C#实现Excel合并单元格数据导入数据集

简介: C#实现Excel合并单元格数据导入数据集

功能需求

Excel里的worksheet表格导入到DataSet里,是项目应用里常用的一种操作。一般情况下,worksheet是一个标准的二维数组,如下图:

我们可以效仿 MS SQL SERVER 的一些基本导入选项,如首行是否包含数据,要导入哪个Sheet?还是遍历Sheets?

实际的情况,客户经常会提供一些合并单元格的Excel表格,如下图中的“所在部门名称”列:

再畅想一下,假设有跨列的情况如下:

解决导入,一种方法,是让客户进行单元格拆分或技术服务人员进行拆分后再导入。另一种就是我们要继续完善应用,处理实现合并单元格的自动化处理。

Excel与DataSet的映射关系

下图是 Excel 与 DataSet 的映射关系图:

1、Excel应用的Workbook对象与 DataSet 同为容器对象

2、Worksheets和Tables均代表各自的表集合

3、Worksheet与Table进行对应,产生和导入实际的数据

范例运行环境

操作系统: Windows Server 2019 DataCenter

操作系统上安装 Office Excel 2016

.net版本: .netFramework4.7.1 或以上

开发工具:VS2019  C#

Excel DCOM 配置

请参考我的文章《C# 读取Word表格到DataSet》有对Office DCOM详细配置介绍,这里不再赘述,Excel的对应配置名称如下图所示:

 

设计实现

组件库引入

方法设计

设计  object[] ExcelAsDataSet(string _filename,bool hastitle,string startaddress,string endaddress) 方法

返回值

方法返回object数组,共包括两个object对象,如果成功转化则 object[0] 存储 DataSet对象,否则为 null。如果不成功则 object[1] 存储string 错误信息对象,可根据object[1].ToString()!="" 来判断是否转化成功。

参数设计
  1. string _filename:Excel 数据源文件路径
  2. bool hastitle: 是否包含标题,如果设置为true,则表示首行数据为列名称定义
  3. string startaddress:可指定有效的起始单元格地址,不设置则默认为“A1”(即第一个单元格)
  4. string endaddress:可指定有效的截止单元格地址,不设置则默认为最后一个有值单元格(即XlCellType.xlCellTypeLastCell 枚举)

   通过3、4参数的定义,可以定义出有效的导入矩形区域。

打开数据源并计算Sheets

      object[] rv=new object[2];
      rv[0]=null;
      rv[1]="";
 
      //创建一个名为ExcelApp的组件对象
//      ExcelApplication excel = new ExcelApplication();
            Excel.Application excel = new Excel.Application();
      excel.DisplayAlerts=false;
      excel.AskToUpdateLinks=false;
      Excel.Workbook xb=excel.Workbooks.Add(_filename);
//获取活动的 worksheet和 excel sheet的个数,准备遍历sheets
      Worksheet worksheet = (Worksheet) excel.ActiveSheet;
      sheetCount=excel.Sheets.Count;  
      int startSheetIndex=1;
      int endSheetIndex=sheetCount;
      DataSet ds=new DataSet();
//遍历sheets
            for (int currentIndex = startSheetIndex; currentIndex <= endSheetIndex; currentIndex++)
            {
                worksheet = (Worksheet)excel.Worksheets[currentIndex];
                worksheet.Activate();
                
                //处理每一个sheet.....
 
            }

拆分合并的单元格

在获取有效的单元格区域后,就开始遍历单元格对象,判断单元格对象 MergeCells 属性即可,判断 Cell.MergeCells.ToString() == "True"  即表示该单元格为合并单元格对象。

示例代码如下:

//获取起始单元和截止单元格,以确定有效区域
 
                Excel.Range _startcell=worksheet.Range["A1","A1"]; //默认为第一个单元格
        if(startaddress!="")
        {
          try
          {
            _startcell=worksheet.Range[startaddress,startaddress];
          }
          catch(Exception ex)
          {
            rv[1]+=string.Format("{1}指定的起始单元格地址{0},不是合法的地址。\r\n",startaddress,worksheet.Name);
            //          KillProcessByStartTime("EXCEL",beforetime,aftertime);
            continue;
          }
        }
 
        Excel.Range _lastcell=worksheet.Cells.SpecialCells(XlCellType.xlCellTypeLastCell,Type.Missing);
//默认获取有值的最后一个有效的单元格
        if(endaddress!="")
        {
          try
          {
            _lastcell=worksheet.Range[endaddress,endaddress];
          }
          catch(Exception ex)
          {
            rv[1]+=string.Format("{1}指定的结束单元格地址{0},不是合法的地址。\r\n",endaddress,worksheet.Name);
            //          KillProcessByStartTime("EXCEL",beforetime,aftertime);
            //            return rv;
            continue;
          }
        }
 
 
//遍历有效区域单元格
 
                    foreach (Excel.Range aicell in worksheet.Range[_startcell,_lastcell])
                    {
                        if (aicell.MergeCells.ToString() == "True")
                        {
                            //处理合并单元格
                            object temp_merge_value = aicell.Value2; //备份单元格的值
                            int u_row = aicell.Row;  //记录单元格的首行索引
                            int u_rows = aicell.MergeArea.Rows.Count; //记录单元格的合并区域包含的行数
                            int u_col = aicell.Column; //记录单元格的首列索引
                            int u_cols = aicell.MergeArea.Columns.Count; //记录单元格的合并区域包含的列数
                            aicell.MergeArea.UnMerge();  //取消合并,拆分单元格
                            Excel.Range new_aicell = worksheet.Range[worksheet.Cells[u_row, u_col], worksheet.Cells[u_row + u_rows - 1, u_col + u_cols - 1]];  //获取拆分后单元格后的有效区域
                            new_aicell.Value2 = temp_merge_value; //将拆分的单元格重新赋值(备份值)
                        }
                    }

创建DataTable

如果首行是列数据,则以该行的值创建表结构,否则自动创建以“C”为前缀的列名,如C1、C2...Cn以此类推。

        System.Data.DataTable dt=ds.Tables.Add();
        dt.TableName=worksheet.Name;  //表名为worksheet的名称
        for(int i=_startcell.Column;i<=_lastcell.Column;i++)
        {
          Excel.Range _cell=worksheet.Range[worksheet.Cells[_startcell.Row,i],worksheet.Cells[_startcell.Row,i]];
                string _colname=hastitle==true?_cell.Value2.ToString():"C"+(i-_startcell.Column+1).ToString(); //如果第一行是标题,则赋单元格的值,否则以C开头加序号
            DataColumn dc=dt.Columns.Add();
            dc.ColumnName=_colname;
            dc.DataType=System.Type.GetType("System.String");
            dc.AllowDBNull=true;
        }
        

将单元格数据写入DataTable

object[,] cells=null;  定义二维对象数组
    if(hastitle) //如果首行包含列,则加行索引加1取数据行
  {
    startrow=_startcell.Row+1;  
    }
//将有效区域单元格转化赋值为 object[,] 
cells=(object[,])worksheet.Range[worksheet.Cells[startrow,_startcell.Column],worksheet.Cells[_lastcell.Row,_lastcell.Column]].Value2;
 
//遍历数组,添加行数据到 DataTable里
int _rowcount=cells.GetLength(0);
int _colcount=cells.GetLength(1);
for(int i=0;i<_rowcount;i++)
{
  object[] newrowdata=new object[_colcount];
  for(int j=0;j<_colcount;j++)
  {
    newrowdata[j]=cells[i,j];
  }
  DataRow dr=dt.Rows.Add(newrowdata);
}

总结

在实际的应用中,还可以设定多种参数选项:

1、如导入单元格的数据,是格式化后的数据(ExcelReport.ImportDataType.FormattingValue),还是原始数据(ExcelReport.ImportDataType.OriginalValue),这也是Cell.Value和Cell.Value2的区别

2、创建表列名字段过度依赖于单元格的值,可能会创建失败,建议定义参数指定是否重写列名

3、是否只导入指定的sheet或活动的sheet。

这些选项都可以根据实际的业务进行扩展,我们在此仅讲述了一些操作Excel相关的关键方法和属性,这里仅作参考,欢迎大家评论指教!

相关文章
|
28天前
|
数据采集 存储 JavaScript
自动化数据处理:使用Selenium与Excel打造的数据爬取管道
本文介绍了一种使用Selenium和Excel结合代理IP技术从WIPO品牌数据库(branddb.wipo.int)自动化爬取专利信息的方法。通过Selenium模拟用户操作,处理JavaScript动态加载页面,利用代理IP避免IP封禁,确保数据爬取稳定性和隐私性。爬取的数据将存储在Excel中,便于后续分析。此外,文章还详细介绍了Selenium的基本设置、代理IP配置及使用技巧,并探讨了未来可能采用的更多防反爬策略,以提升爬虫效率和稳定性。
|
3月前
|
关系型数据库 MySQL Shell
不通过navicat工具怎么把查询数据导出到excel表中
不通过navicat工具怎么把查询数据导出到excel表中
41 0
|
25天前
|
数据处理 Python
Python实用记录(十):获取excel数据并通过列表的形式保存为txt文档、xlsx文档、csv文档
这篇文章介绍了如何使用Python读取Excel文件中的数据,处理后将其保存为txt、xlsx和csv格式的文件。
44 3
Python实用记录(十):获取excel数据并通过列表的形式保存为txt文档、xlsx文档、csv文档
|
2月前
|
SQL C# 数据库
EPPlus库的安装和使用 C# 中 Excel的导入和导出
本文介绍了如何使用EPPlus库在C#中实现Excel的导入和导出功能。首先,通过NuGet包管理器安装EPPlus库,然后提供了将DataGridView数据导出到Excel的步骤和代码示例,包括将DataGridView转换为DataTable和使用EPPlus将DataTable导出为Excel文件。接着,介绍了如何将Excel数据导入到数据库中,包括读取Excel文件、解析数据、执行SQL插入操作。
EPPlus库的安装和使用 C# 中 Excel的导入和导出
|
28天前
|
easyexcel Java UED
SpringBoot中大量数据导出方案:使用EasyExcel并行导出多个excel文件并压缩zip后下载
在SpringBoot环境中,为了优化大量数据的Excel导出体验,可采用异步方式处理。具体做法是将数据拆分后利用`CompletableFuture`与`ThreadPoolTaskExecutor`并行导出,并使用EasyExcel生成多个Excel文件,最终将其压缩成ZIP文件供下载。此方案提升了导出效率,改善了用户体验。代码示例展示了如何实现这一过程,包括多线程处理、模板导出及资源清理等关键步骤。
|
2天前
|
Java easyexcel 大数据
震撼!通过双重异步,Excel 10万行数据导入从191秒优化到2秒!
通过合理设计线程池和利用异步编程模型,本文展示了如何将 Excel 10万行数据的导入时间从191秒优化到2秒。文章详细介绍了使用 Spring Boot 的 `@Async` 注解、自定义线程池和 EasyExcel 进行大数据量的 Excel 解析和异步写入数据库的方法。通过分而治之的策略,减少了系统的响应时间,提高了并发处理能力。同时,还分析了如何根据 CPU 和 IO 密集型任务的特性,合理设置线程池的参数,以充分发挥硬件资源的性能。
|
2月前
|
数据采集 存储 数据挖掘
使用Python读取Excel数据
本文介绍了如何使用Python的`pandas`库读取和操作Excel文件。首先,需要安装`pandas`和`openpyxl`库。接着,通过`read_excel`函数读取Excel数据,并展示了读取特定工作表、查看数据以及计算平均值等操作。此外,还介绍了选择特定列、筛选数据和数据清洗等常用操作。`pandas`是一个强大且易用的工具,适用于日常数据处理工作。
|
3月前
|
SQL JSON 关系型数据库
n种方式教你用python读写excel等数据文件
n种方式教你用python读写excel等数据文件
|
3月前
|
存储 Java Apache
|
3月前
|
数据可视化 Python
我是如何把python获取到的数据写入Excel的?
我是如何把python获取到的数据写入Excel的?
45 2