如果我的表格中的数据都是专业性比较强的术语,或者是一些参数的缩写也可以正常识别吗?
表格数据是专业性较强的属于或者缩写也是可以支持的,但是可能效果并不是特别好,如果想提升效果,可以通过配置近义词的方式,增强模型的能力。
主要通过在初始化Database类的时候,导入近义词词典syn_dict_file_path,这个词典用户可以自行配置。具体如下:
db = Database(
tokenizer=tokenizer,
table_file_path=os.path.join(model.model_dir, 'table.json'),
syn_dict_file_path=os.path.join(model.model_dir, 'synonym.txt'),
is_use_sqlite=True)
近义词词典文件可以在模型文件中对应的synontm.txt找到,示例如下图: 比如,你的表格中有个列叫“GDP”,但是你的问题可能是“中国2021年国民生产总值是多少?”模型如果没有识别出来,通过配置近义词“GDP | 国民生产总值”的方式,可以让模型能够正确识别。
赞0
踩0