如何构建数据集

  • instruction-following model
  • instruction dataset

数据格式

alpaca数据格式:json

数据来源

  • 企业私有数据(文档)
  • 公开数据(文档or文本)
  • 开源数据集

工作内容

构造instruction dataset。

文档->文本->数据集

提取文本信息:ocr工具(测试过程中)

数据存储

甲方要求公开数据存百度网盘,私有数据存到私有云(云盒子)里。

信息抽取、文本总结、知识问答。

pdf提取文字python脚本方法比较

easyocr

  • 纯文本:有错别字
  • 带表格:保留表格中的文本;相对位置可能改变
  • 带图片:会把图片中的文字也识别进去
  • 速度:很慢

    pytesseract

  • 纯文本:有错别字
  • 带表格:保留表格中的文本;相对位置可能改变
  • 带图片:忽略图片,只保留标题
  • 速度:很慢

    pdfminer

  • 纯文本:大标题缺失;对标点符号的识别比较准确
  • 带表格:保留表格中的文本;中英文对照表效果好(原表格文本的相对位置不变,同一行会换行)
  • 带图片:忽略图片,只保留标题
  • 速度:很快
  • pyPDF

  • 纯文本:大标题缺失
  • 带表格:保留表格中的文本;中英文对照表效果最佳(原表格文本的相对位置不变,同一行保持在同一行)
  • 带图片:忽略图片,只保留标题
  • 速度:很快