LLM-数据处理
如何构建数据集
- instruction-following model
- instruction dataset
数据格式
alpaca数据格式:json
数据来源
- 企业私有数据(文档)
- 公开数据(文档or文本)
- 开源数据集
工作内容
构造instruction dataset。
文档->文本->数据集
提取文本信息:ocr工具(测试过程中)
数据存储
甲方要求公开数据存百度网盘,私有数据存到私有云(云盒子)里。
信息抽取、文本总结、知识问答。
pdf提取文字python脚本方法比较
easyocr
All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.