LLM-数据处理
如何构建数据集
instruction-following model
instruction dataset
数据格式alpaca数据格式:json
数据来源
企业私有数据(文档)
公开数据(文档or文本)
开源数据集
工作内容构造instruction dataset。
文档->文本->数据集
提取文本信息:ocr工具(测试过程中)
数据存储甲方要求公开数据存百度网盘,私有数据存到私有云(云盒子)里。
信息抽取、文本总结、知识问答。
pdf提取文字python脚本方法比较easyocr
纯文本:有错别字
带表格:保留表格中的文本;相对位置可能改变
带图片:会把图片中的文字也识别进去
速度:很慢pytesseract
纯文本:有错别字
带表格:保留表格中的文本;相对位置可能改变
带图片:忽略图片,只保留标题
速度:很慢pdfminer
纯文本:大标题缺失;对标点符号的识别比较准确
带表格:保留表格中的文本;中英文对照表效果好(原表格文本的相对位置不变,同一行会换行)
带图片:忽略图片,只保留标题
速度:很快
pyPDF
纯文本:大标题缺失
带表格:保留表格中的文本;中 ...
IBM2024年活动规划(群公告)
【IBM主机创新俱乐部2024年活动规划】一、活动
全员大会时间:清明假期后的第二个周末(暂定为4.20/21)地点:图书馆7楼会议室(待定)内容:介绍IBM俱乐部的活动规划,学长学姐分享各种经验and学习资源备注:有需求的同学可以顺便提提,我们会尽量满足大家的需求~
讲座活动时间:未定地点:未定内容:侧重技术分享,面向全校备注:
俱乐部内部先了解、调研热门科技前沿技术,【内部调查票选意愿】的结果交给许可老师,由老师去对接和邀请专业经验对口的IBM的老师来作为分享人。例如金融科技,或者是其他热门的技术分享。
会有讲座票噢~~
二、项目or学习项目or比赛
关于ibm实验室的课题,各类项目,srp,大创双创百步梯等,有兴趣的同学可以关注以下时间点:
每年12月srp开始课题申报,3月初开始学生报名,次年四月份左右结题(创新分一共4分)。
学校的大创(大学生创新创业训练计划项目),学生提出申请(3月29日前)。
学院双创项目申报,大概是在3月份
百步梯攀登计划 大概11月发通知
有idea想申报项目,需要找指导老师或者idea交流的同学,可以找许可老师~
许可老师有一门大三的 ...
【IBM】2024年策划草案
往届资料搜集:2017~2018俱乐部的活动主要是分享讨论会(大三学长负责,全体均可参与),IBM 讲座(IBM 工程师,全体均可参与),项目+比赛(俱乐部指导老师提供大二及以上同学参与)。TownHall (请院长或者指导老师过来做聚会),晚安小天使(大一参加)。完全是为了提升大家的素质和学习能力考虑得。
2018~2019
积极宣传 IBM 的比赛
讲座:从 11 月中旬开始即在图书馆 IBM 主机教育中心开展技术讲座。如举办 IBM 蓝色加油站讲座等。通过开展这类讲座,俱乐部让更多的同学了解和学习到 IBM 的前沿知识和技术。
俱乐部
晚安小天使活动:每逢上学期举办。大一初次加入俱乐部的同学,轮流以晚安小短文的形式,在俱乐部部员群内交流自己的学习经历和成长历程。该活动面向技术稍薄弱的大一同学,有助于培养学生技术兴趣,巩固自己在课堂课后学到的知识。
俱乐部沙龙:大三的师兄通过技术沙龙的方式向大一大二同学分享自己的掌握的技术要领和学习心得等等。通过该项活动,俱乐部通过这种方式培养俱乐部成员对于技术的热爱,鼓励同学们在编程的道路中积极寻找问题、发现问题、解决问题,从而拥 ...
DragonOS招新面试小任务
DragonOSrust入门与开发环境推荐rust入门的教程仓库 https://github.com/rust-lang/rustlings
开发环境推荐用 vscode + rust-analyzer 插件+ CodeLLDB 插件
rustlingsquiz2The difference between the two snippets lies in how they iterate over input.
In the first snippet, input.iter() is used. This method returns an iterator that borrows each element from input. This means that the string and command variables in the loop are references to the elements in input. This is why you see *n in the Command::Append(n) match arm - it’s derefere ...
实现sysfs中的uevent
需求
在sysfs中实现uevent的逻辑,并在设备驱动模型中,发送通用的uevent.
然后用户测试程序能够通过epoll感知到这些uevent,并输出。前置知识https://www.cnblogs.com/schips/p/linux_device_model.html
Linux内核中设备管理和事件通知机制。
sysfs要分析sysfs,首先就要分析kobject和kset,因为驱动设备的层次结构的构成就是由这两个东东来完成的。sysfs与kobject密不可分。
kobjectkobject是组成设备模型的基本结构,是所有用来描述设备模型的数据结构的基类。
kobject是一个对象的抽象,它用于管理对象。
ksetktype设备驱动模型(Linux Device Driver Model,LDDM)
ueventUevent只是通过netlink套接字发送的一些特殊格式的字符串。
uevent是kobject的一部分,用于在kobject状态发生改变时,例如增加、移除等,通知用户空间程序。用户空间程序收到这样的事件后,会做相应的处理。
uevent( user space ...
DragonOS移植nslookup
啥是nslookup?Linux中的nslookup在Linux中,nslookup是一个用于查询DNS的命令行工具。它可以用来查询域名的IP地址,也可以用来查询IP地址对应的域名。nslookup命令的使用方法如下:12nslookup [选项] [主机名] [DNS服务器]nslookup [option] [hostname] [server]其中,主机名是要查询的域名,DNS服务器是要查询的域名服务器的IP地址。如果不指定DNS服务器,nslookup会使用系统默认的DNS服务器。
Nslookup Command Prompt Options in LinuxThere are a variety of command prompt options for nslookup on Linux. Many of these options allow you to look up specific record types. These include:-type=mx: Used to look up mail exchange records.-type=hinfo: Pr ...
【CMU】深入理解计算机系统
本博客为CMU的15-213/15-513 Introduction to Computer Systems (ICS)的笔记,我按照自己的理解排布了结构,进行了翻译并加上了自己的理解作为补充。致谢为这门课付出并公开的所有人。配套教材:CSAPP(深入理解计算机系统)
前置介绍CSAPP也就是《Computer system:in a programer’s perspective》,CMU的镇校神书,是一本非常经典的计算机系统导论教材,也是CMU的本科生计算机系统导论课程的教材。这门课程的目的是让学生了解计算机系统的工作原理,以及如何使用编程语言和系统工具来控制计算机系统。
资源分享
【课程资源】https://www.cs.cmu.edu/~213/schedule.html
【CMU图书馆影印版教材】https://cmu.primo.exlibrisgroup.com/discovery/delivery/01CMU_INST:01CMU/12295179970004436
【B站一个老哥分享的PDF课本,提取码】https://pan.baidu.com/s/1crJC8X- ...
【CSAPP】lab_in_CSAPP
本博客为CMU的15-213/15-513 Introduction to Computer Systems (ICS)的配套教材CSAPP(深入理解计算机系统)的lab笔记
开始前的准备下载self-study-handout在http://csapp.cs.cmu.edu/3e/labs.html,作为非参与课程的自学学生,每个lab都可以下载self-study-handout的tar压缩包,里面包含了所有该lab需要的资源。
在Linux中解压handout文件由于该课程和lab所需环境是Linux,我们需要把下载的tar压缩包解压到Linux中。以解压第一个lab——datalab为例,在命令行中执行以下命令,将tar压缩包解压到当前目录下:1$ tar -xvf datalab-handout.tar解压后,会在当前目录下生成一个datalab-handout的文件夹,里面包含了我们所需要的所有东西。
关于CentOs换源问题背景刚好这天tz过期了,暂时懒得续费,可是直接安装又太慢了,所以想能不能换个源。结果不知道是不是误操作了,原本的repo被我删了。导致我续费了tz之后 ...
【UCB】CS61B数据结构笔记
CS61B-sp21的课程网站:https://sp21.datastructur.es/
Static vs. Non-Static Methods在Java中,static方法(也成为class method)和non-static方法(也称为instance方法)之间有几个关键区别:
调用方式:
Static方法:可以通过类名直接调用,不需要创建类的实例。例如:ClassName.staticMethod()。
Non-Static方法:需要通过创建类的实例(对象)来调用。例如:ObjectReference.nonStaticMethod()。
内存分配:
Static方法:在类加载时分配内存,并与类的类对象关联,不依赖于类的实例。这意味着只有一份静态方法的内存副本,无论创建多少类的实例。
Non-Static方法:每当创建一个类的实例时,都会为该实例分配一份非静态方法的内存副本。这意味着每个对象都有自己的非静态方法。
访问实例变量和方法:
Static方法:不能直接访问或引用非静态成员(实例变量和非静态方法),因为它们不依赖于特定的对象实例。
Non-Static ...
【UCB】lab and proj in CS61B-sp21
before coding and learn
Q1: 在本地clone的仓库代码为什么不能运行?
A1: 一种可能的原因是您的项目资源目录没有指定,导致项目可以启动成功,但是在访问时无法访问,并且无报错信息。解决办法是右键资源目录,选择mark Directory as -> Resource Root。
TIPS: 把一个文件夹设置为excluded的意思是指让IntelliJ IDEA忽略该文件夹下的所有文件,不对它们进行索引、检查、运行或调试。这样可以提高IntelliJ IDEA的性能,避免不必要的错误提示或警告。把一个文件夹设置为excluded的作用是指让IntelliJ IDEA只关注项目中真正需要的源代码,而不是一些无关的文件或目录。例如,一些虚拟环境、缓存、日志、测试数据等文件夹通常可以被设置为excluded,因为它们不是项目的一部分,也不需要被IntelliJ IDEA识别或执行。把一个文件夹设置为excluded的方法是指在IntelliJ IDEA中右键点击该文件夹,选择Mark Directory as -> Excluded。如果想要取消ex ...