Skip to content

JessyTsui/awesome_LLM_beginner

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 

Repository files navigation

awesome_LLM_beginner

送给LLM初学者的路径,看我心情和时间更新

LLM入门任务

1. 三体检索问答

相关数据:

三体1

三体2

三体3

实现可基于三体原文的检索问答,要求先检索相关的信息,然后把所有的信息综合起来给大模型做问答

参考问题:

汪淼是做什么的

三体组织一共建立了多少个红岸组织?

古筝计划的结果是什么

面壁计划是什么,都有哪些面壁者,他们的计划都是什么,结果如何

三体人到达地球后,对澳洲大陆做了什么事情

  • 可能有用的参考资料:

https://github.com/facebookresearch/faiss

https://github.com/bhaskatripathi/pdfGPT

https://zhuanlan.zhihu.com/p/664867771

https://github.com/1IsMaple/TriBodyQA-LLM maple实现的不错

简单的名词解释:

  • embedding是把文本、图像信息打成向量,向量化后就可以做向量的相似度计算,从而去分析不同原始信息的相似性。
  • 有很多embedding模型:openai embedding接口、智源的bge等。
  • Faiss是Facebook开源的一个通用的向量相似度计算框架
  • “应该先检索相关的信息,然后把所有的信息综合起来给大模型做问答”这种是典型的长文档问答问题,直觉来想会有两种解决方案:扩大大模型的上下文长度、外挂检索的知识库。

2. prompt优化和并发处理

实现以下任务:

根据用户的法律咨询问题,调用某家的api,输出相关的关键词、涉及的法律主体以及法律主体之间的关系,要求自动化按照json格式输出,要求提供一个可直接运行的文件,并可以实现多线程运行,最后保存到一个json文件里

样例输入:

"input": "婚前男方首付买房签订购房合同,婚后办理房产证写夫妻二人名字,假如离婚女方能分割的是全部房产的一半还是除去首付之外的一半",

样例输出:

{
    "output": {
        "法律关键词": "婚前财产、婚后财产、房产分割、购房合同、房产证",
        "法律主体": "在这个问题中,可能涉及的法律主体包括:1. 男方,婚前的房产权益;2. 夫妻双方,婚后共同名字登记的房产权益;3. 女方,离婚后的房产分割权益。",
        "主体之间的关系": "- 男方在婚前购房付款形成的权益,婚后与妻子共同登记的房产权益;- 夫妻双方在离婚后将面临对房产权益的分割问题。 根据我国婚姻法的相关规定,婚姻关系存续期间取得的共同财产,应当由夫妻双方协商一致分割。离婚后的房产分割主要涉及两个方面的权益:一是婚前男方首付购房形成的权益,二是婚后夫妻共同名字登记的房产权益。离婚后女方能否分得一半房产的权益,需要根据具体情况综合分析。"
    }
}

可测试的数据:

"想了解下公司发工资从来没有准时过,经常拖拖拉拉,这个月18号发工资求助一下?",
"我父母离婚了,我现在和我爸爸在一个户口本上,我以成年了,我现在要分户都需要什么手续?",
"我是一名学生,来北京打假期工,眼看马上开学,工资不给我发我该咋办?",
"我还是学生,我之前在网上做兼职,就遇到推广,然后我就试了,结果她们一起联合起来骗了我一千多我该怎么办?",
"我想我老公离婚,我们一起吵架他就打我 我跟他过不下去了 受不了家庭暴力",
"问下两个人8年没有在一起过性生活了。他几乎是性无能。结婚证都弄丢了如何起诉离婚?",
"两个人离婚后,现在女的户口还在男方家,女的需要把户口剥出来需要哪些证件",
"去年楼下店面换成了洗车维修店,在洗车和用气方面泵产生的音频影响我休息,我该如何处理?",
"尊敬的律师:你好!我去年买了一套个人房子,开发商在建房中、向个人集了资",
"你好,我买了武丰附近的私房,然后加了点钱兑的武丰还建房,请问这有保障吗",
"企业经过采矿权挂牌取得了采矿证但是国土资源局在没有解决土地承包权的情况下向企业颁发了采矿证合法吗下向企业颁发了采矿证合法吗?",
"你好我已评级十级工伤,我的工资是每月7千,能倍多少,右手大指头",
"老人在酒店打扫卫生,跌倒造成左臂桡骨远端骨折,做内固定手术。询问赔偿标准",
"网贷  借款7100。放款6400 分六期 每期1400多  现还了一期 是否属于高利贷?",

高强度学习的话基本两三天的时间可以解决这两个问题,需要GPU资源或者openai的apikey可以找我,初期不建议直接部署一个LLM去做,一是效果不好,二是会在部署成api上浪费太多时间

3. 实现简易的ChatExcel

相关数据:

gdp数据

个人认为两种路径:

一是做text2sql转化,然后再用转换好的sql语句去检索

二是直接text2code生成代码,直接运行得出结果

个人更喜欢第二种,如果有相当数据的话,可以直接SFT一个text2code的模型,优化特殊任务的sql流程。but,商业模式不成立(想培养商业思维的同学可以思考这个问题)

About

送给LLM初学者的路径,看我心情和时间更新

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published