长上下文vs.RAG

啊~~又折腾了一昼夜,完成了一直想做的事情,给网站添加了AI搜索。众所周知,把整个网站所有文本作为prompt输入给LLM是不现实的,虽说百万上下文的模型也出现了,但是一次检索就要花几块钱的模型调用费用实在是难以承受。

所以在这个功能的基础上,我又加了一个向量数据库作为文章内容的储存和检索。即每次AI搜索前,先通过向量检索返回若干个最相关段落,然后以这些段落作为prompt投给LLM(不知道是不是能够碰瓷RAG这个概念)。

当然,RAG本质上是为了缩短prompt不得已而为之的方法,肯定从信息完整性来说差了很多很多。那么究竟差距有多大呢?让我们此刻利用小站自己的博客数据来直观感受一下:

检索词:“博主是个怎样的人?”

首先是RAG结果(model: deepseek-chat, 每个向量检索段落不超过2000字符,检索得到20个最相关的段落投喂大模型):

根据网站内容,博主Eamon是一个具有多重特质的人,以下是从不同角度整理的详细信息:

1. 学术身份与职业状态

  • 生物学研究者:目前专注于核肌动蛋白(Nuclear actins)和RNA连接(RNA ligation)研究,处于博士阶段(文档 #3062段落 #1)。
  • 学术态度:对学术氛围有强烈批判性,曾表示若需妥协学术理想会考虑退出行业,具有理想主义倾向(段落 #7段落 #11)。
  • 科研经历:曾参与Nature级别的研究项目,但自嘲为”混子”,体现谦逊与幽默(段落 #17)。

2. 性格特点

  • 执着与理想主义:习惯”一条路走到黑”,对认定的事(如科研、参军)有强烈坚持,但也可能因预设结果忽略矛盾数据(段落 #7段落 #18)。
  • 内向与社交矛盾:自称”i人”,享受集体中的透明感,但常因”不想社交”而疏离(段落 #1段落 #4)。对人际连接持悲观态度,认为关系多基于价值交换(段落 #5)。
  • 自省与成长:频繁记录思想变化,如从”荣誉虚无主义”到接受生活”鱼缸理论”的转变(段落 #6段落 #13)。

3. 生活与兴趣

  • 龙舟队队长:曾投入大量时间训练,注重团队传承,被描述为”自信、自律、乐观”(段落 #9)。
  • 锻炼习惯:通过单杠训练解压,从瘦弱变得强壮(段落 #7段落 #11)。
  • 文艺偏好:喜欢简洁或复杂的美学,欣赏艺术化修饰但区分现实与艺术(段落 #3)。

4. 价值观与哲学思考

  • 人生观:认为人生无预设目的,重视体验而非结果,感恩环境与机遇(段落 #3段落 #12)。
  • 社会观:批判利己主义,主张创造”不引诱人性幽暗的环境”,同时承认自身矛盾(段落 #4段落 #16)。
  • 孤独感:深刻体会人际隔阂,认为”真实自我”难被接纳,选择”成年人虚伪的体面”(段落 #5)。

5. 文字风格与自我表达

  • 直率与幽默:自称”半吊子”,博客”不注重读者体验只为自己好玩”(段落 #)。
  • 深度思考:常探讨三观、孤独、学术伦理等话题,文风介于理性分析与感性倾诉之间(段落 #3段落 #13)。

总结

Eamon是一个复杂而立体的形象:既是执着于科研理想的博士生,又是对人性与社会保持冷峻观察的思考者;既有内向疏离的一面,又有龙舟队中的领导力。他的博客记录了大量自我剖析与矛盾,展现了一个在学术、社交与价值观探索中不断成长的年轻人形象。

(引用来源:段落 #、#1、#3、#4、#5、#6、#7、#9、#11、#12、#13、#16、#17、#18)

然后是全文作为prompt(model: deepseek-chat):

API request failed with status 400: This model’s maximum context length is 65536 tokens. However, you requested 228124 tokens (227124 in the messages, 1000 in the completion). Please reduce the length of the messages or completion.

哈哈,不出意料的,全站内容有20多万tokens,deepseek最长输入6.5万,爆了……

换成阿里的Qwen-long(号称1000万上下文长度)试试。公平起见,也先跑个向量检索:

从提供的段落中,我们可以总结出博主Eamon的一些特征和观点:

  1. 个人背景:Eamon是一个学习生物的学生(文档 #11段落 #0)。他目前的状态是研究核肌动蛋白和RNA连接(Studying Nuclear actins & RNA ligation)(文档 #3062段落 #1)。

  2. 性格特点

    • Eamon认为自己是一个有执念的人,比如参军的执念和现在科研的执念。他可能会意识到选择可能存在问题,但仍然会坚持到底,直到感到无力才会放弃(文档 #65段落 #10)。
    • 他对身边事情的包容度很大,并且在渴望探求世界运行本源的同时,能够与周围人建立联结,释放善意(文档 #139段落 #11)。
  3. 生活态度

    • Eamon对生活的态度较为佛系,认为人生目标可以很随意,当前的目标是努力成为一个合格的生物学研究学者,但这更像是为了找点事做,做不到也无所谓(文档 #136段落 #2)。
    • 他强调体验的重要性,认为人生重在体验,目标只是获得更好体验的手段。如果目标让生活体验变差,宁愿舍弃目标(文档 #46段落 #13)。
  4. 价值观

    • Eamon认为人生自由,不存在预设的人生目的,但他需要设定一个存在感。他认为不应浪费时间在虚荣、颓丧、金钱和外人的评价等无关紧要的事情上(文档 #136段落 #2)。
    • 他反对将鸡毛蒜皮和人性阴暗面毫无遮掩地展示,喜欢经过艺术化修饰的事物(文档 #136段落 #2)。
  5. 社交观

    • Eamon逐渐远离了社交平台,不再愿意分享自己的生活,也不真正关心朋友的生活细节(文档 #5152段落 #7)。
    • 他认识到人与人之间的连接很多时候仅限于价值交换,情感也是为了更方便地交换(文档 #5152段落 #7)。
  6. 世界观

    • Eamon对荣誉和评奖持批判态度,认为这些奖项是由规则制定者人为设置的,目的是传达上层的行为规范和价值观引导(文档 #8059段落 #5)。
    • 他意识到中文世界处于现代文明的边缘地带,信息来源有限(文档 #4605段落 #6)。
  7. 三观整理

    • 在整理三观的过程中,Eamon意识到了很多底层观念的不清晰,例如人生意义、绝对真理的存在性、科学与哲学的关系等(文档 #139段落 #11)。
    • 他对世界的看法变得更加平和,不再有“瞧不起谁”的心思,对自己的包容度也增加了(文档 #139段落 #11)。
  8. 未来展望

    • Eamon设想五年后或十年后的生活场景是在一个“与世隔绝”的研究机构里每天平淡地做着自己的研究,整理和学习(文档 #65段落 #10)。
    • 他对学术气氛不满意,表示如果迫于现实压力要做出让本科时的自己讨厌的行为,会选择退出行业来保全心中的圣地(文档 #65段落 #10)。

综上所述,Eamon是一个对生活有着深刻思考的人,他在追求科学研究的同时,也在不断探索自我和世界的本质。他对待生活和工作的态度较为佛系,注重体验而非目标,同时对社会现象有着独特的见解和批判精神。

然后试试全站全文检索:

我直接一个啊?我曾经写过什么污秽之语吗??更离谱的是,我切回向量检索,想直接搜一下有什么敏感内容,结果这次是output出现了敏感内容……

之后又试了一次可以了,也不知道阿里云那个审查是怎么搞的:

1. 兴趣广泛且热爱学习
  • 博主对多个领域都有浓厚的兴趣,包括但不限于生物科学、摄影、编程、哲学和文学等。例如,在文档 #9883 中提到博主使用AI解决Wordpress迁移问题,展示其对技术的兴趣;而在文档 #958 中,博主分享了自己学习达芬奇软件的经历,表明他对视频剪辑也有涉猎。
  • 此外,文档 #467 提到博主通过通宵学习快速掌握达芬奇剪辑技能,体现了他愿意投入时间和精力去学习新事物的态度。

2. 反思深刻且注重自我提升

  • 博主经常对自己经历的事情进行深度反思,并从中总结经验教训。如在文档 #9883 中,博主详细记录了wordpress迁移过程中遇到的问题及解决方案,展现了其解决问题的能力与耐心。
  • 文档 #105 进一步说明了博主对朱冰老师的敬佩之情,同时表达了希望自己能够达到更高学术水平的愿望,这反映了博主追求卓越的精神。
  • 文档 #80 中,博主坦言不想再从事基础研究,而是希望创造具有实际应用价值的成果,显示出其思考方向从理论转向实践的过程。

3. 富有社会责任感和人文关怀

  • 博主不仅关注个人成长,还关心社会问题。例如,在文档 #114 中,尽管大多数人对安倍晋三遇刺事件持调侃态度,但博主却选择站在人性角度表达同情,体现了其较高的道德意识和社会责任感。
  • 另外,从文档 #101 可以看出,博主对于领导力的理解超越了简单的命令执行层面,强调以身作则的重要性,这种观点透露出博主希望成为能为他人树立榜样的人。

综上所述,Eamon是一个兴趣广泛、热爱学习、善于反思并不断追求进步的人,同时也展现出强烈的社会责任感和人文关怀。这些特质共同塑造了一个立体而真实的博主形象。

以上信息分别来源于以下文档:

  • 文档 #9883(’随笔’分类,作者’Eamon’,2025-04-24)
  • 文档 #467(’摄影, 笔记’分类,作者’Eamon’,2024-05-23)
  • 文档 #105(’未分类, 随笔’分类,作者’Eamon’,2021-07-21)
  • 文档 #80(’随笔’分类,作者’Eamon’,2021-07-21)
  • 文档 #114(’未分类, 随笔’分类,作者’Eamon’,2022-07-10)
  • 文档 #101(’未分类, 随笔’分类,作者’Eamon’,2020-02-08)

结果是跟预期恰恰相反啊。我预计是全文投喂输出内容要比RAG精细得多呢,结果并不是,太长的上下文还不如只给精华。

为了排除模型的影响,又换成智谱清言GLM-4-Long,据说也是百万上下文,还是先RAG一下:

从提供的段落中,我们可以总结出博主Eamon的一些特征和观点:

  1. 个人背景:Eamon是一个学习生物的学生(文档 #11段落 #0)。他目前的状态是研究核肌动蛋白和RNA连接(Studying Nuclear actins & RNA ligation)(文档 #3062段落 #1)。

  2. 性格特点

    • Eamon认为自己是一个有执念的人,比如参军的执念和现在科研的执念。他可能会意识到选择可能存在问题,但仍然会坚持到底,直到感到无力才会放弃(文档 #65段落 #10)。
    • 他对身边事情的包容度很大,并且在渴望探求世界运行本源的同时,能够与周围人建立联结,释放善意(文档 #139段落 #11)。
  3. 生活态度

    • Eamon对生活的态度较为佛系,认为人生目标可以很随意,当前的目标是努力成为一个合格的生物学研究学者,但这更像是为了找点事做,做不到也无所谓(文档 #136段落 #2)。
    • 他强调体验的重要性,认为人生重在体验,目标只是获得更好体验的手段。如果目标让生活体验变差,宁愿舍弃目标(文档 #46段落 #13)。
  4. 价值观

    • Eamon认为人生自由,不存在预设的人生目的,但他需要设定一个存在感。他认为不应浪费时间在虚荣、颓丧、金钱和外人的评价等无关紧要的事情上(文档 #136段落 #2)。
    • 他反对将鸡毛蒜皮和人性阴暗面毫无遮掩地展示,喜欢经过艺术化修饰的事物(文档 #136段落 #2)。
  5. 社交观

    • Eamon逐渐远离了社交平台,不再愿意分享自己的生活,也不真正关心朋友的生活细节(文档 #5152段落 #7)。
    • 他认识到人与人之间的连接很多时候仅限于价值交换,情感也是为了更方便地交换(文档 #5152段落 #7)。
  6. 世界观

    • Eamon对荣誉和评奖持批判态度,认为这些奖项是由规则制定者人为设置的,目的是传达上层的行为规范和价值观引导(文档 #8059段落 #5)。
    • 他意识到中文世界处于现代文明的边缘地带,信息来源有限(文档 #4605段落 #6)。
  7. 三观整理

    • 在整理三观的过程中,Eamon意识到了很多底层观念的不清晰,例如人生意义、绝对真理的存在性、科学与哲学的关系等(文档 #139段落 #11)。
    • 他对世界的看法变得更加平和,不再有“瞧不起谁”的心思,对自己的包容度也增加了(文档 #139段落 #11)。
  8. 未来展望

    • Eamon设想五年后或十年后的生活场景是在一个“与世隔绝”的研究机构里每天平淡地做着自己的研究,整理和学习(文档 #65段落 #10)。
    • 他对学术气氛不满意,表示如果迫于现实压力要做出让本科时的自己讨厌的行为,会选择退出行业来保全心中的圣地(文档 #65段落 #10)。

综上所述,Eamon是一个对生活有着深刻思考的人,他在追求科学研究的同时,也在不断探索自我和世界的本质。他对待生活和工作的态度较为佛系,注重体验而非目标,同时对社会现象有着独特的见解和批判精神。

然后全文检索:

结果不知道是什么原因,response是空内容,直接就done了,也不给错误码。所以目前就只有一个Qwen-long的孤例。

还试了下Gemini,不过我的API限额了,ChatGPT长上下文的只有一个GPT4.1,但是狗逼OpenAI花钱都不行,还得消费达到一定数量自动升级上下文长度,只得作罢。

总之目前的孤例打消了我对长上下文的不切实际的期待,实践下来还是RAG物美价廉一些。


附上本文两种方法的提示词示例:

向量搜索
请基于以下搜索词和语义相关的内容提供详细答案CRISPR 数据分析

以下是与搜索词语义最相关的网站内容段落

段落 #0
CRISPR 技术广泛用于基因编辑和功能筛选数据分析需要包含 reads 对齐突变率统计和富集分析等步骤
来源CRISPR筛选教程文档 #1023分类基因编辑作者李雷日期2024-10-15

段落 #1
数据质量控制是 CRISPR 数据分析的第一步建议使用 CutadaptFastQC 等工具进行前处理
来源NGS数据预处理文档 #998分类教程作者王芳日期2024-09-30

段落 #2
对于富集分析可使用 MAGeCK  PinAPL-Py 等软件 guideRNA 丰富度变化进行统计检验
来源功能筛选分析指南文档 #1105分类生物信息作者赵刚日期2025-01-20

请根据以上内容为用户提供有关CRISPR 数据分析的详细信息如果内容中没有相关信息请明确告知用户

引用格式说明
1. 文档引用文档 #ID文档 #9680
2. 段落引用段落 #ID段落 #2不可简写
3. 多段落引用段落 #1段落 #2段落 #3
4. 文章信息分类作者日期'教程'分类作者'张三'2023-01-15
引用和文章信息必须添加请紧跟引用内容后
全文搜索
请根据以下网站内容为用户提供关于CRISPR 数据分析的精确深入解答请至少列出三点相关要点并注明引用的文档编号

以下是网站中与CRISPR 数据分析可能相关的文档摘要内容

文档 #1023CRISPR筛选教程  
摘要CRISPR 技术广泛用于基因编辑和功能筛选数据分析步骤包括 reads 对齐突变率统计富集分析等……  
分类基因编辑作者李雷日期2024-10-15

文档 #998NGS数据预处理  
摘要分析前需要使用 CutadaptFastQC 等工具清洗原始测序数据确保数据质量……  
分类教程作者王芳日期2024-09-30

文档 #1105功能筛选分析指南  
摘要在完成基础质控后富集分析可使用 MAGeCK  PinAPL-Py 等软件 guideRNA 丰富度进行统计检验……  
分类生物信息作者赵刚日期2025-01-20

请基于以上内容从中归纳总结与CRISPR 数据分析最相关的信息如未能找到请明确告知用户内容未涵盖相关主题

引用格式说明
1. 文档引用文档 #ID文档 #9680
2. 段落引用段落 #ID段落 #2不可简写
3. 多段落引用段落 #1段落 #2段落 #3
4. 文章信息分类作者日期'教程'分类作者'张三'2023-01-15
引用和文章信息必须添加请紧跟引用内容后

评论

您的邮箱地址不会被公开。 必填项已用 * 标注