啊~~又折腾了一昼夜,完成了一直想做的事情,给网站添加了AI搜索。众所周知,把整个网站所有文本作为prompt输入给LLM是不现实的,虽说百万上下文的模型也出现了,但是一次检索就要花几块钱的模型调用费用实在是难以承受。
所以在这个功能的基础上,我又加了一个向量数据库作为文章内容的储存和检索。即每次AI搜索前,先通过向量检索返回若干个最相关段落,然后以这些段落作为prompt投给LLM(不知道是不是能够碰瓷RAG这个概念)。
当然,RAG本质上是为了缩短prompt不得已而为之的方法,肯定从信息完整性来说差了很多很多。那么究竟差距有多大呢?让我们此刻利用小站自己的博客数据来直观感受一下:
检索词:“博主是个怎样的人?”
首先是RAG结果(model: deepseek-chat, 每个向量检索段落不超过2000字符,检索得到20个最相关的段落投喂大模型):
根据网站内容,博主Eamon是一个具有多重特质的人,以下是从不同角度整理的详细信息:
1. 学术身份与职业状态
- 生物学研究者:目前专注于核肌动蛋白(Nuclear actins)和RNA连接(RNA ligation)研究,处于博士阶段(文档 #3062、段落 #1)。
- 学术态度:对学术氛围有强烈批判性,曾表示若需妥协学术理想会考虑退出行业,具有理想主义倾向(段落 #7、段落 #11)。
- 科研经历:曾参与Nature级别的研究项目,但自嘲为”混子”,体现谦逊与幽默(段落 #17)。
2. 性格特点
- 执着与理想主义:习惯”一条路走到黑”,对认定的事(如科研、参军)有强烈坚持,但也可能因预设结果忽略矛盾数据(段落 #7、段落 #18)。
- 内向与社交矛盾:自称”i人”,享受集体中的透明感,但常因”不想社交”而疏离(段落 #1、段落 #4)。对人际连接持悲观态度,认为关系多基于价值交换(段落 #5)。
- 自省与成长:频繁记录思想变化,如从”荣誉虚无主义”到接受生活”鱼缸理论”的转变(段落 #6、段落 #13)。
3. 生活与兴趣
- 龙舟队队长:曾投入大量时间训练,注重团队传承,被描述为”自信、自律、乐观”(段落 #9)。
- 锻炼习惯:通过单杠训练解压,从瘦弱变得强壮(段落 #7、段落 #11)。
- 文艺偏好:喜欢简洁或复杂的美学,欣赏艺术化修饰但区分现实与艺术(段落 #3)。
4. 价值观与哲学思考
- 人生观:认为人生无预设目的,重视体验而非结果,感恩环境与机遇(段落 #3、段落 #12)。
- 社会观:批判利己主义,主张创造”不引诱人性幽暗的环境”,同时承认自身矛盾(段落 #4、段落 #16)。
- 孤独感:深刻体会人际隔阂,认为”真实自我”难被接纳,选择”成年人虚伪的体面”(段落 #5)。
5. 文字风格与自我表达
总结
Eamon是一个复杂而立体的形象:既是执着于科研理想的博士生,又是对人性与社会保持冷峻观察的思考者;既有内向疏离的一面,又有龙舟队中的领导力。他的博客记录了大量自我剖析与矛盾,展现了一个在学术、社交与价值观探索中不断成长的年轻人形象。
(引用来源:段落 #、#1、#3、#4、#5、#6、#7、#9、#11、#12、#13、#16、#17、#18)
然后是全文作为prompt(model: deepseek-chat):
哈哈,不出意料的,全站内容有20多万tokens,deepseek最长输入6.5万,爆了……
换成阿里的Qwen-long(号称1000万上下文长度)试试。公平起见,也先跑个向量检索:
从提供的段落中,我们可以总结出博主Eamon的一些特征和观点:
-
个人背景:Eamon是一个学习生物的学生(文档 #11,段落 #0)。他目前的状态是研究核肌动蛋白和RNA连接(Studying Nuclear actins & RNA ligation)(文档 #3062,段落 #1)。
-
性格特点:
-
生活态度:
-
价值观:
-
社交观:
-
世界观:
-
三观整理:
-
未来展望:
综上所述,Eamon是一个对生活有着深刻思考的人,他在追求科学研究的同时,也在不断探索自我和世界的本质。他对待生活和工作的态度较为佛系,注重体验而非目标,同时对社会现象有着独特的见解和批判精神。
然后试试全站全文检索:

我直接一个啊?我曾经写过什么污秽之语吗??更离谱的是,我切回向量检索,想直接搜一下有什么敏感内容,结果这次是output出现了敏感内容……

之后又试了一次可以了,也不知道阿里云那个审查是怎么搞的:
- 博主对多个领域都有浓厚的兴趣,包括但不限于生物科学、摄影、编程、哲学和文学等。例如,在文档 #9883 中提到博主使用AI解决Wordpress迁移问题,展示其对技术的兴趣;而在文档 #958 中,博主分享了自己学习达芬奇软件的经历,表明他对视频剪辑也有涉猎。
- 此外,文档 #467 提到博主通过通宵学习快速掌握达芬奇剪辑技能,体现了他愿意投入时间和精力去学习新事物的态度。
2. 反思深刻且注重自我提升
- 博主经常对自己经历的事情进行深度反思,并从中总结经验教训。如在文档 #9883 中,博主详细记录了wordpress迁移过程中遇到的问题及解决方案,展现了其解决问题的能力与耐心。
- 文档 #105 进一步说明了博主对朱冰老师的敬佩之情,同时表达了希望自己能够达到更高学术水平的愿望,这反映了博主追求卓越的精神。
- 在文档 #80 中,博主坦言不想再从事基础研究,而是希望创造具有实际应用价值的成果,显示出其思考方向从理论转向实践的过程。
3. 富有社会责任感和人文关怀
- 博主不仅关注个人成长,还关心社会问题。例如,在文档 #114 中,尽管大多数人对安倍晋三遇刺事件持调侃态度,但博主却选择站在人性角度表达同情,体现了其较高的道德意识和社会责任感。
- 另外,从文档 #101 可以看出,博主对于领导力的理解超越了简单的命令执行层面,强调以身作则的重要性,这种观点透露出博主希望成为能为他人树立榜样的人。
综上所述,Eamon是一个兴趣广泛、热爱学习、善于反思并不断追求进步的人,同时也展现出强烈的社会责任感和人文关怀。这些特质共同塑造了一个立体而真实的博主形象。
以上信息分别来源于以下文档:
- 文档 #9883(’随笔’分类,作者’Eamon’,2025-04-24)
- 文档 #467(’摄影, 笔记’分类,作者’Eamon’,2024-05-23)
- 文档 #105(’未分类, 随笔’分类,作者’Eamon’,2021-07-21)
- 文档 #80(’随笔’分类,作者’Eamon’,2021-07-21)
- 文档 #114(’未分类, 随笔’分类,作者’Eamon’,2022-07-10)
- 文档 #101(’未分类, 随笔’分类,作者’Eamon’,2020-02-08)
结果是跟预期恰恰相反啊。我预计是全文投喂输出内容要比RAG精细得多呢,结果并不是,太长的上下文还不如只给精华。
为了排除模型的影响,又换成智谱清言GLM-4-Long,据说也是百万上下文,还是先RAG一下:
从提供的段落中,我们可以总结出博主Eamon的一些特征和观点:
-
个人背景:Eamon是一个学习生物的学生(文档 #11,段落 #0)。他目前的状态是研究核肌动蛋白和RNA连接(Studying Nuclear actins & RNA ligation)(文档 #3062,段落 #1)。
-
性格特点:
-
生活态度:
-
价值观:
-
社交观:
-
世界观:
-
三观整理:
-
未来展望:
综上所述,Eamon是一个对生活有着深刻思考的人,他在追求科学研究的同时,也在不断探索自我和世界的本质。他对待生活和工作的态度较为佛系,注重体验而非目标,同时对社会现象有着独特的见解和批判精神。
然后全文检索:
结果不知道是什么原因,response是空内容,直接就done了,也不给错误码。所以目前就只有一个Qwen-long的孤例。
还试了下Gemini,不过我的API限额了,ChatGPT长上下文的只有一个GPT4.1,但是狗逼OpenAI花钱都不行,还得消费达到一定数量自动升级上下文长度,只得作罢。
总之目前的孤例打消了我对长上下文的不切实际的期待,实践下来还是RAG物美价廉一些。
附上本文两种方法的提示词示例:
请基于以下搜索词和语义相关的内容提供详细答案:CRISPR 数据分析
以下是与搜索词语义最相关的网站内容段落:
段落 #0:
CRISPR 技术广泛用于基因编辑和功能筛选,数据分析需要包含 reads 对齐、突变率统计和富集分析等步骤。
(来源:CRISPR筛选教程,文档 #1023,分类:基因编辑,作者:李雷,日期:2024-10-15)
段落 #1:
数据质量控制是 CRISPR 数据分析的第一步,建议使用 Cutadapt、FastQC 等工具进行前处理。
(来源:NGS数据预处理,文档 #998,分类:教程,作者:王芳,日期:2024-09-30)
段落 #2:
对于富集分析,可使用 MAGeCK 或 PinAPL-Py 等软件,对 guideRNA 丰富度变化进行统计检验。
(来源:功能筛选分析指南,文档 #1105,分类:生物信息,作者:赵刚,日期:2025-01-20)
请根据以上内容,为用户提供有关“CRISPR 数据分析”的详细信息。如果内容中没有相关信息,请明确告知用户。
引用格式说明:
1. 文档引用:文档 #ID(如:文档 #9680)
2. 段落引用:段落 #ID(如:段落 #2,不可简写)
3. 多段落引用:段落 #1、段落 #2、段落 #3
4. 文章信息:分类、作者、日期(如:'教程'分类,作者'张三',2023-01-15)
引用和文章信息必须添加,请紧跟引用内容后。
请根据以下网站内容,为用户提供关于“CRISPR 数据分析”的精确、深入解答。请至少列出三点相关要点,并注明引用的文档编号。
以下是网站中与“CRISPR 数据分析”可能相关的文档摘要内容:
文档 #1023:CRISPR筛选教程
摘要:CRISPR 技术广泛用于基因编辑和功能筛选,数据分析步骤包括 reads 对齐、突变率统计、富集分析等……
分类:基因编辑;作者:李雷;日期:2024-10-15
文档 #998:NGS数据预处理
摘要:分析前需要使用 Cutadapt、FastQC 等工具清洗原始测序数据,确保数据质量……
分类:教程;作者:王芳;日期:2024-09-30
文档 #1105:功能筛选分析指南
摘要:在完成基础质控后,富集分析可使用 MAGeCK 或 PinAPL-Py 等软件,对 guideRNA 丰富度进行统计检验……
分类:生物信息;作者:赵刚;日期:2025-01-20
请基于以上内容,从中归纳总结与“CRISPR 数据分析”最相关的信息。如未能找到,请明确告知用户内容未涵盖相关主题。
引用格式说明:
1. 文档引用:文档 #ID(如:文档 #9680)
2. 段落引用:段落 #ID(如:段落 #2,不可简写)
3. 多段落引用:段落 #1、段落 #2、段落 #3
4. 文章信息:分类、作者、日期(如:'教程'分类,作者'张三',2023-01-15)
引用和文章信息必须添加,请紧跟引用内容后。