feat: add full-text search for memory lookup#19
feat: add full-text search for memory lookup#19dingyufei615 wants to merge 2 commits intoDataojitori:mainfrom
Conversation
|
你改还是我改? "架构改动非常清晰,同步逻辑也写得很严谨。但作为中文使用者,硬编码 tokenize = 'unicode61' 和 'simple' 会导致完全无法分词(所有无空格的中文字符会被当成一个极长的单词,导致召回率归零)。 合并前需要做如下调整: SQLite 侧:请将分词器修改为 tokenize = 'trigram'(SQLite 3.34+ 内置支持,对 CJK 更友好),或者在 Python 层面对 content 进行预分词(例如用 jieba 分词后以空格拼接)再存入 FTS5。 |
|
它推荐用jieba |
|
📊 A/B 结果
|
|
等我晚上看 |
|
这个分支没有给我编辑权限,所以我把修改放到pr19-refactor 分支里了。 |
嗯嗯 OK的 |
|
你的dingyufei@dxy.cn邮箱是不是没绑定到 GitHub 设置页面(Settings -> Emails)里?我在把我修改后的pr提交到github上时,发现右边贡献者栏里没有你的头像。我很担心这样merge之后,你的署名不会被记录。 |
|
没事,署名是谁都行,不方便修改就这样就行,主要希望项目未来发展更好 |
|
我刚看了,你改后,你的头像终于出现在贡献者里了。 |



#18