编辑
2025-05-15
AI News
00

AI Repos

1、helix-db
专用于RAG以及AI应用的一款高性能图向量数据库:HelixDB,比Neo4j快1000倍,比TigerGraph快100倍,向量搜索性能和Qdrant相当。原生支持图形和矢量数据类型,比较适合RAG和AI应用,像知识图谱、语义搜索、推荐系统等。使用LMDB作为存储引擎,来实现强大高效的数据持久化

2、Job-scout
ob-Scout 是一款 Python 工具,可从 Hacker News 和 Twitter (X) 聚合机器学习和数据科学领域的远程职位。用户提供 PDF 格式的简历后,该工具会分析简历内容,并根据与职位描述的匹配程度对职位列表进行排序。Job-Scout 支持自定义搜索查询,方便用户搜索实习或特定职位。它利用 Tweepy、sklearn 和 PyMuPDF 等库实现职位抓取、文本提取、TF-IDF 向量化和余弦相似度计算,帮助求职者高效找到与其技能和经验相符的远程工作。

编辑
2025-05-14
AI News
00

AI Repos

1、ocr-workbench
OCR Workbench 是一款使用 AI(Gemini 或 Tesseract)进行文档光学字符识别(OCR)并生成 Markdown 或 HTML 转录的开源 Web 应用。它专为处理需要大量编辑的 OCR 文本而设计,特别是老旧文档。该工具提供页面级文本提取、Markdown 编辑器、全局替换、图像与文本并排查看、去连字符、查找/替换和导出功能。用户需自带 Gemini 或 Claude API 密钥。OCR Workbench 采用 Ionic/Angular 开发,支持浏览器内数据存储,并提供便捷的 PDF 转图像工作流。 ocr-workbench.png

编辑
2025-05-13
AI News
00

AI Repos

1、iap-diffusion-labs
从零开始带我们构建完整的扩散模型。通过三个精心设计的实验练习,循序渐进地引导我们实现流匹配和扩散模型,从基础 SDE 到条件图像生成,每一步都有详尽指导和完整代码,让复杂理论简单易懂。主要内容:全面讲解流匹配和扩散模型的数学基础和理论框架;三个循序渐进的实验练习,从零构建完整的图像生成扩散模型;包含详细的课程笔记、幻灯片和操作指南,自学友好;覆盖图像、视频、分子结构等多种数据模态的生成原理;配套 Colab 笔记本环境,无需复杂环境配置。学习该课程需要基本的线性代数、概率论和 Python 基础,适合想要深入了解生成式 Ai 底层原理的开发者。 iap-diffusion-labs.png

编辑
2025-05-12
AI News
00

AI Repos

1、UI-TARS
UI-TARS-1.5 是字节跳动开源的多模态智能体,基于强大的视觉语言模型构建,通过强化学习实现高级推理,显著提升了在虚拟世界中执行多样化任务的能力和适应性。相较前期模型,1.5 版本在 OSWorld、Windows Agent Arena 和 WebVoyager 等基准测试中取得了领先成果,并在 Poki 游戏和 Minecraft 等环境展现出卓越性能。该项目提供了快速上手指南、部署和后处理说明,以及针对桌面、移动和基础任务的不同提示模板。尽管性能强大,UI-TARS-1.5 仍面临潜在的滥用、高计算需求和幻觉等局限性,未来将致力于提升模型能力并探索在实际应用中的潜力。 UI-TARS.png

编辑
2025-05-09
AI News
00

AI Repos

1、ZeroSearch
ZeroSearch 是一种新颖的强化学习框架,旨在激励大型语言模型(LLM)的搜索能力,而无需与真实的搜索引擎交互。该方法通过监督微调将 LLM 转变为一个检索模块,使其能够生成相关和噪声文档以响应查询。此外,还引入了课程学习机制,通过逐步暴露更具挑战性的检索场景来激发模型的推理能力。在多个领域内外的实验结果表明,ZeroSearch 的性能优于基于真实搜索引擎的模型,且 API 成本为零,并能很好地泛化到不同大小的基础和指令微调 LLM,同时支持不同的强化学习算法。 ZeroSearch.png