编辑
2025-07-14
AI News
00

AI Repos

1、All-Model-Chat
All Model Chat 是一款为Google Gemini API家族设计的网页聊天应用,支持多模态输入(图片、音频、PDF等)和多种模型(如Gemini Flash、Imagen)。它提供了丰富的自定义功能,包括高级AI参数控制、思维过程展示、语音转文本/文本转语音、Google搜索增强等。应用将聊天历史自动保存在浏览器本地,确保数据隐私。用户无需安装,仅需输入API密钥即可在线体验,也可在本地进行开发部署。

All-Model-Chat.png

编辑
2025-07-11
AI News
00

AI Repos

1、ThinkSound
ThinkSound是一个统一的Any2Audio生成框架,利用多模态大语言模型(MLLMs)的思维链(CoT)推理,实现从视频、文本和音频等任意模态生成或编辑音频。该项目采用三阶段交互式方法:基础声音生成、对象级精炼和定向编辑,所有过程均由CoT驱动。ThinkSound在视频到音频任务上达到了SOTA,并支持交互式、细粒度的声音编辑。项目已开源,并提供推理脚本、网页界面和Hugging Face在线演示,但仅限研究和教育用途。 ThinkSound.png

编辑
2025-07-10
AI News
00

AI Repos

1、Dolphin
Dolphin(Document Image Parsing via Heterogeneous Anchor Prompting)是字节跳动推出的一种新型多模态文档图像解析模型,采用“先分析后解析”的两阶段方法。它首先通过生成自然阅读顺序的元素序列进行页面级布局分析,然后利用异构锚点和任务特定提示高效并行解析文档元素。Dolphin在各类页面和元素级解析任务上表现出色,同时具备轻量化架构和并行解析机制,确保高效率。项目已开源代码和预训练模型,并支持TensorRT-LLM和vLLM加速推理,可处理多页PDF文档。 Dolphin.png

编辑
2025-07-09
AI News
00

AI Repos

1、cli
Vapi CLI是Vapi官方命令行工具,旨在帮助开发者高效管理语音AI应用。它提供认证、助手、聊天、通话、电话号码、工作流、营销活动、工具和Webhook的全生命周期管理功能,并支持本地Webhook测试。Vapi CLI能自动检测项目类型并集成SDK,还通过MCP集成,让IDE的AI助手能准确理解Vapi文档,消除AI幻觉。它支持多种主流前端、移动和后端框架,确保开发者能快速构建、部署和调试基于Vapi的语音AI解决方案。

2、cheating-daddy
Cheating Daddy是一款实时AI会议助手,旨在通过屏幕和音频分析,在视频通话、面试、演示和会议中提供即时上下文帮助。它利用Google Gemini 2.0 Flash Live技术,支持多种场景配置文件(如面试、销售电话),并以透明浮窗形式呈现。用户需提供Gemini API密钥,并可在macOS和Windows系统上使用该工具,通过快捷键控制窗口,实现高效的实时辅助。

3、SuperClaude
SuperClaude是一个为Claude Code设计的配置框架,通过引入专业命令、认知角色和开发方法论来增强其功能。v2.0.1版本进行了架构升级,采用@include引用系统和模块化设计,将9种认知角色集成为通用标志。它提供19个覆盖开发生命周期各阶段的命令,支持MCP集成、Token优化和基于证据的开发方法,旨在为开发团队提供结构化、高效且专业的AI辅助开发体验。

编辑
2025-07-08
AI News
00

AI Repos

1、claude-code-templates
Claude Code Templates是一款全面的命令行工具,旨在为不同编程语言和框架(如JavaScript/TypeScript、Python等,Go和Rust即将推出)提供优化的Claude Code配置。它通过交互式设置、自动化钩子(如代码格式化、类型检查、安全审计)和MCP服务器集成(如GitHub、数据库工具)等核心功能,显著简化项目初始化和开发流程。该工具支持框架特定命令、自动备份和安全确认,帮助开发者节省配置时间,快速启动项目,并确保代码质量。 claude-code-templates.png