编辑
2025-07-15
AI News
00

AI Repos

1、GenerativeAICourse
本课程是一门面向零基础的全栈生成式AI工程实践课程。它从AI基本概念和LLM的兴起讲起,重点教授如何构建可扩展的生产级AI应用,而非仅仅停留在模型训练层面。课程内容涵盖部署本地LLM、构建端到端聊天机器人、RAG、AI代理、LLMOps、MCP以及数据质量等核心主题。通过提供详细的开发环境设置指南(VS Code、Git、Python),确保学员能够亲自动手完成所有实验,将理论与实践相结合。

2、python-utcp
通用工具调用协议(UTCP)是一种灵活、可扩展的标准,用于定义和交互各种通信协议下的工具。与MCP等协议不同,UTCP专注于大规模应用和广泛互操作性,支持HTTP、WebSocket、gRPC等多种提供者类型,甚至能自动转换OpenAPI规范。它基于Pydantic模型,易于开发和使用。UTCP客户端可动态发现、搜索和调用工具,并能与大型语言模型(LLM)深度集成,实现智能、多轮的工具调用。

编辑
2025-07-14
AI News
00

AI Repos

1、All-Model-Chat
All Model Chat 是一款为Google Gemini API家族设计的网页聊天应用,支持多模态输入(图片、音频、PDF等)和多种模型(如Gemini Flash、Imagen)。它提供了丰富的自定义功能,包括高级AI参数控制、思维过程展示、语音转文本/文本转语音、Google搜索增强等。应用将聊天历史自动保存在浏览器本地,确保数据隐私。用户无需安装,仅需输入API密钥即可在线体验,也可在本地进行开发部署。

All-Model-Chat.png

编辑
2025-07-11
AI News
00

AI Repos

1、ThinkSound
ThinkSound是一个统一的Any2Audio生成框架,利用多模态大语言模型(MLLMs)的思维链(CoT)推理,实现从视频、文本和音频等任意模态生成或编辑音频。该项目采用三阶段交互式方法:基础声音生成、对象级精炼和定向编辑,所有过程均由CoT驱动。ThinkSound在视频到音频任务上达到了SOTA,并支持交互式、细粒度的声音编辑。项目已开源,并提供推理脚本、网页界面和Hugging Face在线演示,但仅限研究和教育用途。 ThinkSound.png

编辑
2025-07-10
AI News
00

AI Repos

1、Dolphin
Dolphin(Document Image Parsing via Heterogeneous Anchor Prompting)是字节跳动推出的一种新型多模态文档图像解析模型,采用“先分析后解析”的两阶段方法。它首先通过生成自然阅读顺序的元素序列进行页面级布局分析,然后利用异构锚点和任务特定提示高效并行解析文档元素。Dolphin在各类页面和元素级解析任务上表现出色,同时具备轻量化架构和并行解析机制,确保高效率。项目已开源代码和预训练模型,并支持TensorRT-LLM和vLLM加速推理,可处理多页PDF文档。 Dolphin.png

编辑
2025-07-09
AI News
00

AI Repos

1、cli
Vapi CLI是Vapi官方命令行工具,旨在帮助开发者高效管理语音AI应用。它提供认证、助手、聊天、通话、电话号码、工作流、营销活动、工具和Webhook的全生命周期管理功能,并支持本地Webhook测试。Vapi CLI能自动检测项目类型并集成SDK,还通过MCP集成,让IDE的AI助手能准确理解Vapi文档,消除AI幻觉。它支持多种主流前端、移动和后端框架,确保开发者能快速构建、部署和调试基于Vapi的语音AI解决方案。

2、cheating-daddy
Cheating Daddy是一款实时AI会议助手,旨在通过屏幕和音频分析,在视频通话、面试、演示和会议中提供即时上下文帮助。它利用Google Gemini 2.0 Flash Live技术,支持多种场景配置文件(如面试、销售电话),并以透明浮窗形式呈现。用户需提供Gemini API密钥,并可在macOS和Windows系统上使用该工具,通过快捷键控制窗口,实现高效的实时辅助。

3、SuperClaude
SuperClaude是一个为Claude Code设计的配置框架,通过引入专业命令、认知角色和开发方法论来增强其功能。v2.0.1版本进行了架构升级,采用@include引用系统和模块化设计,将9种认知角色集成为通用标志。它提供19个覆盖开发生命周期各阶段的命令,支持MCP集成、Token优化和基于证据的开发方法,旨在为开发团队提供结构化、高效且专业的AI辅助开发体验。