AI Daily 2025.07.09

AI Repos

1、cli
Vapi CLI是Vapi官方命令行工具，旨在帮助开发者高效管理语音AI应用。它提供认证、助手、聊天、通话、电话号码、工作流、营销活动、工具和Webhook的全生命周期管理功能，并支持本地Webhook测试。Vapi CLI能自动检测项目类型并集成SDK，还通过MCP集成，让IDE的AI助手能准确理解Vapi文档，消除AI幻觉。它支持多种主流前端、移动和后端框架，确保开发者能快速构建、部署和调试基于Vapi的语音AI解决方案。

2、cheating-daddy
Cheating Daddy是一款实时AI会议助手，旨在通过屏幕和音频分析，在视频通话、面试、演示和会议中提供即时上下文帮助。它利用Google Gemini 2.0 Flash Live技术，支持多种场景配置文件（如面试、销售电话），并以透明浮窗形式呈现。用户需提供Gemini API密钥，并可在macOS和Windows系统上使用该工具，通过快捷键控制窗口，实现高效的实时辅助。

3、SuperClaude
SuperClaude是一个为Claude Code设计的配置框架，通过引入专业命令、认知角色和开发方法论来增强其功能。v2.0.1版本进行了架构升级，采用@include引用系统和模块化设计，将9种认知角色集成为通用标志。它提供19个覆盖开发生命周期各阶段的命令，支持MCP集成、Token优化和基于证据的开发方法，旨在为开发团队提供结构化、高效且专业的AI辅助开发体验。

AI News

1、昆仑万维Skywork-R1V3.0开源模型：多模态推理技术的新高峰
昆仑万维最新发布的开源模型Skywork-R1V3.0在多模态推理领域取得了显著进展，其通过强化学习策略和高质量蒸馏数据，在复杂逻辑建模与跨学科知识泛化方面表现出色。在MMMU等权威评测中，该模型超越了多个闭源模型，展现了卓越的跨模态理解能力。特别是在物理、逻辑和数学推理等多个领域，Skywork-R1V3.0均取得了优异成绩，标志着多模态推理技术的一个新高峰。

2、香港维纳智能推出QueWi：首个免费大模型协同问答系统
维纳智能科技有限公司在香港发布了首个公开且免费的多个大模型自动协同通用问答系统QueWi，以及两款旗舰应用，展示了其在AI技术上的创新能力。公司创始人柳崎峰指出，通过开发SYNC、ToM、CLAPE和CLEF等核心技术，解决了AI大模型应用中的交互数据短缺问题。测试显示，其应用在多项性能指标上超越国际主流AI大模型，将极大推动香港及全球AI技术应用。

3、Hugging Face推出轻量级开源语言模型SmolLM3，性能媲美4B参数模型
Hugging Face近日发布了全新的开源语言模型SmolLM3，这款拥有3B参数的轻量级大语言模型在多项基准测试中表现卓越，甚至与更大规模的4B参数模型性能相当。SmolLM3采用了分组查询注意力和NoPE技术优化，支持双模式推理和128K上下文处理，原生支持六种语言，完全开源，为开发者和企业用户提供了高效、多功能的解决方案。

4、谷歌Veo3重磅升级：静态照片秒变高质量视频
谷歌近日对其AI视频生成工具Veo3进行了重大升级，用户现在只需上传一张静态照片，即可生成包含音频和视频的高质量内容。这一升级通过谷歌Flow创作平台实现，能够保持角色在多个镜头下的一致性，并引入丰富的运镜功能，如推镜头（Dolly in），显著提升了视频生成的专业性。用户可以根据需要选择不同质量的生成模型，但需消耗相应的credits。Veo3的这一突破在AI叙事领域引起了广泛关注，展示了AI在创作领域的巨大潜力。

5、Moonvalley发布Marey Realism v1.5
Moonvalley近日发布了其全新的AI视频生成模型Marey Realism v1.5，该模型以原生1080P高清晰度、100%基于授权内容的训练数据以及强大的创作功能，迅速引发行业热议。其不仅在视觉品质上实现了升级，还在版权风险、创作自由度以及运动与光影效果上展现了突破性进展，为AI视频生成技术的商业化应用打开了新局面。

6、阿里通义开源WebSailor智能体
阿里通义近日开源了其网络智能体WebSailor，该智能体在推理和检索能力上表现卓越，超越多款闭源模型。银河证券指出AI Agent经济已全面开启，建议关注相关SAAS企业。焦点科技和中科金财等公司在智能体技术应用上展现出明显优势，阿里此举不仅提升了国产AI Agent的技术标准化，还降低了企业的接入门槛。

7、ChatGPT推出'Study Together'新功能，革新互动式学习体验
ChatGPT正在测试名为'Study Together'的新功能，旨在通过互动式学习提升其作为教育工具的实用性。该功能鼓励用户主动思考和回答问题，可能支持多人互动形成学习小组，增强学习体验。尽管存在被滥用的担忧，但这一创新有望促进更深层次的知识探索和师生交流。

8、英伟达联合香港大学与麻省理工学院推出Fast-dLLM技术，大幅提升扩散语言模型推理效率
英伟达、香港大学与麻省理工学院的研究团队联合发布Fast-dLLM技术，通过KV缓存机制和基于置信度的平行解码策略，显著提升扩散语言模型的推理速度和生成质量。测试显示，该技术在保持生成质量的同时，实现了高达27.6倍的端到端加速。

9、阿里语音AI开源ThinkSound模型，引领音频生成技术
阿里语音AI团队近日开源了全球首个支持链式推理的音频生成模型ThinkSound，该模型通过引入思维链技术，实现了高保真、强同步的空间音频生成，标志着AI音频技术从“看图配音”向“结构化理解画面”的跨越式发展。ThinkSound结合多模态大语言模型与统一音频生成架构，通过三阶段推理机制实现精准音频合成，并在实验中显示出优于主流方法的性能。这一技术的开源将为影视音效制作、音频后期处理等领域提供新工具，并可能重新定义人机交互中的声音体验边界。

10、Hugging Face发布SmolLM3：小参数大作为，多语言处理新标杆
Hugging Face近日发布了最新开源模型SmolLM3，这款拥有30亿参数的模型在性能上超越了同类开源模型，支持128k的上下文窗口及多语言文本处理。其创新的深度思考和非思考两种推理模式，以及公开的架构细节和训练流程，标志着小参数模型领域的重要进展。SmolLM3的发布不仅展示了Hugging Face在AI领域的领先地位，也为开发者提供了广阔的应用前景。

11、Cursor Pro套餐价格调整引发用户不满，Anysphere CEO公开道歉
Anysphere公司因Cursor Pro套餐价格调整沟通不畅，导致用户不满和额外费用问题，CEO迈克尔·特鲁尔公开道歉。新方案下，用户每月有20美元的使用量，超出需额外购买信用额度。用户反映在使用Claude模型时额度迅速耗尽，部分用户因未设消费上限被额外收费。Anysphere承诺退款并改进沟通。此外，Cursor面临来自AI提供商的竞争压力，已与多家公司达成合作协议。

目录

AI Repos

AI News