编辑
2025-08-04
AI News
00

目录

AI Repos
AI News

AI Repos

1、llm.pdf
llm.pdf是一个概念验证项目,展示了在单个PDF文件中运行完整大型语言模型的可能性。它通过Emscripten将llama.cpp编译为asm.js,并利用旧版PDF的JS注入漏洞执行代码,同时将整个LLM模型以Base64编码嵌入PDF。该项目支持使用GGUF量化模型,旨在证明无需外部依赖,即可在PDF文件内部进行LLM推理,为AI应用的本地化和隐私保护提供新思路。

AI News

1、小米开源MiDashengLM-7B多模态大模型
小米今日正式发布并全量开源了MiDashengLM-7B多模态大模型,这款专注于音频理解的AI模型在性能和效率上实现了显著突破。采用创新的双核心架构设计,模型在22个公开评测集上刷新了多模态大模型的最好成绩,推理效率也展现出惊人优势。小米的这一技术突破,不仅为音频AI领域带来了新的发展机遇,也为终端设备的离线部署和功能完善奠定了基础。

2、问小白发布XBai o4开源大模型
国内AI厂商问小白近日发布了第四代开源大模型XBai o4,该模型在复杂推理能力上实现了重大突破,采用独创的反思型生成范式架构,显著提升了推理效率和质量。在多个权威基准测试中表现优异,特别是在数学推理和编程能力方面。问小白选择完全开源策略,推动行业协同发展,标志着AI推理能力竞赛进入新阶段。

3、腾讯混元团队开源四款小尺寸AI模型
腾讯混元团队宣布推出四款开源的小尺寸模型,参数分别为0.5B、1.8B、4B和7B,专为消费级显卡设计,适用于低功耗场景。这些模型支持垂直领域的低成本微调,具备快速推理和高性价比的特点,同时在语言理解、数学、推理等领域表现优异。模型已在Github和HuggingFace上线,并得到多家芯片平台支持。

4、谷歌开源LangExtract
谷歌最新发布的开源Python库LangExtract,利用大型语言模型如Gemini,高效从非结构化文本中提取结构化信息,为开发者和数据科学家提供强大工具。该库支持通过提示词和少量示例自定义提取任务,无需模型微调,适用于医疗、文学、商业等多个领域,展现了AI在数据提取中的巨大潜力。

5、谷歌Android Studio推出免费Agent模式
谷歌在Google I/O2025大会上宣布Android Studio推出免费的Agent模式,这一基于Gemini2.5Pro的AI辅助功能,通过自然语言交互帮助开发者完成复杂任务,显著提升开发效率。Agent模式支持自然语言任务描述、UI代码快速修改、自定义规则及百万Token上下文窗口,旨在解放开发者,专注于创意开发。此举被视为对苹果Xcode生态的有力挑战,展示了AI在移动开发领域的深入应用。

6、昆仑万维开源Skywork MindLink大模型
昆仑万维正式发布并开源了其最新推理大模型Skywork MindLink,包括72B模型权重、技术报告及代码仓库。该模型通过创新性推理框架实现动态路径选择,提升答案透明度与效率,在多项评测中表现卓越。技术层面,采用'Plan-based Reasoning'新范式,优化多轮对话体验,内置自适应推理系统自动调整生成策略。此举进一步夯实了昆仑万维在大模型领域的布局。

7、谷歌DeepMind推出Gemini2.5Deep Think
谷歌DeepMind宣布其最强大的AI模型Gemini2.5Deep Think正式向Google AI Ultra订阅用户开放。该模型在2025年国际数学奥林匹克竞赛中摘得金牌,并凭借其创新的“并行思考”和强化学习技术,在多个领域展现出惊艳表现。Gemini2.5Deep Think支持多模态与长上下文输入,适用于从学术研究到实时应用的多种场景。

8、谷歌AI团队发布MLE-STAR
谷歌AI团队近日发布了MLE-STAR,一款旨在自动化复杂机器学习流程设计与优化的先进代理系统。该系统通过结合大规模网络搜索、针对性代码优化和强大的检查模块,在多个机器学习工程任务上表现出色,超越了以往的自主机器学习代理和人类基线方法。MLE-STAR的创新之处在于其通过网络搜索选择模型和代码片段,采用两轮优化过程,并引入多个专门代理确保代码质量,显著提升了机器学习工程的效率和质量。

9、腾讯混元基础模型团队发布MixGRPO框架
腾讯的混元基础模型团队近日发布了突破性的图像生成框架MixGRPO,该框架通过结合随机微分方程和常微分方程的创新采样策略,显著缩短了训练时间并提升了性能。MixGRPO-Flash变体进一步将训练时间降低71%。这一技术优化了马尔可夫决策过程,通过限制智能体的随机探索范围减少计算开销,同时在图像生成的多样性和质量上取得进步。开源代码已发布,为图像生成技术的未来发展开辟了新方向。

10、NVIDIA推出Cosmos DiffusionRenderer:视频扩散框架助力高质量图像与视频渲染
NVIDIA近期发布了Cosmos DiffusionRenderer,这是一个新型视频扩散框架,旨在实现高质量图像和视频的重光源及去光源处理。此技术是对原有DiffusionRenderer方法的重大更新,通过改进的数据策划流程,显著提升了渲染质量。用户需满足一定的安装要求,包括Python3.10和至少16GB显存的NVIDIA GPU。该技术支持对图像和视频进行去光源及重光源处理,并能使用多种环境光照地图进行渲染,为视觉效果创作提供了极大的灵活性和创造性。

11、开源视频模型Wan2.2A14B领跑性能
最新报告显示,Wan2.2A14B在开源视频模型中性能领先,尤其在文本转视频方面表现突出,排名第七。尽管在图像转视频方面因帧率较低排名第十四,且与顶级闭源模型如Veo3和Seedance1.0相比整体性能仍有差距,但其显著的成本优势使其成为预算有限用户的理想选择。

如果对你有用的话,可以打赏哦
打赏
ali pay
wechat pay

本文作者:junglehxj

本文链接:

版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!