1、DeepSeek-671B-SFT-Guide
DeepSeek-V3/R1 满血版 671B 全参数微调的开源解决方案,包含从训练到推理的完整代码和脚本,以及实践中积累一些经验和结论,由中国科学院自动化研究所和中科闻歌联合推出。实现了包含 DeepSeek-V3/R1 训练逻辑的 modeling 文件(详见 ./model,根据 Deepseek-V3 论文并结合 Deepseek-V2 的 modeling 文件进行代码逻辑补全);实现了基于数据并行(DeepSpeed ZeRO)+ 序列并行(SP)的 DeepSeek-V3/R1 671B 满血版全参数微调;总结了模型训练和部署全流程踩坑经验、遇到的问题及解决方案。
2、text-extract-api
使用最先进的现代 OCR + Ollama 支持模型提取和解析文档(PDF、Word、PPTX...)API。匿名化文档。删除 PII。将任何文档或图片转换为结构化的 JSON 或 Markdown。
1、谷歌 Gemini APP 更新
谷歌的 Gemini APP 发布了重要更新。首先,2.0 Flash Thinking Experimental 版本显著提升了推理能力和响应速度,同时增强了处理更长上下文的能力。其次,Deep Research 功能也得到了升级,现在能够更有效地整合网络信息,为用户提供更全面的数据支持。此外,Gemini 现在可以连接 Google 的各种应用和服务,例如根据用户的搜索历史智能推荐餐厅或提供旅行建议。最后,新增的 Gems 功能允许用户自定义 Gemini,创建专属的 AI 智能体,使 Gemini 更加贴合个人需求。
2、OpenAI 发布新更新
OpenAI 最近发布了一系列更新,首先是 Operator 现在可以在欧盟等地区使用。其次,o1 和 o3-mini 中新增了基于 Python 的数据分析功能。最后,所有用户,包括企业用户、教育用户和免费用户,现在都可以在 macOS 上使用“Work with Apps”功能。
3、体验超真实 AI 语音:CSM 1B 模型现已发布
极其拟人的TTS,目前仅支持英文。模型
4、微软发布AI聊天网页模板,简化.NET开发者AI应用开发
微软推出预览版AI聊天网页应用模板,基于Blazor框架和Microsoft.Extensions.AI,助力.NET开发者快速构建智能聊天应用。模板支持RAG模式,提供本地及Azure集成选项,内置UI组件、向量存储及数据摄取功能,开发者可通过简单命令安装并自定义。未来计划扩展至AI控制台、最小API模板,并纳入.NET SDK,支持Azure AI Foundry。此举降低AI开发门槛,增强功能扩展性,与语义内核团队合作进一步丰富模板选项。
5、国家网信办新规要求AI生成内容需显著标识
国家网信办等四部门联合发布《人工智能生成合成内容标识办法》,要求AI生成的文本、图片、音频、视频等内容必须显著标识,以应对不实信息传播,保护公众权益。办法规定服务提供者在内容中添加显式(如文字提示)和隐式(如元数据)标识,传播平台需核验并提醒用户。用户须主动声明生成内容,禁止恶意篡改标识。办法自2025年9月1日起施行,旨在规范AI应用,维护社会公共利益。
6、“AI抱抱喵”革新毛绒玩具,智能情感陪伴时代来临
趣巢玩具推出“AI抱抱喵”,一款搭载AI大脑的毛绒玩具,颠覆传统。它内置多模态交互引擎和多感官认知阵列,能听懂话语、感知情绪、识别表情,甚至通过触摸互动。基于通用大模型和自建情绪感知系统,其“记忆共生体系”可记住互动细节,形成专属记忆,越用越贴心。这不仅是一个玩具,更是情感陪伴的智能伙伴,预示AI玩具新时代的到来,让科技与温情融合。
7、无归一化层Transformer突破:DyT技术提升训练效率
Meta FAIR研究团队推出“动态tanh”(DyT)技术,挑战传统Transformer中的归一化层依赖。DyT替代层归一化(LN),通过元素级运算模拟缩放压缩效果,省去复杂计算。实验表明,DyT不仅稳定训练,还提升性能,且无需超参数调整。研究发现深层LN行为类似tanh函数,支持DyT有效性。这一突破降低训练复杂度与成本,未来或成为高效网络设计的关键,推动深度学习发展。
8、alphaXiv:AI神器将arXiv论文一键变博客,科研效率大提升
alphaXiv是一款AI工具,融合Mistral OCR和Claude3.7技术,将arXiv论文转化为通俗易懂的博客文章。只需替换链接并点击生成,即可获得包含目录、简介、研究背景、方法、实验结果及前景的结构化概述。它提炼核心内容,配以图表和浅显语言,助用户快速掌握论文精髓。适合科研爱好者及专业人士,极大提升阅读效率。手机App也在开发中,预示高效学习新时代的到来,科研方式或将迎来颠覆性变革。
9、OpenAI升级Chat Playground为Prompts Playground,优化提示测试体验
OpenAI将Chat Playground升级为Prompts Playground,重新设计并新增功能,提升提示测试与迭代效率。新平台整合Web搜索和文件搜索,支持保存、共享模型配置和系统设置,方便开发者复现实验与协作。示例提示基于gpt-4o-mini,展示增强效果。此更新响应用户需求,为普通用户和专业人士提供更灵活的AI交互工具,已在官网上线,标志着OpenAI在AI技术发展中的新里程碑。
10、AI或取代程序员?科技领袖观点激辩未来
Anthropic CEO达里奥・阿莫迪预测,AI将在3-6个月内承担90%代码编写,12个月后或取代程序员,引发人力资源利用反思。IBM CEO阿尔文・克里希纳质疑此时间表,认为AI代码占比仅20%-30%,复杂任务仍需人类智慧。Meta CEO马克・扎克伯格预计变革延至2025年,谷歌则称AI已生成超25%新代码。尽管AI提升效率,美国劳工统计局预测软件开发就业2033年前增17%,科技巨头裁员却加剧担忧,乐观与悲观交织。
11、微软记事本内测AI摘要功能,一键提炼文本精华
微软在Windows记事本中测试AI摘要功能,用户可通过右键“汇总”、Ctrl+M或Copilot菜单,选中文本即生成简要概述。该功能支持调整摘要长度,需登录Microsoft账户使用,也可禁用。此前,记事本已试水AI重写工具。此次更新还新增查看最近关闭文件功能,并为剪切工具引入“绘制&按住”,可自动拉直截图标记形状,类似苹果功能,提升用户体验。测试限于Canary和Dev频道。
12、OpenAI指DeepSeek受中国控制,提议禁“PRC制造”模型
OpenAI在一份提交给特朗普政府“AI行动计划”的提案中,将中国AI实验室DeepSeek称为“国家补贴和控制”,建议美国禁止使用其及类似“中国制造”模型,称其因服从中国数据要求存在安全和隐私风险,包括知识产权盗窃。提案未明确指模型类型,DeepSeek的开源模型由微软等公司托管,未见数据窃取机制。此前OpenAI指责DeepSeek违反服务条款“蒸馏”其模型知识。DeepSeek虽无明确政府关联,但其创始人近期会见习近平,显示中国对其关注增加。
13、谷歌Pixel Sense AI助手年内推出,个性化体验再升级
谷歌据报将于年内推出Pixel Sense AI助手,随Pixel 10手机亮相。该助手整合日历、文档、照片等应用数据,提供更个性化、更具上下文的响应,支持处理文本、图像等多种媒体,并在设备端运行以提升速度与隐私。Pixel Sense还能加速任务完成、适应用户兴趣并给出定制建议。专家称其定位为“个人礼宾”,利用谷歌生态优势增强用户体验。此举反映科技公司竞相打造更智能助手的趋势,Pixel 10预计8月底发布,搭载新芯片与Android 16。
14、TikTok或携手Oracle应对美国禁令,截止2025年4月
TikTok可能与Oracle合作,应对美国要求其2025年4月前出售给本土公司的期限。自2022年起,TikTok已使用Oracle云存储美国用户数据,使其成为潜在合作伙伴。Oracle CEO拉里・埃利森是特朗普盟友,特朗普支持此交易,旨在满足去年的“剥离或禁令”法律。然而,字节跳动可能希望保留部分运营控制,中国政府对此交易的态度尚不明朗。随着截止日期临近,TikTok在美国的未来仍悬而未决,双方尚未正式回应。
15、安卓全球领跑,HarmonyOS在中国超iOS
2024年安卓继续全球主导智能手机操作系统,iOS位居第二,HarmonyOS第三。在中国,HarmonyOS全年超越iOS,市场份额稳定在4%,得益于政府补贴推动销售,预计2025年持续增长。安卓在美印市场第四季度份额创历史新低,但摩托罗拉和谷歌销量抵消小型公司下滑,iPhone销量仅跌1%。印度iPhone销量创新高,主因老款机型。HarmonyOS在中国表现强劲,但全球仍第三,未明确EMUI是否归类其中。
本文作者:junglehxj
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!