文字描述 – 冯金伟博客园

AI的看图能力，可能是编出来的

一个学生忽视了一行代码，结果发现了一件很不对劲的事：在一个多模态医学AI项目中，这行代码原本负责让模型读取图像数据。但因为这次疏忽，模型实际上完全没有看到任何图片。按理说系统应该报错，或者至少拒绝 … 继续阅读 AI的看图能力，可能是编出来的

上周Gemini刚上线了AI音乐生成功能，这周视频生成也跟着升级了，这次的重点是模板化。打开Gemini的工具菜单，选择"创建视频"，你会看到一个风格模板的九宫格画廊，每个模板都 … 继续阅读 Gemini上线视频模板功能

IT之家 2 月 20 日消息，DuckDuckGo 昨日（2 月 19 日）发布博文，宣布旗下隐私 AI 平台 Duck.ai 上线 AI 图像编辑功能，该功能可免费使用（有限额），且无需注册账户即 … 继续阅读免注册、免费用：DuckDuckGo上线AI修图功能

谁敢想？视觉推理这一块，大模型现在还嫩得像个3岁小孩。来自UniPat AI、xbench、阿里、月之暗面、阶跃星辰等多家研究机构的最新研究显示：在BabyVision视觉推理benchmark … 继续阅读最强大模型的视觉能力不如6岁小孩

豆包手机才发布半个多月，字节就发布了通用agent模型豆包 1.8。这是一个能在真实世界中“做事”的多模态大模型。豆包 1.8可以直接操作你的手机、电脑和浏览器。它能看懂屏幕上的按钮和界面，然后像人 … 继续阅读豆包“包圆”互联网

财联社12月11日讯（编辑赵昊）当地时间周三（12月10日），Adobe在官网宣布，公司推出适用于ChatGPT的Photoshop、Express和Acrobat。 Photoshop就是知名的图 … 继续阅读修图神器PS正式搬进ChatGPT：用户一句话即可进行编辑

近日，有外媒报道称，读心术即将成为现实，国外科学家成功将脑电波转化为文字。日本研究团队开发出一种技术，至少能针对一个人所见或所想生成描述性语句。这项技术发表于《科学进展》，名为"Mind C … 继续阅读读心术即将成为现实？科学家成功将脑电波转化为文字

IT之家 8 月 28 日消息，腾讯混元今天午间宣布开源端到端视频音效生成模型 Hunyuan-Foley，用户只需输入视频和文字，就能为视频匹配电影级音效。根据官方介绍，HunyuanVideo- … 继续阅读腾讯混元开源端到端AI模型Hunyuan-Foley：视频+文字=“电影级”音效

撰文/李炤峰编辑/王靖 “如果没有开源，没有去和社区交流，我们靠闭门造车是空想不出来的。”近日，在接受字母榜独家专访时，腾讯混元3D团队负责人郭春超这样说道。郭春超的感慨来自于在近期的开源社区中， … 继续阅读腾讯加速造“世界”