Skip to the content.

From 70 items, 30 important content pieces were selected

AI 与工具

  1. Epic Games 发布 Lore:专为游戏开发设计的开源版本控制系统 ⭐️ 8.0/10 · HN · 14:30
  2. GLM-5.2 成为开放权重模型新标杆 ⭐️ 8.0/10 · HN · 09:12
  3. 八位像素棒球直播:将 MLB 实时数据转化为复古游戏画面 ⭐️ 8.0/10 · HN · 16:44
  4. 美国科研体系动荡:资金枯竭与人才外流 ⭐️ 8.0/10 · HN · 09:54
  5. 大众汽车开始屏蔽 GrapheneOS 用户 ⭐️ 8.0/10 · HN · 15:04
  6. Charity Majors: AI 使代码生成免费即时,代码成一次性商品 ⭐️ 8.0/10 · Simon Willison · 17:12
  7. Datasette 1.0a34 加入行数据增删改 UI 功能 ⭐️ 8.0/10 · Simon Willison · 21:31
  8. 美国暂缓将 DeepSeek 列入黑名单,逾百家中企被列为安全风险 ⭐️ 7.0/10 · HN · 03:55
  9. YC 初创 Adam 发布开源 Text-to-CAD 平台 CADAM ⭐️ 7.0/10 · HN · 16:14
  10. IETF 发布 RFC 10008: 标准化 HTTP QUERY 方法 ⭐️ 7.0/10 · HN · 10:51

    数据仓库

  11. Iceberg v4 提案新增 varchar 和 char 类型 ⭐️ 7.0/10 · GitHub · 13:55
  12. Apache Iceberg 引入新鲜度感知表加载 API ⭐️ 7.0/10 · GitHub · 00:50
  13. Apache Iceberg 提议在提交时捕获并发送聚合 Parquet 页脚指标 ⭐️ 7.0/10 · GitHub · 15:58
  14. Iceberg REST 目录提议增加表标签元数据标准化 ⭐️ 7.0/10 · GitHub · 08:00
  15. Apache Iceberg 提议新增 Variant 数据类型 ⭐️ 7.0/10 · GitHub · 12:52
  16. Delta Lake 协议新增重定向规范变更提案 ⭐️ 7.0/10 · GitHub · 20:12
  17. Databricks 与 NVIDIA 合作加速 Agentic AI 系统开发 ⭐️ 7.0/10 · Databricks Blog · 19:50
  18. Databricks 推出 Unity AI Gateway 构建开放式 AI 治理生态 ⭐️ 7.0/10 · Databricks Blog · 10:00
  19. Databricks 新增 AI 平台功能:ML 工程代理、深度学习平台及实时 ML 能力 ⭐️ 7.0/10 · Databricks Blog · 08:44
  20. DuckDB v1.4.5 修复版发布,解决竞态条件等问题 ⭐️ 6.0/10 · GitHub · 10:42

    GitHub 趋势

  21. google-research/timesfm +712⭐: 谷歌研究发布 TimesFM 时间序列基础模型 ⭐️ 8.0/10 · GH Trending · 22:17
  22. n0-computer/iroh +422⭐: iroh 网络栈日增 422 星:拨密钥而非 IP ⭐️ 8.0/10 · GH Trending · 22:17
  23. Panniantong/Agent-Reach +1154⭐: Agent-Reach:零 API 费用的 AI 代理多平台搜索 CLI 工具 ⭐️ 7.0/10 · GH Trending · 22:17
  24. bytedance/UI-TARS-desktop +148⭐: 字节跳动开源多模态 AI 代理桌面应用 UI-TARS-desktop ⭐️ 7.0/10 · GH Trending · 22:17
  25. krahets/hello-algo +109⭐: 《Hello 算法》动画教程单日新增 109 星 ⭐️ 7.0/10 · GH Trending · 22:17
  26. penpot/penpot +94⭐: 开源设计工具 Penpot 在 GitHub 上单日获 94 星标 ⭐️ 7.0/10 · GH Trending · 22:17
  27. calesthio/OpenMontage +71⭐: OpenMontage:将 AI 编程助手转变为视频制作工作室的开源系统 ⭐️ 7.0/10 · GH Trending · 22:17
  28. mattpocock/skills +1570⭐: Matt Pocock 开源 Claude 技能脚本集,日获 1570+ 星 ⭐️ 6.0/10 · GH Trending · 22:17
  29. obra/superpowers +1205⭐: obra/superpowers:代理技能框架与开发方法论爆火 ⭐️ 6.0/10 · GH Trending · 22:17
  30. DeusData/codebase-memory-mcp +718⭐: DeusData/codebase-memory-mcp:高性能代码索引知识图谱 MCP 服务器 ⭐️ 6.0/10 · GH Trending · 22:17

AI 与工具

Epic Games 发布 Lore:专为游戏开发设计的开源版本控制系统 ⭐️ 8.0/10

Epic Games 宣布将其内部版本控制系统 Lore(原名 Unreal Revision Control)以 MIT 许可证开源,该系统专为游戏开发场景设计,支持大型二进制资产的版本管理与协作。 Lore 为游戏行业提供了开源替代方案,弥补了 Git 在处理纹理、模型等大型二进制文件时的不足,有望挑战 Perforce 的垄断地位,尤其利好使用 Unreal Engine 的开发团队。 Lore 采用可变键值存储与目录级访问控制,支持子仓库链接,并提供类似 Perforce 的文件锁定机制,以解决二进制文件的并发编辑冲突;它最初用于《堡垒之夜》虚幻编辑器(UEFN),现已逐步被 Epic 内部团队采用。

hackernews · regnerba · Jun 17, 14:30 · 社区讨论

背景: Git 在管理文本代码方面表现出色,但对于大型二进制文件(如纹理、3D 模型)效率很低,容易导致仓库臃肿。游戏开发普遍使用 Perforce,因其支持文件锁定和高效的大文件存储,但 Perforce 是商业软件。Lore 由 Epic Games 内部开发,旨在填补这一空白,提供开源且针对游戏开发的版本控制选择。

参考链接

社区讨论: 社区普遍看好 Lore,认为它精准解决了游戏开发中的文件锁定痛点,尤其是对 Unreal Engine 用户意义重大。有评论指出 Lore 并非全新项目,而是内部工具的开源化;部分开发者批评 Git 的用户体验,期待 Lore 能提供更友好的界面。

标签: #version-control, #game-development, #open-source, #perforce-alternative, #devtools


GLM-5.2 成为开放权重模型新标杆 ⭐️ 8.0/10

GLM-5.2 在 Artificial Analysis 智能指数中以 1524 分登顶开放权重模型榜首,超越 MiniMax-M3 和 DeepSeek V4 Pro,性能比肩 GPT-5.5 的最高设置。 这表明开放权重模型正快速逼近商业闭源模型的前沿水平,以极低成本提供高性能,可能打破市场格局,为开发者带来更多选择。 模型擅长长周期任务,支持 100 万 tokens 上下文,但社区测试显示推理效率有提升空间,一次简单编码任务耗费 15 分钟和 4.5 万 tokens。不过其官方 API 价格低廉,非官方渠道甚至更低。

hackernews · himata4113 · Jun 17, 09:12 · 社区讨论

背景: 开放权重模型指模型权重文件公开可下载,支持本地部署和二次开发,但通常不公开训练数据和代码。Artificial Analysis 是独立的 AI 模型评测平台,其智能指数综合数学、科学、编码、推理等九项评测,衡量整体能力。

参考链接

社区讨论: 社区对 GLM-5.2 评价积极,认为其接近前沿性能且价格极低,对闭源商业模型造成冲击。但也担心推理效率问题,在编码任务上性价比未必最优;有人指出非官方 API 价格更低,进一步放大优势。

标签: #open-weights, #LLM, #AI-models, #benchmarks, #GLM


八位像素棒球直播:将 MLB 实时数据转化为复古游戏画面 ⭐️ 8.0/10

一名开发者在 Hacker News 上展示了一个名为 ribbie.tv 的网站,该网站接收美国职业棒球大联盟(MLB)的实时数据流,并将其转换为近乎实时的 8 位像素艺术风格比赛直播。 该项目以一种极具创意且富有怀旧感的方式重新呈现体育数据,不仅展现了实时数据可视化的新可能,也为球迷提供了有别于传统转播的观看体验,可能启发更多体育数据的艺术化表达。 项目仍处于早期阶段,目前使用 AI 生成部分图像,引发了关于是否应采用真实像素字体和确定性降采样算法的讨论。直播画面包含了真实球场、昼夜模式、局间动画等细节,但并非官方视频流,而是基于数据的模拟。

hackernews · brownrout · Jun 17, 16:44 · 社区讨论

背景: MLB 通过 API 提供每场比赛的实时逐球数据,开发者可利用这些数据构建各种应用。8 位像素艺术是 80 年代电子游戏的经典视觉风格,近年因复古风潮在创意编程中重新流行。此项目结合两者,创造了一种无需视频画面即可“观看”比赛的方式。

社区讨论: 社区反馈总体积极,认为创意十足,尤其适合棒球的数据特性。许多评论者提出了具体改进建议:采用非 AI 的确定性图像生成算法、添加逐球回放和音效、优化局间切换体验等。也有人分享了基于相同 API 的实体记分板项目,展现了该数据源的广泛用途。

标签: #baseball, #visualization, #pixel-art, #live-data, #show-hn


美国科研体系动荡:资金枯竭与人才外流 ⭐️ 8.0/10

美国科学与政治之间的历史性契约破裂,科研资金大幅削减、签证限制趋严,导致众多科学家计划或已经开始离开美国,科研项目停滞。 此事标志着美国科研领导力的根本性动摇,可能加速全球人才格局重组,削弱美国在前沿领域的创新优势,并对依赖联邦资助的学术机构造成长期打击。 具体表现包括:R01 等关键资助类别无法续期,外国研究生因签证问题无法按计划赴美,部分精密仪器专家(如全球约 2000 名光镊操作者之一)已决定移民。

hackernews · presspot · Jun 17, 09:54 · 社区讨论

背景: 二战后,美国联邦政府与科研界形成非正式契约:政府提供稳定资金,科研界产出知识与技术。长期以来,美国依赖国际人才流入维持科研活力。近年来,政治极化与预算优先序变动逐渐侵蚀这一模式。

社区讨论: 社区讨论中,一线研究者普遍反映压力骤增,有人因资助中断被迫转为兼职,也有团队转向民间募资寻找新路。部分人认为混乱中蕴含机会,但多数表达了对科研环境恶化的深切忧虑。

标签: #science-policy, #research-funding, #academia, #political-impact, #brain-drain


大众汽车开始屏蔽 GrapheneOS 用户 ⭐️ 8.0/10

大众汽车近期限制了其 API 访问,要求设备必须通过 Google Play Protect 认证,导致 GrapheneOS 等未认证系统用户无法使用官方应用及第三方集成功能。 此举对隐私导向的开源操作系统用户造成直接冲击,扼杀了基于该 API 的社区创新项目,凸显出汽车厂商封闭生态对用户自主权和开放创新的威胁。 大众封锁了所有未经 Play Protect 认证设备的 API,通过 Home Assistant 等社区项目实现的远程控制、定时预热等功能失效。官方应用被指广告繁多、功能简陋。

hackernews · microtonal · Jun 17, 15:04 · 社区讨论

背景: GrapheneOS 是基于 Android 的隐私安全增强型开源移动操作系统,拥有约 40 万活跃用户,但不包含 Google 服务,因此无法获得 Play Protect 认证。Play Protect 认证是 Google 确保设备安全性与兼容性的机制,只有通过认证的设备才能预装 Google 官方应用。大众汽车以此作为 API 访问的前提,本质是依赖认证状态来判断设备完整性。

参考链接

社区讨论: 社区普遍对大众表达不满,认为官方应用体验差、广告多,API 封锁扼杀了社区驱动的实用集成。部分用户因此暂停购车计划,也有声音批评欧盟法规强制安装的驾驶辅助设备反而分散注意力、降低安全性。

标签: #GrapheneOS, #privacy, #automotive, #API, #security


Charity Majors: AI 使代码生成免费即时,代码成一次性商品 ⭐️ 8.0/10

Charity Majors 指出,2025 年代码生产的经济学发生了根本转变。代码生成变得几乎免费且即时,代码从被珍视、复用和精心维护的资产,一夜之间变成了可随意丢弃和再生的商品。 这一转变挑战了传统的软件工程实践,可能影响代码质量和维护策略,并推动软件行业向更‘一次性’的开发模式演进,对依赖手工编码的生产力和经济模型产生深远影响。 虽然代码生成变得容易,但 Majors 认为这反而要求更高的工程纪律,因为生成代码的正确性和可靠性仍需人工审查。

rss · Simon Willison · Jun 17, 17:12

背景: 传统上,编写代码是一项耗时耗力且成本高昂的工作,因此代码被视为需要精心维护和复用的宝贵资产。随着 AI 辅助编程工具的兴起,尤其是大型语言模型的出现,代码生成的效率大幅提升,这一变化正在重塑软件开发的底层经济逻辑。

标签: #ai, #generative-ai, #ai-assisted-programming, #software-engineering, #economics


Datasette 1.0a34 加入行数据增删改 UI 功能 ⭐️ 8.0/10

Datasette 1.0a34 alpha 版本在表格页面和行页面增加了插入、编辑和删除行的用户界面功能。 这填补了 Datasette 长期缺失的写入交互能力,让用户可以直接在工具内修改 SQLite 数据库,是迈向 1.0 的重要里程碑。 插入、编辑和删除操作可在表格页面进行;编辑和删除还可作为行页面操作项使用。功能灵感来自 Datasette Agent 的 SQL 写入支持。

rss · Simon Willison · Jun 16, 21:31

背景: Datasette 是一款用于探索和发布 SQLite 数据库的开源工具。Datasette Agent 则是一个通过聊天界面辅助数据操作的 AI 助手。此前 Agent 已支持写入数据库,但普通 Datasette 界面一直仅限只读,1.0a34 版本终于弥补了这一不足。

参考链接

标签: #datasette, #sqlite, #data-exploration, #open-source, #release


美国暂缓将 DeepSeek 列入黑名单,逾百家中企被列为安全风险 ⭐️ 7.0/10

2026 年 6 月 17 日,美国商务部决定暂不将中国 AI 公司 DeepSeek 加入实体清单,但同时将超过 100 家中国企业认定为对美国国家安全构成风险。 此举显示美国在对华科技博弈中采取选择性施压策略,DeepSeek 作为低成本高性能 AI 模型的代表,其暂未被制裁可能为全球 AI 合作留出窗口,但大量中国企业被列为风险则凸显中美在 AI 领域的持续紧张态势。 DeepSeek 凭借其极低的 API 定价(每百万输出 token 仅 0.87 美元,远低于 OpenAI 等公司的 30-50 美元)和高效训练方法,在受限芯片条件下实现了前沿性能;虽然未被列入实体清单,但其 AI 硬件获取已受出口管制影响,且未来仍可能面临更严厉限制。

hackernews · giuliomagnifico · Jun 17, 03:55 · 社区讨论

背景: DeepSeek 是一家 2023 年成立的中国 AI 公司,专注于开发大语言模型,其开源模型 DeepSeek-R1 以极低的训练成本(约 600 万美元)实现了比肩 GPT-4 的性能,引发行业震动。美国出于国家安全和技术竞争考虑,长期限制高端 AI 芯片对华出口,并通过实体清单制度管控敏感技术。实体清单上的企业会面临出口许可要求,但这并不完全禁止双边贸易。此前,另一家中国 AI 公司智谱 AI 已于 2025 年 1 月被列入实体清单。

参考链接

社区讨论: 社区讨论呈现多元观点:有用户指出部分中国 AI 公司早已在实体清单上,且制裁并不完全禁止交易;有人认为中国 AI 企业通过极低定价吸引西方用户,本质上是战略渗透;也有观点质疑美国此举是保护国内 AI 企业、遏制竞争的手段。整体上,讨论涉及技术自主性、地缘博弈与商业竞争等层面。

标签: #AI, #geopolitics, #DeepSeek, #regulation, #China


YC 初创 Adam 发布开源 Text-to-CAD 平台 CADAM ⭐️ 7.0/10

YC W25 初创公司 Adam 发布了开源 Text-to-CAD 平台 CADAM,可通过自然语言或图像生成 OpenSCAD 参数化 3D 模型,并提供交互式尺寸调节滑块。 此举将 AI 辅助设计拓展至机械 CAD 领域,有潜力降低建模门槛并加速原型制作;但社区对其实际效用与 LLM 空间推理能力表示怀疑,引发广泛讨论。 平台采用智能体端点双模式(参数化与网格),通过 Vercel AI SDK 兼容多模型,滑块调节无需 LLM 调用,并在浏览器中将 OpenSCAD 编译为 WebAssembly 运行。未来计划支持 build123d 和 CadQuery,但 LLM 空间推理弱的问题依然突出。

hackernews · zachdive · Jun 17, 16:14 · 社区讨论

背景: OpenSCAD 是一款基于脚本的免费 3D CAD 建模软件,通过代码定义几何体并执行布尔运算。Text-to-CAD 利用 AI 将文本描述转换为三维模型,是生成式 AI 在设计领域的新兴应用。当前 LLM 在空间推理方面存在挑战,影响生成复杂装配体的可靠性。

参考链接

社区讨论: 社区反应不一:有人赞赏其开源特性和升级,但许多工程师质疑其实用性,认为 LLM 空间推理能力不足、生成结果不可靠,且缺乏约束与公差支持,现阶段难以节省设计时间。

标签: #open-source, #AI, #CAD, #text-to-CAD, #startup


IETF 发布 RFC 10008: 标准化 HTTP QUERY 方法 ⭐️ 7.0/10

IETF 发布了 RFC 10008,正式定义了一种新的 HTTP 方法 QUERY。该方法允许在请求体中携带查询内容,同时保持安全(safe)和幂等(idempotent)语义,弥补了 GET 和 POST 的不足。 QUERY 方法解决了长期以来需要安全、可缓存的复杂查询请求(如 GraphQL 或大型 JSON 过滤)的困境。它将改善 API 设计,使查询请求更符合 HTTP 语义,并有望提升可缓存性和安全性。 QUERY 必须安全且幂等,服务器需保证无副作用。缓存策略需考虑请求体,可能使用按位比较,这引发了关于无界缓存键的担忧。目前,HTML 表单和各类框架尚未普遍支持该方法。

hackernews · schappim · Jun 17, 10:51 · 社区讨论

背景: 传统 HTTP 中,GET 虽安全、幂等,但不应包含请求体;POST 可含请求体,但不具备安全/幂等性,导致开发者常以非标准方式使用 GET 请求体,或用 POST 进行查询,但后者难以缓存且可能产生副作用。QUERY 方法的提出正是为了填补这一空白。

参考链接

社区讨论: 社区讨论整体积极,但提出了几点关切:缺少令人信服的示例来说明 QUERY 的必要性;将请求体作为缓存键可能导致无界且用户可控的缓存键;有人期待 HTML 表单能支持 method=”query” 以避免刷新重提交;还有人指出 IETF 工作组曾考虑过允许 GET 携带请求体,但最终因互操作性问题而否决。

标签: #HTTP, #standards, #web-development, #RFC, #caching


数据仓库

Iceberg v4 提案新增 varchar 和 char 类型 ⭐️ 7.0/10

Apache Iceberg 的 PR #16829 提议在 v4 规范中增加 varchar(N) 和 char(N) 两种基本类型,以增强对传统 SQL 引擎的兼容性。 该提案将显著提升与 Oracle、SQL Server 等传统数据库的互操作性,并可直接利用 Spark 和 Trino 等引擎已有的实现,简化数据迁移和联邦查询。 这些类型已在 Spark 3.1.0 和 Trino 中原生支持;在 Iceberg 中,它们将作为字符串的变体,分别表示可变长度和固定长度的字符序列,长度上限 N 可选。

github · ebyhr · Jun 17, 13:55

背景: Apache Iceberg 是一种面向数据湖的开源表格式,提供事务、模式演化等关键能力。传统 SQL 数据库普遍使用 char 和 varchar 作为精确长度控制的字符类型,而 Iceberg 此前仅支持通用的 string 类型,导致跨系统集成时类型映射困难。该提案属于 Iceberg v4 系列改进之一,旨在完善基础类型系统。

参考链接

标签: #apache-iceberg, #specification, #data-engineering, #sql, #types


Apache Iceberg 引入新鲜度感知表加载 API ⭐️ 7.0/10

Apache Iceberg 在 REST 目录中新增了新鲜度感知表加载 API,客户端可检查元数据是否变更,仅在需要时执行全量表加载,避免不必要的重复刷新。 此优化可显著减少查询引擎等客户端与 Iceberg 表交互时的元数据加载开销,提升大数据分析性能,尤其对频繁查询大型表的场景尤为重要,同时降低了目录服务的资源消耗。 该 API 使用 ETag 机制判断元数据新鲜度,客户端侧改善(commit #14398)支持懒加载快照,仅更新变更部分,避免了全量快照列表的加载。

github · gaborkaszab · Jun 14, 00:50

背景: Apache Iceberg 是一种高性能开放表格式,用于管理数据湖中的大型分析表。Iceberg 的 REST 目录为跨语言的引擎提供了统一的 HTTP 接口以访问表元数据。传统上,查询引擎会缓存表元数据,但为保持一致性可能反复全量加载,增加网络和解析开销。新鲜度感知加载机制类似于 HTTP 条件请求,通过 ETag 等版本标识实现增量更新,仅在有变更时传输最新元数据。

参考链接

标签: #apache-iceberg, #rest-catalog, #metadata-caching, #performance, #table-format


Apache Iceberg 提议在提交时捕获并发送聚合 Parquet 页脚指标 ⭐️ 7.0/10

该功能请求提出一个可选机制,在数据写入过程中从 Parquet 页脚捕获聚合的物理存储指标,并在提交时通过 Iceberg 的事件框架发送出去,而无需将这些指标持久化到表元数据中。 这使得监控和可观测性得到增强,能够跟踪数据文件的存储级统计信息(如值计数、空值计数等),有助于性能调优、成本分析和数据质量监控,且不增加元数据存储开销。 捕获的指标包括列级别的 value_counts、null_value_counts、nan_value_counts 等,均来自 Parquet 页脚;该功能为可选启用,指标仅通过事件框架异步发送,不会写入 Iceberg 表元数据。

github · gtrettenero · Jun 3, 15:58

背景: Apache Iceberg 是一种用于大规模分析表的高性能开放表格式,支持多种计算引擎。Parquet 是一种列式存储格式,其文件页脚(footer)中存储了每列的统计信息,如最小/最大值、空值计数等,可用于查询优化。Iceberg 的事件框架允许在表操作(如提交)时发送事件,以便外部系统监听和处理。本提议利用这一框架,在写入数据时提取这些统计信息并通过事件发出,无需修改 Iceberg 元数据。

参考链接

标签: #Apache Iceberg, #Parquet, #data engineering, #metrics, #monitoring


Iceberg REST 目录提议增加表标签元数据标准化 ⭐️ 7.0/10

Apache Iceberg 社区在 issue #15521 中提出,在 REST 目录的 LoadTableResponse 中增加一个可选的 labels 字段,用于标准化传递表的所有权、分类和成本归属等目录级元数据。 这一提案将改善不同计算引擎之间的互操作性,避免厂商特定的扩展,让开源引擎也能消费这些上下文信息,有助于实现统一的数据治理。 labels 字段将作为一个可选的键值对映射,承载目录维护的元数据,但提案尚未详细说明字段的具体结构和实现限制。

github · laskoviymishka · May 12, 08:00

背景: Apache Iceberg 是一种开放的表格式,支持多种计算引擎访问数据。Iceberg 的 REST 目录规范定义了一组 RESTful API,用于管理表元数据和执行目录操作。LoadTableResponse 是其中用于加载表信息的关键响应,目前返回表的模式、快照等信息,但缺乏传递目录级上下文的标准方式。

参考链接

标签: #apache-iceberg, #table-format, #metadata, #catalog, #interoperability


Apache Iceberg 提议新增 Variant 数据类型 ⭐️ 7.0/10

Apache Iceberg 社区提出增加 Variant 数据类型,以二进制格式高效编码 JSON 等半结构化数据,保留数据灵活性的同时提升查询引擎的操作效率。 该特性直接回应了数据湖中大量半结构化数据处理的痛点,能显著提升查询性能,对依赖 Iceberg 的数据工程师和分析师具有重要价值。 Variant 类型通过二进制内部表示来优化半结构化数据的存储与查询,但目前还只是提案(issue #10392),具体实现和兼容性细节尚未披露。

github · sfc-gh-aixu · Apr 30, 12:52

背景: Apache Iceberg 是一种开放表格式,为数据湖提供 ACID 事务、模式演化等功能。半结构化数据(如 JSON)通常以文本列存储,查询时需解析整个文本,性能较差。Variant 类型借鉴了 Snowflake 等系统的思路,通过二进制编码实现对半结构数据的高效读写,无需固定模式。

参考链接

标签: #Apache Iceberg, #data types, #semi-structured data, #variant, #performance


Delta Lake 协议新增重定向规范变更提案 ⭐️ 7.0/10

Delta Lake 协议变更提案 #3705 详细阐释了重定向特性,包括其功能定义、启用和禁用流程,以及查询重定向的工作流。 该协议变更有望标准化 Delta Lake 的重定向行为,提升跨引擎和工具的互操作性,对数据湖存储架构的演进具有重要影响。 提案目前尚未最终确定,GitHub 上暂无社区讨论反馈。技术细节涵盖特性定义、启用/禁用步骤以及查询重定向的完整流程。

github · kamcheungting-db · Mar 14, 20:12

背景: Delta Lake 是一个开源存储层,为数据湖提供 ACID 事务、可扩展的元数据处理等能力,其事务日志采用开放协议,任何系统均可读取。协议变更通常涉及对事务日志格式或行为规范的更新,重定向可能指将读取请求导向不同数据版本或位置的功能。

参考链接

标签: #delta-lake, #protocol, #specification, #redirection, #data-engineering


Databricks 与 NVIDIA 合作加速 Agentic AI 系统开发 ⭐️ 7.0/10

Databricks 与 NVIDIA 宣布建立合作伙伴关系,将利用 NVIDIA 的加速计算平台共同加速 Agentic AI 系统的开发,但双方未披露具体产品细节。 此次合作将 Databricks 的数据与 AI 平台能力同 NVIDIA 的硬件加速优势结合,有望降低企业构建自主 AI 智能体的门槛,推动 Agentic AI 在业界的规模化落地。 合作计划基于 NVIDIA 的加速计算全栈,但具体整合方案、新产品或时间表尚未公布,外界预期会涉及 GPU 资源及软件栈的优化支持。

rss · Databricks Blog · Jun 17, 19:50

背景: Agentic AI 指能够自主或半自主感知环境、推理并采取行动的人工智能系统,通常基于生成式 AI 技术,可调用工具完成复杂任务。Databricks 是面向数据分析与机器学习的统一平台,NVIDIA 则通过其 GPU 和 CUDA 生态在加速计算领域占据主导地位。

参考链接

标签: #AI agents, #Databricks, #NVIDIA, #partnership, #accelerated computing


Databricks 推出 Unity AI Gateway 构建开放式 AI 治理生态 ⭐️ 7.0/10

Databricks 发布了 Unity AI Gateway,这是一个用于生产环境中 AI 系统的开放式治理解决方案,旨在帮助组织在规模化部署 AI 时实现统一的监控、控制与合规。 随着企业 AI 应用从实验走向生产,治理碎片化成为瓶颈;Unity AI Gateway 通过开放生态避免厂商锁定,让安全、合规与成本管理贯穿所有 AI 资产,直接影响到数据团队与 MLOps 实践者。 该网关可对部署到 Databricks Apps、LLM 端点、MCP 服务器及模型服务端点中的 AI 代理进行统一治理与监控,确保安全与合规。

rss · Databricks Blog · Jun 17, 10:00

背景: 企业将 AI 投入生产时,模型、代理与应用激增,带来安全、合规与成本管控的复杂性。Unity AI 是 Databricks 的统一 AI 平台,而 Unity AI Gateway 作为其治理核心,旨在提供一个横跨所有 AI 资产的一致性管控接口。

参考链接

标签: #AI governance, #Databricks, #open ecosystem, #MLOps, #production AI


Databricks 新增 AI 平台功能:ML 工程代理、深度学习平台及实时 ML 能力 ⭐️ 7.0/10

Databricks 宣布推出面向 ML 工程的智能代理 Genie Code 的升级版,集成特征工程、模型训练、服务和监控等全生命周期;同时推出 AI Runtime 公开预览版,提供无服务器 GPU 训练环境,可用于大规模深度学习训练与微调;并增强了用于实时机器学习的特征与模型服务能力。 这些更新将简化机器学习工程师的工作流程,降低大规模深度学习基础设施管理的复杂度,并提升实时机器学习应用的扩展性和性能,巩固 Databricks 作为统一数据与 AI 平台的地位。 Genie Code 现在原生集成了 Databricks ML 平台的各个组件;AI Runtime 在公开预览阶段提供无服务器 GPU 训练,用户无需管理底层基础设施;实时 ML 功能通过 Feature Serving 和 Model Serving 服务于生产环境。

rss · Databricks Blog · Jun 17, 08:44

背景: Databricks 是一个基于湖仓一体架构的数据智能平台,提供从数据准备、模型训练到部署监控的全套机器学习工具。其最新动向是将 AI 代理引入 ML 工程,帮助开发者自动化重复性任务;深度学习平台则借助 GPU 优化,支持 PyTorch、TensorFlow 等框架的分布式训练;实时 ML 能力旨在弥合批处理与在线推理之间的鸿沟,满足低延迟预测需求。

参考链接

标签: #AI, #Machine Learning, #Deep Learning, #Real-time ML, #Databricks


DuckDB v1.4.5 修复版发布,解决竞态条件等问题 ⭐️ 6.0/10

DuckDB v1.4.5 是一个错误修复版本,主要解决了自 v1.4.4 以来发现的竞态条件、秘密管理器重复初始化、转义处理错误、存储整数解码溢出以及 CSV 读取器边界值读取等问题。 该版本修复了多项可能导致崩溃或数据不一致的稳定性问题,对于使用 DuckDB 的生产环境尤为重要,建议用户尽快升级。 此版本包含大量从主分支向后移植的修复,包括对索引表在重复加载插入循环中无界行组增长的修复、CSV 读取器边界值读取修复,以及整数解码溢出检测。此外,更新了多个扩展(如 lance、avro 等),并改进了对 Windows 32 位和 Emscripten 的支持。

github · lnkuiper · Jun 17, 10:42

背景: DuckDB 是一个开源的内嵌式列式关系数据库,专为分析型查询优化,常用于数据科学和本地分析场景。其版本发布遵循语义化版本控制,v1.4.5 是对 v1.4 系列的维护更新,旨在提高稳定性而非引入新功能。

参考链接

标签: #DuckDB, #database, #release, #bug-fix, #SQL