Skip to the content.

From 55 items, 30 important content pieces were selected

AI 与工具

  1. LinkedIn 假招聘诱骗开发者执行 npm 后门 ⭐️ 8.0/10 · HN · 20:00
  2. Iroh 1.0 稳定版发布:应用层对等网络库 ⭐️ 8.0/10 · HN · 15:13
  3. 本地 LLM 替代 Claude/GPT 编码:HN 社区经验分享 ⭐️ 8.0/10 · HN · 14:46
  4. Hetzner 宣布云服务器价格调整 ⭐️ 8.0/10 · HN · 13:19
  5. 福克斯拟收购 Roku 引发广告与偏见担忧 ⭐️ 8.0/10 · HN · 12:50
  6. 家庭 AI 开发平台搭建经验分享 ⭐️ 7.0/10 · HN · 15:09
  7. 《指挥官基恩》游戏引擎白皮书:PC 平滑滚动先驱解析 ⭐️ 7.0/10 · HN · 17:52
  8. AI 并未也并不会替代软件工程师 ⭐️ 7.0/10 · Simon Willison · 23:54
  9. TinyWind:模拟风物理的像素海盗游戏引发热议,真实性受质疑 ⭐️ 6.0/10 · HN · 16:15
  10. “他们坑了我们”:个性冲突致 Anthropic 模型下线 ⭐️ 6.0/10 · Simon Willison · 14:57

    数据仓库

  11. Apache Iceberg 拟新增 Variant 类型以高效处理半结构化数据 ⭐️ 8.0/10 · GitHub · 12:52
  12. Apache Iceberg 提出为 VARIANT 列引入虚拟字段元数据 ⭐️ 8.0/10 · GitHub · 03:00
  13. Apache Iceberg REST 目录新鲜度感知表加载机制 ⭐️ 7.0/10 · GitHub · 00:50
  14. Apache Iceberg 提议增加 Flink 水印和计算列元数据支持 ⭐️ 7.0/10 · GitHub · 03:53
  15. Delta Lake 协议变更提案:新增表重定向特性 ⭐️ 7.0/10 · GitHub · 20:12
  16. 通过有状态流处理构建符合 EU AI Act 的 AI 代理 ⭐️ 7.0/10 · Confluent Blog (Kafka/Flink) · 21:40
  17. 实时 RAG 流平台自建与购买决策指南 (2026) ⭐️ 7.0/10 · Confluent Blog (Kafka/Flink) · 21:40
  18. ClickHouse 开源十周年:成为最受欢迎的分析型数据库 ⭐️ 7.0/10 · ClickHouse Blog · 13:25
  19. Datadog 与 ClickHouse 合作,实现全量日志数据留存与分析 ⭐️ 7.0/10 · ClickHouse Blog · 07:52
  20. 提议为 Iceberg V4 增加 Tags 字段 ⭐️ 6.0/10 · GitHub · 00:44

    GitHub 趋势

  21. NVIDIA/SkillSpector +1079⭐: NVIDIA 开源 AI 代理技能安全扫描器 SkillSpector ⭐️ 8.0/10 · GH Trending · 22:31
  22. mikeroyal/Self-Hosting-Guide +256⭐: mikeroyal 自托管指南单日收获 256 星 ⭐️ 8.0/10 · GH Trending · 22:31
  23. krahets/hello-algo +95⭐: 《Hello 算法》开源教程单日获 95 星,动画图解数据结构与算法 ⭐️ 8.0/10 · GH Trending · 22:31
  24. Introduction-to-Autonomous-Robots/Introduction-to-Autonomous-Robots +488⭐: 自主机器人开源教材单日揽 488 星 ⭐️ 7.0/10 · GH Trending · 22:31
  25. iptv-org/iptv +2650⭐: iptv-org/iptv 项目单日星标暴涨 2650 颗 ⭐️ 6.0/10 · GH Trending · 22:31
  26. Panniantong/Agent-Reach +1045⭐: Agent-Reach:AI 代理零成本读取多平台内容 ⭐️ 6.0/10 · GH Trending · 22:31
  27. rohitg00/ai-engineering-from-scratch +538⭐: 从零学 AI 工程的 GitHub 仓库今日新增 538 星 ⭐️ 6.0/10 · GH Trending · 22:31
  28. chatwoot/chatwoot +431⭐: Chatwoot 开源客服平台单日新增 431 颗 GitHub 星标 ⭐️ 6.0/10 · GH Trending · 22:31
  29. shiyu-coder/Kronos +395⭐: Kronos:金融语言基础模型项目获 395 星标 ⭐️ 6.0/10 · GH Trending · 22:31
  30. jwasham/coding-interview-university +352⭐: jwasham/coding-interview-university 今日获 352 星 ⭐️ 6.0/10 · GH Trending · 22:31

AI 与工具

LinkedIn 假招聘诱骗开发者执行 npm 后门 ⭐️ 8.0/10

一名冒充加密货币初创公司招聘者的攻击者,通过 LinkedIn 向开发者发送恶意 GitHub 仓库,声称需要审查已废弃的 Node 模块,仓库中的 package.json 利用 npm 的 prepare 生命周期钩子在 npm install 时自动执行远程控制后门。 该攻击将高度定制化的社会工程学与供应链利用相结合,直接针对开发者的求职信任,若不警惕,大量开发者可能中招,凸显了网络犯罪举报机制和开发者安全意识的缺失。 后门载荷隐藏在大量注释掉的测试代码中,npm 的 prepare 脚本会在安装依赖后自动触发,只需克隆仓库并执行 npm install 即可被入侵;攻击者使用相同的域名在数月前已实施过类似攻击。

hackernews · lwhsiao · Jun 15, 20:00 · 社区讨论

背景: npm 允许在 package.json 中定义 preinstall、postinstall、prepare 等生命周期脚本,这些脚本会在软件包安装时自动运行,曾被用于许多供应链攻击。开发者通常出于习惯或任务要求,在检查仓库内容前直接运行 npm install,从而无意间执行恶意代码。

参考链接

社区讨论: 评论普遍认为这是明确的犯罪行为,但缺乏统一的网络犯罪举报渠道;攻击手法与正常面试任务高度相似,容易让人降低戒心;尽管已向 GitHub 和 LinkedIn 举报,恶意仓库和账号仍存活,引发对微软响应速度的批评;社区还发现同一域名数月前已在 Reddit 出现,表明攻击具有持续性。

标签: #security, #social-engineering, #npm, #backdoor, #job-scam


Iroh 1.0 稳定版发布:应用层对等网络库 ⭐️ 8.0/10

开源库 Iroh 发布了其首个稳定版本 1.0,使开发者能够在应用层实现直接的点对点连接,无需依赖外部账户,类似 Tailscale 的功能但内嵌于应用中。 这简化了去中心化应用的开发,消除了对中心化基础设施或用户账户的依赖,降低了构建 P2P 功能的技术门槛,对隐私保护和去中心化应用生态有重要推动。 目前 Iroh 原生支持 IPv4、IPv6 和中继传输,开发者可通过自定义传输接口扩展 WebRTC、BLE 等协议。库采用 Rust 编写,使用加密拨号密钥确保连接安全,主要局限在于尚无内置的广域网穿透传输支持。

hackernews · chadfowler · Jun 15, 15:13 · 社区讨论

背景: Iroh 是一个 Rust 编写的开源库,专为应用层点对点网络设计。与传统 VPN 工具 Tailscale 不同,Tailscale 在网络层建立网状 VPN 且需要用户账户,而 Iroh 将连接能力直接嵌入应用,无需外部服务。开发者可以构建类似 Tailscale 的直接通信功能,而用户无需注册额外账户,更适用于去中心化应用和对隐私敏感的场景。

参考链接

社区讨论: 社区反响热烈,许多开发者将其与 Tailscale 比较,认为它在应用层的定位更具优势。部分评论对拨号密钥的加密机制表示困惑,也有开发者质疑其必要性,认为现有 IP 协议已足够。Iroh 开发者回应称已支持自定义传输,未来可能扩展更多协议。整体讨论积极,但存在一些对定位和技术细节的疑问。

标签: #peer-to-peer, #networking, #open-source, #rust, #library


本地 LLM 替代 Claude/GPT 编码:HN 社区经验分享 ⭐️ 8.0/10

Hacker News 上发起了一场高热度讨论,询问开发者是否已将日常编码助手从 Claude/GPT 切换为本地大模型,众多用户分享了将云端 AI 替换为本地 LLM 的具体配置与性能表现。 该讨论反映了开发者对隐私保护和成本控制的重视,展示了本地 LLM 在编码任务中已具备实用性,可能推动更多开发者摆脱云端订阅,转向自主可控的 AI 方案。 用户分享的典型配置包括 Mac Studio 128GB 内存、双 RTX3090 显卡等高端硬件;模型方面,使用 Qwen3.6 35b 仅激活 3b 参数以提速,推理速度可达~150 tok/s;工具链涉及 Pi harness、LM Studio、AMD Lemonade 等。但也有反馈称 36GB 内存设备上性能有限,上下文易耗尽。

hackernews · cloudking · Jun 15, 14:46

背景: 本地 LLM 是指直接运行在个人计算机或服务器上、无需依赖云端服务的大语言模型。相比 Claude、GPT 等闭源云端模型,本地 LLM 能保障代码隐私,避免按 Token 计费,但通常需要较高硬件配置,尤其显存要充足。近年来,随着 Qwen、Gemma 等开源模型和 llama.cpp、Ollama 等推理框架的成熟,本地运行 LLM 的编码体验已有显著提升。

参考链接

社区讨论: 社区整体反响积极,多数用户分享了成功切换的案例,强调隐私与零成本优势。部分人指出高端硬件投入成本高,与订阅费相比需权衡;小内存设备上性能不佳,复杂任务仍需云端前沿模型。讨论也提到 AMD Lemonade 等多模型统一管理平台简化了本地运行栈。

标签: #local LLMs, #coding tools, #AI assistants, #developer experience, #privacy


Hetzner 宣布云服务器价格调整 ⭐️ 8.0/10

Hetzner 官方宣布对其云服务器产品进行价格标准化调整,部分配置涨幅显著,有用户指出价格涨幅高达约 3 倍。 此次调价反映了全球硬件成本上涨和 AI 热潮对云基础设施的影响,体现了小型云服务商面临的供应链压力,可能推动用户重新评估云服务选择。 调价涉及云服务器产品线,用户注意到内存和硬盘等硬件成本急剧上升,称 Hetzner 近三年未发布新硬件,可能是为应对成本压力。

hackernews · tuhtah · Jun 15, 13:19 · 社区讨论

背景: Hetzner 是一家德国云服务提供商,以性价比高著称。近年来,AI 和机器学习工作负载激增,导致对 GPU、内存和存储等硬件的需求大幅增长,全球硬件供应链紧张,成本上升,迫使云服务商调整定价。

社区讨论: 社区普遍对大幅调价表示震惊和不满,用户探讨了 AI 繁荣导致的硬件短缺和成本上升,有人质疑 AI 带来的收益与代价,还有人指出 Hetzner 硬件更新迟缓,可能加剧成本转嫁。

标签: #cloud computing, #pricing, #Hetzner, #AI, #hardware


福克斯拟收购 Roku 引发广告与偏见担忧 ⭐️ 8.0/10

福克斯公司正计划收购流媒体平台 Roku,这一消息引发了用户对广告增加、平台中立性丧失以及潜在内容偏见的担忧。 Roku 作为覆盖数千万美国主流家庭的流媒体入口,若被大型媒体集团福克斯收购,可能破坏其服务无关的开放生态,影响行业竞争与用户体验,引发反垄断关注。 用户评论指出,Roku 早已存在广告问题,此次收购可能进一步强化广告植入;部分技术用户已转向 Google TV 或通过自定义启动器屏蔽广告的 Nvidia Shield,以避免干扰。

hackernews · thm · Jun 15, 12:50 · 社区讨论

背景: Roku 是美国主流的流媒体硬件与平台,以不偏袒任何内容提供商的开放聚合模式著称。福克斯公司则是大型媒体集团,旗下拥有 Fox News 等内容资产。收购意味着内容巨头将直接掌控硬件入口渠道。

社区讨论: 社区普遍悲观,认为福克斯不应获准直接触及数千万家庭的电视硬件,担心平台中立消失、广告泛滥甚至出现“Fox News”按钮,许多用户已在迁移到 Chromecast 或 Nvidia Shield 等替代方案。

标签: #streaming, #acquisition, #media, #roku, #antitrust


家庭 AI 开发平台搭建经验分享 ⭐️ 7.0/10

一位开发者分享了使用开源工具搭建个人家庭实验室 AI 开发平台的完整过程,并在社区中引发了关于类似工作流和替代方案的讨论。 该分享为希望搭建个人 AI 开发环境的用户提供了实用参考,推动了自托管和开源解决方案的普及,反映出个人 AI 基础设施构建的需求日益增长。 文章提及了使用 OpenCode 等工具构建持久化 AI 编程服务器,社区中有人讨论了与 Forgejo 动作运行器集成、资源需求及本地测试速度等实际考量。

hackernews · rsgm · Jun 15, 15:09 · 社区讨论

背景: 家庭实验室(Homelab)指爱好者在家庭环境中搭建的服务器或网络设备系统,用于学习、实验和自托管服务。AI 编程助手(如 OpenCode)能够辅助开发者编写、审查代码或处理任务。自行构建 AI 开发平台可以更好地控制数据隐私、降低成本,并深入理解技术细节。近期开源工具的成熟使个人用户也能构建功能丰富的 AI 开发环境。

社区讨论: 社区反应积极,多位用户表示自己正在进行类似的项目,并分享了各自的工作流变体。讨论涉及使用 Forgejo 动作运行器集成 OpenCode、资源分配与测试效率的平衡,以及 n8n 等自动化工具的替代方案。整体氛围体现出个人 AI 开发平台正在成为技术爱好者的共同探索方向。

标签: #homelab, #AI, #devtools, #self-hosted, #open-source


《指挥官基恩》游戏引擎白皮书:PC 平滑滚动先驱解析 ⭐️ 7.0/10

一份 214 页的《指挥官基恩》游戏引擎技术白皮书发布,详细分析了该游戏如何在 20 世纪 80 年代末的 PC 上实现平滑滚动。 《指挥官基恩》的自适应图块刷新技术首次在通用 PC 上实现了流畅的横向卷轴,证明了 IBM 兼容机也能运行这类游戏,直接影响了 id Software 后续的《德军总部 3D》和《毁灭战士》。这份分析为复古计算爱好者和软件工程师提供了宝贵的历史技术资料。 白皮书涵盖了 80286 CPU、EGA 显卡、声卡、键盘等硬件细节,并深入解释了自适应图块刷新和虚拟显存等关键技术,仅重绘变化的图块以克服带宽限制。

hackernews · mfiguiere · Jun 15, 17:52 · 社区讨论

背景: 在 20 世纪 80 年代末,IBM PC 缺乏硬件平滑滚动支持,无法像 NES 或 SNES 那样高效渲染精灵。约翰·卡马克发明的自适应图块刷新技术通过只更新变化部分,降低了内存带宽需求,从而在 EGA 显卡上实现了流畅滚动,该突破首次应用于《指挥官基恩》系列。

参考链接

社区讨论: 社区讨论指出,理解《指挥官基恩》的技术成就需将其与同时代的 SNES 等主机对比,因为当时 PC 虽计算能力更强,但缺乏专用硬件支持。有人提到相关书籍《Masters of Doom》,并提供了在线游玩链接及类似分析项目 Cosmodoc 作为参考。

标签: #game-development, #computer-graphics, #software-history, #retro-gaming, #technical-analysis


AI 并未也并不会替代软件工程师 ⭐️ 7.0/10

Arvind Narayanan 和 Sayash Kapoor 发表文章,以软件工程行业为例,引用纽约州《工人调整与再培训通知法案》(WARN Act)的披露数据,指出在 AI 能力增强的背景下,尚无公司因 AI 裁员,反驳了 AI 将导致大规模失业的普遍预测。 该观点为 AI 就业冲击论提供了冷静的实证反驳,有助于缓解公众焦虑,并强调人类对问题、业务和环境的深层理解仍是价值的核心,影响行业对 AI 工具的实际定位。 纽约州自 2025 年 3 月起在 WARN 法案申报中增加 AI 裁员复选框,一年内 160 多家公司申报,无一勾选;文章指出软件工程的真正瓶颈在于“决定构建什么、验证交付物及深层人类理解”,而非编写代码。

rss · Simon Willison · Jun 14, 23:54

背景: WARN 法案要求美国部分雇主在大规模裁员前提前通知,纽约州率先要求额外披露是否因 AI 导致裁员,该数据成为实证依据。软件工程因高度结构化且与 AI 工具天然契合,常被视为最易被 AI 冲击的行业,因此其现状对其他行业有风向标意义。

标签: #ai, #software engineering, #labor market, #employment, #ai impact


TinyWind:模拟风物理的像素海盗游戏引发热议,真实性受质疑 ⭐️ 6.0/10

TinyWind 是一款基于网页的像素风格航海游戏,通过简化的风物理模拟吸引大量玩家,累计航行里程超 38 万公里,但社区对物理真实度和玩法的批评同样突出。 尽管物理模拟不逼真,TinyWind 仍展示了创新玩法在玩家中的吸引力,为独立游戏开发者在娱乐性与教育性融合上提供了参考,也反映出玩家对深度机制的需求。 游戏采用像素艺术风格,包含简单的风帆角度与风向关联模型,但缺乏逆风调帆、抢风行驶等真实航海机制,且战斗系统难度偏高、缺乏治疗手段。

hackernews · tinywind · Jun 15, 16:15 · 社区讨论

背景: 真实航海物理涉及风向、帆角、抢风行驶等要素,而 TinyWind 做了大幅简化。像素艺术网页游戏便于快速传播和体验,近年来多次引发社区热潮。

社区讨论: 社区反响热烈但褒贬不一:多数玩家认可其概念和美术,但普遍批评风物理过于简约,如逆风航行不真实、缺乏抢风成本;此外,风向指示不直观、战斗难度过高也是主要槽点。

标签: #gaming, #physics-simulation, #sailing, #web-app, #pixel-art


“他们坑了我们”:个性冲突致 Anthropic 模型下线 ⭐️ 6.0/10

Axios 的一篇文章披露 Anthropic 内部个性冲突导致其 Claude Mythos 等模型被下线,同时涉及美国政府出口管制介入;Anthropic 的 Frontier Red Team、Safeguards 负责人等已赴商务部会谈。 该事件凸显 AI 公司与政府监管之间的紧张关系,模型安全与出口管制政策的交叉直接影响产品可用性,可能为整个 AI 行业部署设立先例。 Anthropic 将触发政府反应的越狱归类为”潜在狭隘、非通用”攻击,并依赖”宪法分类器”等技术防御;但文章指出完美的越狱抵抗可能无法实现,解决方案或许在于”态度调整”。

rss · Simon Willison · Jun 15, 14:57

背景: 美国政府对 Anthropic 的 Fable/Mythos 模型发布出口管制指令,源于此前发现的可越狱漏洞,即通过对抗性攻击绕过模型安全对齐。Anthropic 以 AI 安全著称,其 Claude 系列模型强调无害性。越狱可能让模型输出危险内容,引发国家安全担忧。

标签: #AI industry, #Anthropic, #government policy, #corporate drama, #AI safety


数据仓库

Apache Iceberg 拟新增 Variant 类型以高效处理半结构化数据 ⭐️ 8.0/10

Apache Iceberg 社区提出 issue #10392,计划在数据类型中引入 Variant 类型,以便对 JSON 等半结构化数据进行高效的二进制编码和查询。 此举将使数据湖能够原生高效地处理动态半结构化数据,无需牺牲灵活性,并有望为 Spark、Trino 等查询引擎带来显著的性能提升,适应现代数据工程需求。 Variant 类型通过内部高效的二进制表示存储半结构化数据,既保留了源数据的灵活性,又便于查询引擎进行优化操作,但该提议目前仍处于讨论阶段,具体实现细节待定。

github · sfc-gh-aixu · Apr 30, 12:52

背景: Apache Iceberg 是一种开源高性能表格式,专为数据湖中的大规模分析表设计,支持多种计算引擎并发访问。半结构化数据(如 JSON、Avro)虽灵活,但查询效率常受限于存储格式。传统方案需 ETL 清洗,而 Variant 类型旨在提供一种直接的二进制编码方式,兼顾灵活与性能。

参考链接

标签: #Apache Iceberg, #data type, #semi-structured data, #variant, #data engineering


Apache Iceberg 提出为 VARIANT 列引入虚拟字段元数据 ⭐️ 8.0/10

此提案为 Apache Iceberg 规范新增虚拟字段元数据机制,允许声明 VARIANT 列内已知字段路径的类型化元数据,从而支持类型解析、谓词下推和透明的模式演化。 该功能显著提升了对半结构化数据的查询性能,通过谓词下推减少数据传输,同时自动处理模式演化,减轻了数据工程师的维护负担,契合现代数据湖演进趋势。 该机制在表的元数据中定义虚拟字段,允许引擎在查询时根据已知路径进行类型推断和谓词下推;需要注意,这仍是提案阶段,尚未合入正式规范。

github · jeffbuser · Apr 25, 03:00

背景: Apache Iceberg 是一种开放表格式,广泛用于数据湖。其 v3 版本引入了 VARIANT 类型,用于高效存储 JSON 等半结构化数据,但查询时难以利用内部字段的类型信息。谓词下推(predicate pushdown)是一种查询优化技术,可在数据源端尽早过滤数据,减少传输和处理量。虚拟字段元数据通过在表元数据中声明半结构化列内路径的类型信息,为查询引擎提供优化依据。

参考链接

标签: #apache-iceberg, #semi-structured-data, #schema-evolution, #table-format, #data-engineering


Apache Iceberg REST 目录新鲜度感知表加载机制 ⭐️ 7.0/10

Apache Iceberg 社区在 issue #11766 中提议,为 REST 目录实现新鲜度感知的表加载功能,通过 HTTP ETag 和 304 响应避免重复加载未变化的表元数据。 该优化可显著减少查询引擎在重复查询时不必要的元数据加载开销,降低延迟并提升大规模部署下的扩展性,尤其有利于缓存表元数据的查询引擎。 提案利用 HTTP ETag 机制:客户端在请求时携带上次获取的 ETag,若表元数据未变,服务器返回 304 状态码而非完整元数据。该机制需要 REST 服务端支持,并非所有现有实现都立即兼容。

github · gaborkaszab · Jun 14, 00:50

背景: Apache Iceberg 是一种开放表格式,其 REST 目录规范定义了通过 HTTP API 管理表元数据的标准。查询引擎通常需要加载表元数据来规划查询,频繁的全量加载会造成性能瓶颈。新鲜度感知加载允许客户端缓存元数据并与服务器进行条件验证,是类似 Web 缓存中 ETag/304 的优化策略。

参考链接

社区讨论: 社区讨论积极,普遍认为该功能有助于提升性能。部分参与者关注实现细节,如缓存失效策略、ETag 生成方式,以及与现有 Gravitino 等 REST 目录服务的兼容性。

标签: #Apache Iceberg, #REST Catalog, #Caching, #Table Metadata, #Performance Optimization


Apache Iceberg 项目提交了 #16756 提案,计划在 Flink 集成中支持保存水印(watermark)和计算列(computed column)的元数据,以便流式查询能够充分利用 Flink SQL 的这些特性。 该支持将使 Iceberg 表在 Flink 流处理场景中更好地保留完整的表定义,包括水印策略和计算列,从而提升查询规划、状态管理和增量处理的效率,对构建实时数据管道至关重要。 当前 Iceberg 目录不保留 Flink DDL 中的 WATERMARK 和计算列(如 event_time AS order_time)元数据,导致这些定义丢失。提案旨在通过扩展目录元数据来解决这一问题,特别针对流式 SQL 引擎的需求。

github · SteveStevenpoor · Jun 12, 03:53

背景: Apache Iceberg 是一种开放表格式,用于大数据分析,支持多种计算引擎。Apache Flink 是流行的流处理框架,其 SQL 支持通过 WATERMARK 定义事件时间水印以处理乱序数据,并通过计算列生成虚拟列。目前,Iceberg 与 Flink 集成时,不保存这些元数据,导致在查询时无法使用这些定义。

参考链接

标签: #Apache Iceberg, #Apache Flink, #streaming, #watermarks, #computed columns


Delta Lake 协议变更提案:新增表重定向特性 ⭐️ 7.0/10

Delta Lake 项目通过 PR #3705 提交了一项协议变更提案,详细定义了表重定向特性,涵盖其概念、启用与禁用流程以及查询重定向机制。 该特性将允许 Delta 表透明地迁移到新的存储位置,极大简化数据生命周期管理、跨区域复制等操作,对依赖 Delta Lake 的数据湖架构具有重要价值。 提案目前为文档阶段,尚未实现;重定向涉及克隆数据、事务日志、检查点和校验和文件,并规定了明确的启用和禁用流程。

github · kamcheungting-db · Mar 14, 20:12

背景: Delta Lake 是一个开源数据湖存储层,通过事务日志和 MVCC 提供 ACID 事务、可扩展元数据处理等能力。其协议规范定义了表的功能兼容性级别,任何新特性都需通过协议变更提案引入。表重定向旨在解决表物理位置变更时的一致性问题,是协议层面的重要增强。

参考链接

标签: #Delta Lake, #Protocol Change, #Redirection, #Open Source, #Data Engineering


通过有状态流处理构建符合 EU AI Act 的 AI 代理 ⭐️ 7.0/10

Confluent 发布指南,讲解如何利用 Apache Kafka 与 Flink 的有状态流处理构建可审计、符合 EU AI Act 的 AI 代理,并提供 7 种状态、4 种设计模式及分阶段上线方案。 随着欧盟 AI 法案的实施,企业亟需确保 AI 代理的审计与合规性;该指南为开发者提供了在事件流中嵌入合规控制的实用模式,有助于降低法律风险并加速可信 AI 系统落地。 指南聚焦于在 Apache Kafka 与 Flink 上实现有状态流处理,通过定义 7 种状态(如推理状态、合规状态)和 4 种模式(如事件溯源、策略执行)将合规控制嵌入 AI 代理流水线,并建议分阶段部署以逐步验证。

rss · Confluent Blog (Kafka/Flink) · Jun 15, 21:40

背景: 有状态流处理是一种实时数据处理范式,系统在处理持续流入的数据时,会维护并利用历史计算的状态,从而支持连接、窗口聚合等操作。Apache Kafka 是分布式事件流平台,Flink 是面向有状态计算的数据流处理引擎,两者常结合用于构建高吞吐、低延迟的数据管道。欧盟人工智能法案(EU AI Act)是全球首部全面监管 AI 的法律,对高风险 AI 系统提出了审计、透明度和风险管理等强制要求。

参考链接

标签: #AI Agents, #Stream Processing, #Apache Kafka, #EU AI Act, #Compliance


实时 RAG 流平台自建与购买决策指南 (2026) ⭐️ 7.0/10

Confluent 于 2026 年发布了一份指南,利用总拥有成本(TCO)和一个四动词评估框架,对比了 AWS MSK、Redpanda 和 Confluent 在实时 RAG 场景下的自建与购买方案。 该指南为需要实时 RAG 的企业提供了选择流处理基础设施的实用依据,有助于在成本、性能和运维复杂度之间做出权衡,对实时 AI 应用的普及具有促进作用。 指南采用了四动词框架进行对比,并着重分析了各平台的总拥有成本。Redpanda 以 C++重写,去除了 JVM 和 ZooKeeper 依赖,宣称尾部延迟可降低 10 倍。

rss · Confluent Blog (Kafka/Flink) · Jun 15, 21:40

背景: 实时 RAG(检索增强生成)通过流数据管道持续摄取最新数据并增量更新向量嵌入,确保 AI 模型响应的时效性。流处理平台如 Apache Kafka 及其替代品(Redpanda、Confluent)是构建此类实时数据管道的核心组件。Redpanda 是一个用 C++编写的、兼容 Kafka API 的高性能流平台,旨在消除传统 Kafka 的复杂性。自建与购买的决策涉及对成本、可扩展性和维护负担的综合评估。

参考链接

标签: #real-time RAG, #streaming, #build vs buy, #Confluent, #evaluation framework


ClickHouse 开源十周年:成为最受欢迎的分析型数据库 ⭐️ 7.0/10

ClickHouse 于 2016 年 6 月 15 日开源,至今已满十年,成为拥有超过 2000 名贡献者的最受欢迎的开源分析型数据库。 这彰显了 ClickHouse 在实时分析领域的持续主导地位,其庞大的社区和商业支持(如近期 4 亿美元融资)将推动其在 AI 基础设施等领域的进一步扩展。 尽管十周年消息未涉及具体新功能,但 ClickHouse 以其列式存储和高性能著称,近期获得了 4 亿美元 D 轮融资,用于加速分析及 AI 基础设施的发展。

rss · ClickHouse Blog · Jun 15, 13:25

背景: ClickHouse 是一个开源列式数据库,专为在线分析处理(OLAP)设计,支持实时生成分析报告。它由 Yandex 开发并于 2016 年开源,因其出色的查询性能和成本效率,被广泛用于广告技术、金融、物联网等大数据场景。

参考链接

标签: #open-source, #databases, #analytics, #clickhouse, #community


Datadog 与 ClickHouse 合作,实现全量日志数据留存与分析 ⭐️ 7.0/10

Datadog 与 ClickHouse 宣布合作,将 ClickHouse 的全量日志存储和实时分析能力集成到 Datadog 的可观测性平台中,使工程师能够在保留所有日志事件的同时获得强大的搜索与调查体验。 此次合作解决了传统日志采样导致的可见性缺失问题,让大规模环境下的团队能够以更低的成本保留全部日志数据,并支持快速查询,从而提升故障排查、性能优化和安全分析的效率。 全量日志(Full-Fidelity Logging)意味着保留每一个事件,不进行采样或聚合,且保持可查询;ClickHouse 作为列式 OLAP 数据库,在实时分析方面具有高性能优势,适合处理海量日志的存储与查询。

rss · ClickHouse Blog · Jun 15, 07:52

背景: 全量日志留存是指不采样地保存所有事件数据,并保持可操作级的查询速度,这与常见的采样或归档降低成本的做法相对。ClickHouse 是一个开源的列式数据库管理系统,专为在线分析处理(OLAP)设计,能够对大规模数据进行实时 SQL 分析。Datadog 是主流的可观测性平台,提供监控、日志管理和应用性能管理等服务。

参考链接

标签: #observability, #logs, #partnership, #clickhouse, #datadog


提议为 Iceberg V4 增加 Tags 字段 ⭐️ 6.0/10

有提案建议在 Apache Iceberg V4 表规范中为文件添加 Tags 字段,以键值对形式存储元数据。 此举将增强 Iceberg 表的元数据管理能力,为数据治理、审计和查询优化提供更灵活的标签机制,对数据工程团队尤其有益。 该提案仅针对 Table 规范(未涉及视图、REST 等),Tags 字段将作为文件级别的键值元数据附加;详细设计文档已公开。

github · emkornfield · Jun 9, 00:44

背景: Apache Iceberg 是一种开源的高性能大数据表格式,支持多家计算引擎。V4 是其最新规范版本,正积极开发中,包含自适应元数据树、改进的序列化等多个重大更新。此次添加 Tags 字段属于元数据管理方面的增量改进。

参考链接

标签: #apache-iceberg, #metadata, #table-specification, #v4, #data-engineering