From 43 items, 26 important content pieces were selected
AI 与工具
- SMPTE 全面免费开放其标准文档,推动行业创新 ⭐️ 8.0/10 · HN · 17:01
- 《Obscure Sorrows》遭 AI 剽窃,DMCA 维权困难重重 ⭐️ 8.0/10 · HN · 18:05
- CSS 重制经典游戏《雷神之锤》 ⭐️ 8.0/10 · HN · 10:49
- Cloudflare 推出临时账户,支持 60 分钟 Workers 短时部署 ⭐️ 8.0/10 · HN · 11:19
- Sean Lynch:MCP 的真正价值在于认证隔离 ⭐️ 7.0/10 · Simon Willison · 22:45
- 《F-15 Strike Eagle II》逆向工程招募 DOS 测试者 ⭐️ 6.0/10 · HN · 15:10
数据仓库
- Apache Iceberg 提议为 REST catalog 添加时效感知表加载 ⭐️ 7.0/10 · GitHub · 00:50
- Apache Iceberg 提议为 REST Catalog 增加标签元数据字段 ⭐️ 7.0/10 · GitHub · 08:00
- Apache Iceberg 提议引入 Variant 数据类型 ⭐️ 7.0/10 · GitHub · 12:52
- Delta Lake 协议新增重定向规范变更提案 ⭐️ 7.0/10 · GitHub · 20:12
- Apache Hudi 社区提出分区软删除功能提案 ⭐️ 7.0/10 · GitHub · 22:43
- Apache Iceberg v4 规范新增 varchar 和 char 类型提案 ⭐️ 6.0/10 · GitHub · 13:55
- Iceberg Flink 集成拟支持计算列与水印 ⭐️ 6.0/10 · GitHub · 03:53
- (apache/iceberg) #14815: Add Tags field to Iceberg V4 ⭐️ 6.0/10 · GitHub · 00:44
- Apache Iceberg 提议在提交时捕捉 Parquet 页脚指标 ⭐️ 6.0/10 · GitHub · 15:58
- 提议 Delta Kernel 去掉 getter 方法的 ‘get’ 前缀 ⭐️ 6.0/10 · GitHub · 15:43
GitHub 趋势
- chopratejas/headroom +3786⭐: Headroom:压缩 LLM 输入,令牌减少 60-95% ⭐️ 8.0/10 · GH Trending · 21:43
- tw93/Pake +2398⭐: GitHub 热门:Pake 一键将网页转为桌面应用,单日获 2398 星 ⭐️ 8.0/10 · GH Trending · 21:43
- DeusData/codebase-memory-mcp +1267⭐: 代码库记忆 MCP 服务器:毫秒级索引与 99%令牌节省 ⭐️ 8.0/10 · GH Trending · 21:43
- google-research/timesfm +432⭐: 谷歌研究院发布 TimesFM 时间序列基础模型 ⭐️ 8.0/10 · GH Trending · 21:43
- penpot/penpot +424⭐: Penpot 单日获 424 星,开源设计协作工具热度攀升 ⭐️ 8.0/10 · GH Trending · 21:43
- palmier-io/palmier-pro +904⭐: Palmier Pro:AI 原生 macOS 视频编辑器,GitHub 单日获 904 星 ⭐️ 7.0/10 · GH Trending · 21:43
- tursodatabase/turso +774⭐: Rust 嵌入式 SQL 数据库 Turso 今日 GitHub 获 774 星 ⭐️ 7.0/10 · GH Trending · 21:43
- calesthio/OpenMontage +677⭐: OpenMontage 获 677 星,首创开源智能体视频制作 ⭐️ 7.0/10 · GH Trending · 21:43
- twentyhq/twenty +140⭐: twentyhq/twenty 开源 AI 原生 CRM 日增 140 星 ⭐️ 7.0/10 · GH Trending · 21:43
- mattpocock/skills +1360⭐: Matt Pocock 的 Claude 工程技能库单日获超 1300 星 ⭐️ 6.0/10 · GH Trending · 21:43
AI 与工具
SMPTE 全面免费开放其标准文档,推动行业创新 ⭐️ 8.0/10
SMPTE(电影与电视工程师协会)近日宣布,将其全部超过 800 项技术标准文档免费向全球开放,并采用 GitHub 工作流等现代化方式改进标准制定和发布流程。 此举消除了付费壁垒,使开发者、初创公司和学生能自由获取关键标准,有望极大促进媒体技术的普及与创新,类似 IETF 免费标准对互联网发展的推动作用。 开放范围涵盖广播、电影、数字影院等所有领域,同时 SMPTE 正转向基于 GitHub 的版本控制、问题跟踪和结构化 HTML 发布,以提升协作效率。此前,部分标准如 DCP 文档 430.10 需付费购买。
hackernews · zdw · Jun 20, 17:01 · 社区讨论
背景: SMPTE 成立于 1916 年,是全球媒体与娱乐行业的重要标准制定组织,已发布超 800 项技术标准,包括 24 帧/秒的电影放映速度、SMPTE 时间码等基础规范,对行业互操作性至关重要。此前获取标准需按份购买,形成经济门槛。
社区讨论: 社区反响热烈,普遍认为这是重大进步。Lambdaone 以 IETF 免费标准推动互联网发展为例,强调开放标准是成功关键;Geerlingguy 质疑任何标准组织为何不默认开放;Andersthuesen 回忆了曾付费购买特定标准的经历。部分讨论关注到 SMPTE 采用 GitHub 等现代化流程,认为将提高标准开发效率。
标签: #open-standards, #SMPTE, #media-technology, #standardization, #open-access
《Obscure Sorrows》遭 AI 剽窃,DMCA 维权困难重重 ⭐️ 8.0/10
《Obscure Sorrows》一书被侵权者完整剽窃,包括前言和全部 311 个新词,并利用 AI 重新包装后发布在 Qontour 网站上。 这起事件凸显了 AI 技术使剽窃成本大幅降低、规模化侵权更加容易,而现有的 DMCA 通知机制在缺乏法院命令时难以有效维权,对独立创作者构成严重威胁。 侵权者利用 AI 对内容进行改写以规避检测,但未能清除作者隐藏的彩蛋,使剽窃行为确凿无疑。此外,平台方如 Google 和 Apple 在没有法院命令的情况下拒绝处理 DMCA 投诉,增加了维权难度。
hackernews · ridesisapis · Jun 20, 18:05 · 社区讨论
背景: 《Obscure Sorrows》是 John Koenig 创作的一本书,收录了他发明的 311 个描述复杂情感的新词。DMCA(数字千年版权法)是美国的一部版权法律,允许版权所有者向平台发出删除侵权内容的通知。Waxy.org 是 Andy Baio 运营的博客,经常关注技术和版权问题。
社区讨论: 社区评论反映出对 DMCA 维权效力的普遍失望,多位用户分享了类似被 AI 剽窃的经历,指出平台方仅在法院命令下才会处理投诉,维权成本高昂。另有观点认为,尽管 AI 降低了剽窃成本,但直接复制全书内容的行为明确构成侵权,不属于合理使用。
标签: #plagiarism, #ai, #copyright, #dmca, #intellectual-property
CSS 重制经典游戏《雷神之锤》 ⭐️ 8.0/10
一位开发者使用 CSS 技术完整重现了经典第一人称射击游戏《雷神之锤》(Quake),在浏览器中实现可交互的游戏体验,展示了 CSS 的极限运用。 这一成就标志着 CSS 能力的边界被再次拓展,不仅证明了用非传统方式实现复杂交互的可能性,还唤起了人们对经典游戏的情怀,激励开发者探索 Web 技术的创造性用法。 该实现并非纯粹 CSS 渲染,仍需借助 JavaScript 驱动游戏逻辑,且性能在现代化硬件上反而不及 90 年代原版游戏流畅。此外,游戏中的某些交互细节与原版有所差异,例如按钮触发方式需要射击而非触碰。
hackernews · msalsas · Jun 20, 10:49 · 社区讨论
背景: 《雷神之锤》(Quake)是 1996 年发布的第一人称射击游戏,以其全 3D 图形和激烈对抗著称。CSS(层叠样式表)通常用于网页样式设计,而非游戏开发。通过将游戏画面拆分为大量 CSS 控制的 DOM 元素并配合 JavaScript 处理交互,开发者硬核地证明了 CSS 在图形渲染上的惊人潜力。类似项目如 CSS DOOM 也尝试过用 CSS 重制经典游戏。
社区讨论: 社区反响热烈,多数人对这项技术成就表示赞叹和怀旧之情,但同时也指出其性能难以与现代硬件匹配,部分交互细节与原版存在差异。有评论提到该实现仍依赖 JavaScript,并非纯 CSS,另有用户分享了类似 CSS DOOM 项目,整体氛围积极而富有技术探讨。
标签: #css, #game-development, #hack, #web-development, #retro-gaming
Cloudflare 推出临时账户,支持 60 分钟 Workers 短时部署 ⭐️ 8.0/10
Cloudflare 推出了 Workers 临时账户功能,任何 AI 代理或开发者均可通过 wrangler deploy --temporary 命令,在无需永久账户的情况下,部署一个存活 60 分钟的 Worker,到期后自动失效,除非被认领为永久账户。 该功能大幅降低了部署临时环境的技术门槛,让开发者(包括 AI 代理)能快速创建和测试 Worker,特别适合 PR 预览和代码审查,有望加速 CI/CD 流程中的自动化预览环境生成。 临时部署可通过‘认领’转为永久账户;Cloudflare 实施了滥用防护,限制临时账户的创建频率并进行流量突发检查。但 Workers 仍缺少硬性计费上限,免费套餐每日请求量限制为 10 万次。
hackernews · farhadhf · Jun 20, 11:19 · 社区讨论
背景: Cloudflare Workers 是 Cloudflare 的无服务器边缘计算平台,让开发者在全球网络上运行代码。‘临时环境’指短生命周期、用完即弃的部署环境,常用于测试与预览。此次临时账户功能,允许 AI 代理在无预先注册账户的情况下自动部署 Workers,打通了从代码生成到线上预览的捷径。
参考链接
社区讨论: 社区反响热烈,开发者普遍认为该功能对 PR 预览和临时测试极为便利。但 simonw 指出 Workers 缺少硬性计费上限仍是痛点,担心意外高额账单;derektank 关心滥用防护的有效性。已有用户成功利用该功能快速部署了一个蜗牛游戏进行展示。
标签: #cloudflare, #workers, #ephemeral, #deployments, #developer-tools
Sean Lynch:MCP 的真正价值在于认证隔离 ⭐️ 7.0/10
Sean Lynch 在 Hacker News 评论中指出,相比技能或命令行接口,模型上下文协议(MCP)提供的真正有价值能力是将认证流程隔离在智能体的上下文窗口之外,甚至可能完全脱离代理运行环境。 这一观点揭示了 MCP 在 AI 智能体架构中的关键优势:通过将认证逻辑移出上下文窗口,可节省宝贵的上下文空间,减少安全风险,并简化工具集成。 认证隔离意味着 MCP 可能被简化为一个纯粹的认证网关,这或许是其最理想的形式,即便仅此一项也足够成为胜利。
rss · Simon Willison · Jun 19, 22:45
背景: 模型上下文协议(MCP)是由 Anthropic 于 2024 年 11 月推出的开放标准,旨在为 AI 模型与外部数据源、工具提供标准化集成方案。上下文窗口是大语言模型处理输入时的容量限制,通常以 token 数衡量。传统上,智能体调用工具时需要在上下文中包含认证信息,占用大量空间。MCP 通过外部化认证流程,缓解了这一问题。
标签: #model-context-protocol, #authentication, #llms, #ai-agents, #context-window
《F-15 Strike Eagle II》逆向工程招募 DOS 测试者 ⭐️ 6.0/10
一名爱好者的逆向工程项目正在为 DOS 游戏《F-15 Strike Eagle II》寻找测试人员,该项目已完全反汇编并逐步将汇编代码转换为逐字节相同的 C 代码,最终目标是移植到现代平台。 该工作有助于保存经典游戏,并为现代平台原生运行提供可能,同时展示了手工反编译的可行性,为其他复古游戏移植项目提供参考。 反编译过程需使用游戏 451.03 版本文件,在 DOS 或 DOSBox 中测试;转换为 C 代码时力求编译产物与原始二进制完全一致,但易引入新 bug,急需测试者协助发现。
hackernews · LowLevelMahn · Jun 20, 15:10 · 社区讨论
背景: 反编译是将可执行文件转化为高级语言源代码的过程,不同于模拟器仅在虚拟环境中运行,反编译得到的代码可移植、修改。80 年代 DOS 游戏多为 x86 16 位汇编编写,重写为 C 语言能大幅降低维护难度。类似项目如《超级马里奥 64》已通过反编译在多平台重生。
社区讨论: 社区反响热烈:怀旧玩家分享游玩回忆,部分用户质疑既然 DOSBox 完美运行,反编译是否必要;也有人探讨 AI 在无符号名反编译中的辅助作用。整体支持为主,但存在实用主义争论。
标签: #reverse-engineering, #retro-computing, #game-preservation, #assembly, #C
数据仓库
Apache Iceberg 提议为 REST catalog 添加时效感知表加载 ⭐️ 7.0/10
引入一个感知新鲜度的表加载 API,使查询引擎仅在表元数据自上次请求以来发生变化时才执行完整的元数据重载,避免不必要的全量加载。 该优化可显著提升查询引擎的缓存效率,降低大规模数据分析中的元数据访问延迟和系统负载,对依赖 Iceberg 的数据平台具有重要性能价值。 新 API 在 REST catalog 层面实现,可返回表元数据的最新状态标识,允许客户端智能判断是否需要全量重载;当前提案尚在讨论阶段,具体实现细节待定。
github · gaborkaszab · Jun 14, 00:50
背景: Apache Iceberg 是一种面向大规模数据分析的开放表格式,提供 ACID 事务和高效查询。其 REST catalog 通过 HTTP 接口管理表元数据,查询引擎常缓存元数据以加速查询,但传统保持缓存一致的方式(如事件处理或每次全量加载)开销较大。新鲜度感知机制通过比较元数据版本或时间戳,仅在变更时触发重载,从而优化性能。
参考链接
标签: #apache-iceberg, #rest-catalog, #metadata-caching, #performance, #api-proposal
Apache Iceberg 提议为 REST Catalog 增加标签元数据字段 ⭐️ 7.0/10
该提案(#15521)建议在 Iceberg REST Catalog 的 LoadTableResponse 中增加一个可选的 labels 字段,用于让目录以供应商中立的方式暴露表的所有权、分类等上下文元数据。 此举旨在解决目录元数据的碎片化问题,通过标准字段提升不同引擎和目录之间的互操作性,使开源引擎能够统一消费此类信息,避免依赖厂商特定扩展。 labels 字段为可选,采用键值对形式,能够承载所有权、成本归属、数据域等元信息,且不绑定任何特定目录实现。
github · laskoviymishka · May 12, 08:00
背景: Apache Iceberg 是一种开放表格式,为大规模分析表提供高性能、可扩展的抽象层。Iceberg REST Catalog 定义了引擎与目录服务交互的标准 API,当前 LoadTableResponse 已返回模式、快照等元数据,但缺乏目录侧维护的业务上下文。
标签: #apache-iceberg, #rest-catalog, #metadata, #feature-request, #open-source
Apache Iceberg 提议引入 Variant 数据类型 ⭐️ 7.0/10
Apache Iceberg 社区发起提案(#10392),计划新增 Variant 数据类型,用于对 JSON 等半结构化数据进行高效二进制编码,在保留灵活性的同时提升查询性能。 该特性将显著提升数据湖上半结构化数据的处理性能和灵活性,使查询引擎能更高效地操作动态数据,对数据工程生态系统产生重要影响。 Variant 列以高效二进制格式内部存储半结构化数据,无需预定义模式,同时支持跨引擎操作。注意该提案目前处于讨论阶段,具体实现尚未完成。
github · sfc-gh-aixu · Apr 30, 12:52
背景: Apache Iceberg 是一种开源高性能表格式,专为大规模分析数据集设计,支持 Spark、Trino、Flink 等引擎并发安全访问。半结构化数据(如 JSON、Avro)通常以字符串或嵌套结构存储,查询效率低下。Variant 类型提供了一种灵活的二进制表示,类似于 Snowflake 的 VARIANT,可存储任意类型值并支持高效解析和操作。
标签: #Apache Iceberg, #Data Types, #Semi-structured Data, #Variant, #Open Source
Delta Lake 协议新增重定向规范变更提案 ⭐️ 7.0/10
Delta Lake 社区提交了 PR #3705,提议在协议中新增重定向(Redirection)特性,内容包括特性定义、启用与禁用流程以及查询重定向流程。 该协议变更有助于 Delta Lake 表的灵活迁移和访问优化,对需要跨存储系统或路径重构的场景有重要意义,可能影响连接器与引擎的兼容性。 提案尚待合并,暂无具体实现细节;重定向流程涉及元数据操作和查询路由,可能引入新的表特性标志。
github · kamcheungting-db · Mar 14, 20:12
背景: Delta Lake 是一种基于事务日志的开放表格式,其协议定义了表的结构与特性,支持读写、模式演化等。协议通过版本号和特性标志进行演进,重定向特性可能允许将表的读写操作透明地指向其他位置,类似于符号链接,从而简化迁移或分层存储。
标签: #delta-lake, #protocol, #redirection, #documentation, #data-engineering
Apache Hudi 社区提出分区软删除功能提案 ⭐️ 7.0/10
Apache Hudi issue #18774 提议为分区删除操作增加软删除(soft delete)机制,在永久清理文件前引入一个可配置的恢复窗口,允许用户撤销删除并恢复数据。 该功能可有效防止因误删分区导致的数据永久丢失,提升数据湖管理的安全性和容错能力,降低运维风险,对依赖 Apache Hudi 的生产环境具有重要意义。 Hudi 当前的 delete_partition API 会直接替换分区内所有文件,并由清理服务从元数据表(MDT)中移除记录;新方案计划在软删阶段保留元数据和索引引用,在清理周期实际删除前支持数据恢复,并可能影响读取路径的设计。
github · kbuci · May 18, 22:43
背景: Apache Hudi 是一个开源数据湖仓平台,为基于对象存储(如 S3)的数据湖提供 ACID 事务、Upsert/Delete 等数据库级操作能力,底层使用 Parquet、Avro 等格式组织数据。分区删除是其管理操作之一,一旦执行便会移除大量数据文件,缺乏安全缓冲,因此社区希望通过软删除机制降低误操作后果。
标签: #Apache Hudi, #Data Lakes, #Soft Delete, #Feature Proposal, #Data Management
Apache Iceberg v4 规范新增 varchar 和 char 类型提案 ⭐️ 6.0/10
Apache Iceberg 社区提出在 v4 规范中新增 varchar(N) 和 char(N) 两种原始类型,以增强与传统 SQL 引擎的兼容性。 新增带长度限制的字符串类型可以更好地兼容 DB2、Oracle 等传统 SQL 数据库,降低数据迁移和查询的摩擦,便于更多企业将现有工作负载平滑迁移到 Iceberg 数据湖。 varchar(N) 和 char(N) 分别对应变长和定长字符串,Spark 从 3.1.0 起支持,Trino 也原生支持;该提案尚在讨论阶段,具体实现细节有待确定。
github · ebyhr · Jun 17, 13:55
背景: Apache Iceberg 是一种开放表格式,用于在数据湖中管理大规模分析表,支持 Spark、Trino 等多种计算引擎并发操作。传统 SQL 数据库常用定长和变长字符串类型,而 Iceberg 此前主要支持无长度限制的 string 类型,给迁移带来不便。v4 规范是 Iceberg 的下一个主要版本,旨在引入多项改进。
标签: #Apache Iceberg, #data types, #specification, #compatibility, #SQL engines
Iceberg Flink 集成拟支持计算列与水印 ⭐️ 6.0/10
该提案提出在 Apache Iceberg 的 Flink 集成中新增对计算列(computed columns)和水印(watermark)定义的支持,以便在流式 SQL 中保留更多查询计划所需的元数据。 这将使 Iceberg 更好地适配 Flink 等流式引擎的需求,允许用户在表中直接定义流式计算逻辑,简化流式作业开发,推动 Iceberg 在实时分析场景的落地。 当前实现中,Iceberg 目录通常只保留表 schema 本身,缺少计算列表达式和水印策略等元数据。此提案仍处于功能请求阶段,尚未开始开发。
github · SteveStevenpoor · Jun 12, 03:53
背景: Apache Iceberg 是一种面向大规模分析的表格式,支持多引擎并发访问。Apache Flink 是流行的流计算引擎,其 SQL 支持计算列(由其他列计算得出的虚拟列)和水印(用于处理事件时间乱序的度量和策略),但这些元数据目前无法通过 Iceberg 持久化。
标签: #apache-iceberg, #apache-flink, #streaming-sql, #watermarks, #computed-columns
(apache/iceberg) #14815: Add Tags field to Iceberg V4 ⭐️ 6.0/10
Proposal to add a Tags field for key-value metadata in Apache Iceberg V4 specification.
github · emkornfield · Jun 9, 00:44
标签: #apache-iceberg, #table-format, #metadata, #specification, #data-engineering
Apache Iceberg 提议在提交时捕捉 Parquet 页脚指标 ⭐️ 6.0/10
Apache Iceberg 社区提出一个可选特性:在 Spark 写入时从 Parquet 页脚聚合物理存储指标(如总行数、文件大小),并在提交时通过事件框架发出,但不持久化到表元数据中。 该机制为数据工程师提供了写入操作的内部指标可见性,可用于监控数据管道健康、优化存储,而无需额外元数据存储开销。 指标来自 Parquet 页脚,如行组数量、总行数等;它们仅通过 Iceberg 的事件机制在提交时广播,不会写入表元数据,且默认为关闭状态。
github · gtrettenero · Jun 3, 15:58
背景: Apache Iceberg 是面向数据湖的表格式,支持 ACID 事务和高效查询。Parquet 是列式存储格式,其页脚包含文件级别的元数据。Iceberg 的事件框架允许外部系统监听表变更。
标签: #Apache Iceberg, #Spark, #Data Engineering, #Observability, #Parquet
提议 Delta Kernel 去掉 getter 方法的 ‘get’ 前缀 ⭐️ 6.0/10
在 Delta Kernel 项目的 issue #3814 中,提出一项修改建议:将获取方法(getter)的命名惯例从使用 ‘get’ 前缀改为避免该前缀,以保持与 JDK 16 引入的 record 类型及 Apache Iceberg 项目的风格一致。 这一改动将提升代码的一致性和可读性,尤其在 Delta Kernel 开始采用 Java record 时更为重要。同时,与 Iceberg 等其他数据湖项目保持统一的命名风格,可降低开发者理解和使用 API 的认知负担。 提案引用了 Apache Iceberg 贡献指南中的命名规范,建议将 ‘get’ 替换为更具体的动词,除非该对象必须遵循 JavaBean 规范。此项变更将影响 Delta Kernel 的整个 Java API。
github · ebyhr · Oct 28, 15:43
背景: Delta Kernel 是 Delta Lake 的 Java API,用于操作 Delta 表。JDK record 是 Java 14 预览、Java 16 正式推出的特性,专为不可变数据载体设计,其访问器方法不含 ‘get’ 前缀。Apache Iceberg 是另一种大型分析表的开放格式,已在代码风格中建议避免在方法名中使用 ‘get’,以与 record 保持一致。
参考链接
标签: #delta-lake, #api-design, #java, #code-style, #naming-conventions