从业十多年,现在从业自动驾驶 VLA 模型相关的基础设施建设。致力于让海量数据高效流转,让大模型训练更省、推理更快。
基于 Apache Iceberg + Lance 构建,解决海量非结构化训练数据的版本控制和一致性问题。优化了数据治理流程,支持了多模态数据的存储和检索,降低了数据存储成本的同时支撑万卡集群的训练加速。
利用 Ray + PyTorch/vLLM 实现几十万小时视频的自动标注。采用 C++/Python 混合编程构建共享内存加速方案,极大提升了分布式推理吞吐量。
记录一下使用 GitHub Action 将 Jekyll 编译成静态网页,然后自动部署到 Google Cloud Storage bucket,最后通过 Cloudflare 的 CDN 进行缓存和加速的整个流程。
OpenAI 再次丢下核弹。
这两天 GitHub 上最火的项目莫过于 AutoGPT 了。在这个 LLM 狂飙的五月,大家都在谈论 Agent 的未来。
家里的 RO (Reverse Osmosis) 净水器出水越来越慢了,TDS 值也开始飙升。掐指一算,距离上次换滤芯已经过去了一年多。