Engineer, AI Infra 技术专家

你好,我是 Yicheng

从业十多年,现在从业自动驾驶 VLA 模型相关的基础设施建设。致力于让海量数据高效流转,让大模型训练更省、推理更快。

Projects

自动驾驶训练数据存储

Architect

基于 Apache Iceberg + Lance 构建,解决海量非结构化训练数据的版本控制和一致性问题。优化了数据治理流程,支持了多模态数据的存储和检索,降低了数据存储成本的同时支撑万卡集群的训练加速。

Iceberg Lance Schema Validation Data Lake

大规模视频分析推理服务

Lead Engineer

利用 Ray + PyTorch/vLLM 实现几十万小时视频的自动标注。采用 C++/Python 混合编程构建共享内存加速方案,极大提升了分布式推理吞吐量。

Ray Shared Memory Distributed Inference VLM

Posts

Github Action部署Jekyll博客到GCS

记录一下使用 GitHub Action 将 Jekyll 编译成静态网页,然后自动部署到 Google Cloud Storage bucket,最后通过 Cloudflare 的 CDN 进行缓存和加速的整个流程。

Sora

OpenAI 再次丢下核弹。

AutoGPT 初体验:由于太烧钱而被迫终止

这两天 GitHub 上最火的项目莫过于 AutoGPT 了。在这个 LLM 狂飙的五月,大家都在谈论 Agent 的未来。

给自己换个肾:更换 RO 净水器滤芯

家里的 RO (Reverse Osmosis) 净水器出水越来越慢了,TDS 值也开始飙升。掐指一算,距离上次换滤芯已经过去了一年多。

Lab

Self-hosted 小集群
Immich, Trilium, Dify/Clawbot
DIY
从虚拟世界往物理世界延伸,捣鼓木工,智能家居
Life
带娃,做饭,滑雪

Tech Stack

Languages
C++, Python, Java, SQL, Go, Rust, ...
AI & Compute
Ray, PyTorch, LoRA, TensorRT
Data & Storage
Iceberg, DuckDB, LanceDB, PyArrow, Spark, Flink, ...
Ops & Infrastructure
Docker, K8s, PVE