Helian Nuits

(+86) 157-7962-3551 | nighthelianthus@gmail.com
GitHub: github.com/SXP-Simon

教育背景

南昌大学

计算机科学与技术 | 本科

2024.09 - 至今

奖项荣誉

项目经历

Qwen1.5-7b 模型的微调优化 比赛项目

大模型微调训练

  • 应用 PEFT 技术与 LoRA 方法对模型进行高效微调,显著降低了训练参数量并提升了微调效率
  • 使用 DeepSpeed 框架加速训练过程,通过流水线并行和梯度累积技术优化了大模型的训练性能
  • 结合量化技术对模型进行压缩,成功减少了模型的存储需求,同时保持了较高的推理精度

2025 MoFA Search AI 搜索引擎 比赛项目

超级智能体黑客马拉松 MoFA 多模态搜索

  • 深入研究 MoFA 框架的技术内核,优化多模态搜索模块、NLP 语义转换接口和分布式任务分发逻辑
  • 借助 MoFA 框架的模块化、可组合、可编程和数据流驱动等特性,成功实现了高效的任务处理与智能交互功能
  • 通过 Git 与团队校外开发成员紧密协作,确保项目的顺利推进和高质量交付

生物信息学软件包 m5C-UBSseq 学科交叉

高性能计算 生物信息学

  • 优化 m5C-UBSseq 进行高通量测序(HTS)数据中检测RNA m⁵C
  • 负责RNA甲基化修饰位点检测工作流中部分的脚本优化和数据处理工作
  • 引入LazyFrame惰性方法和多线程多进程池对原架构进行并行计算处理和内存管理优化,高效利用计算资源,提升了任务处理性能

基于 CUDA 的 LayerNorm 算子优化 科研经历

GPU 编程 LLM推理性能优化

  • 针对 Transformer 架构中的 LayerNorm 算子进行 GPU 内核优化,采用 float4 向量化技术合并访存减少全局内存访问次数; 利用 Butterfly 模式的 Warp 级并行归约优化方差计算,降低线程同步开销; 实现动态形状适配(支持 seq_len=32-4096);通过共享内存双缓冲机制避免 Bank Conflict。
  • 在 RTX4060 GPU 上测试不同输入规模,优化后的内核相比 PyTorch 原生实现获得 1.58-10.26 倍加速,尤其在长序列场景下性能提升显著。

开源社区与项目

OSChengdu社区 (核心成员)

SynthNexus MVP

多模态搜索 智能体开发

  • AI智能体集成
  • 混合语法生成引擎(Dork+SQL)

Gitlings 开发中

Python 实现的 Git + AI 辅助教学工具

  • Git对象可视化
  • AI提示系统

其他社区参与

技术栈

Python Rust C++ C JavaScript Git Docker Anaconda VSCode Pycharm Linux Windows WSL2 PyTorch CUDA DeepSpeed LoRA PEFT LangChain Ollama Dify 自然语言处理 数据分析 数据可视化 机器学习 深度学习 AI应用 高性能计算

其他信息