Ben-air


  • 首页

  • 分类

  • 归档

  • 标签

  • 关于

  • 搜索

Git-8.清洗仓库提交记录

发表于 2026-01-12 | 分类于 编程拾慧 , Git
在代码开发过程中,经常会有一些相对的冗余处理,比如我们提交一个初始版本,然后进行测试结果发现存在一些问题,进行代码的修修改改是非常常见的工作。有时候记录这些过程中的修修改改,反映了我们整个代码开发过程中的思路变化和开发路径。但是总有些时候,我们更多的希望提交一些干净整洁的开发记录,尤其是在对外提供的 ...
阅读全文 »

特征工程-数据编码-Embedding性能测评方式

发表于 2026-01-07 | 分类于 LLM
文本嵌入是文本的向量表示,它编码了语义信息。由于机器需要数值输入来进行计算,文本嵌入是许多下游 NLP 应用的关键组成部分。例如,谷歌使用文本嵌入来驱动其搜索引擎。文本嵌入还可用于通过聚类在大量文本中发现模式,或作为文本分类模型的输入,例如在我们最近的 SetFit 工作中。然而,文本嵌入的质量高度 ...
阅读全文 »

Manifold-Constrained Hyper-Connections

发表于 2026-01-05 | 分类于 算法原理
2025 年 12 月 31 日,DeepSeek 发布了论文《mHC:流形约束的超连接》(Manifold-Constrained Hyper-Connections)点击获取pdf原文,提出了一种新的残差连接设计,用于解决超连接(HC)在大模型扩展下的不稳定性和难以扩展的问题。
阅读全文 »

1205.机器学习-强化学习-1.Q-Learning

发表于 2025-12-31 | 分类于 机器学习 , 强化学习
什么是 Q-Learning ?Q学习是强化学习中基于价值的学习算法。 假设机器人必须越过迷宫并到达终点。有地雷,机器人一次只能移动一个地砖。如果机器人踏上矿井,机器人就死了。机器人必须在尽可能短的时间内到达终点。 得分/奖励系统如下: 机器人在每一步都失去1点。这样做是为了使机器人采用最短路径并尽 ...
阅读全文 »

1205.机器学习-强化学习-0.概述

发表于 2025-12-31 | 分类于 机器学习 , 强化学习
概念定义 强化学习(Reinforcement learning ,RL)是机器学习的三驾马车之一。讨论的问题是一个智能体(agent) 怎么在一个复杂不确定的环境(environment) 里面去极大化它能获得的奖励。通过感知所处环境的状态(state) 对 动作(action) 的 反应(rew ...
阅读全文 »

1204.机器学习-集成学习-2.Boosting-LightBGM

发表于 2025-12-29 | 分类于 机器学习 , 集成学习
LightGBM简介GBDT (Gradient Boosting Decision Tree) 是机器学习中一个长盛不衰的模型,其主要思想是利用弱分类器(决策树)迭代训练以得到最优模型,该模型具有训练效果好、不易过拟合等优点。GBDT不仅在工业界应用广泛,通常被用于多分类、点击率预测、搜索排序等任 ...
阅读全文 »

二阶泰勒展开

发表于 2025-12-29 | 分类于 知识沉淀
核心思想泰勒展开的核心思想是:用一个多项式函数来近似地表示一个复杂函数。这个多项式在某个点(展开点)附近与原始函数具有非常相似的行为。 一阶泰勒展开就是我们熟悉的线性近似,它只考虑函数值和一阶导数(斜率),得到一个切线。 二阶泰勒展开在线性近似的基础上,增加了二阶导数(曲率) 的信息,从而能更好地 ...
阅读全文 »

遗传病-遗传模式详解

发表于 2025-12-24 | 分类于 遗传病 , 性染色体
(一). 孟德尔规律遗传病通常将以孟德尔遗传规律表现的单基因遗传病按不同遗传模式分为: 常染色体显性遗传 (autosomal dominant inheritance),简称常显或AD致病基因位于常染色体上,且由单个等位基因突变即可起病的遗传方式。常见的亚型包括: ①完全显性(正常纯合子AA和 ...
阅读全文 »

5024.大模型-模型优化-Ranking-00.概述

发表于 2025-12-22 | 分类于 LLM
在信息检索(IR)和推荐系统中,Ranking(排序) 是决定用户体验的核心环节。它不仅仅是给文档打分,更是将海量数据转化为用户可感知的有序列表的过程。根据技术演进的脉络,主流 Ranking 技术主要分为 传统算法 和 机器学习排序 (LTR) 两大阵营。 核心架构核心架构:从“投票”到“学习” ...
阅读全文 »

1001.特征工程-数据编码-自然语言处理

发表于 2025-12-19 | 分类于 machine_learning
Embedding(嵌入)技术的核心目标是将高维、稀疏的数据(如文本、图像、图结构)映射为低维、稠密的向量空间,从而捕捉数据间的语义关系。根据应用场景的不同,主要分为自然语言处理 (NLP)、图神经网络 (GNN) 和 多模态学习 三大领域。 自然语言处理过程中,文本的向量化,是其中重要的一环。N ...
阅读全文 »
12…47
Ben-air

Ben-air

468 日志
97 分类
144 标签
GitHub Twitter Wechat Weibo DouBan ZhiHu
© 2026 Ben-air
已有人访问 | 总访问次