Xaier Initialization 神經網路參數初始化 – Jacky Chou

今天簡單介紹Xaier Initialization這個方法
這個方法的目的是在初始化神經網路參數的時候穩定梯度
避免梯度爆炸或是梯度消失
可以看到下方算式代表的是一層神經網路參數W乘以輸入x得到輸出y
W是矩陣 x是向量
n_in n_out代表輸入的維度跟輸出的維度

我們的目標就是讓輸出的變異數等於輸入的變異數(見第二個算式)

藉此來穩定我們signal 傳遞

我們假設W跟x是獨立變數所以變異數就可以拆開變成相乘
接下來W代表初始化根據正態分布均值0 變異數sigma平方
x則是輸入輸入通常都會正則化代表均值0 變異數1
接著帶入rearange得出sigma平方=1/_in

接著可以看到下面第一行我們要將損失函數做一個反向傳播的動作
那這邊我們關注的就會是損失函數梯度變異數是否跟輸入的變異數一樣
我們用chain rule來反向到xi 輸入層
第二行就是對xi 偏微分其他變成0 剩下Wji
接下來對損失函數梯度指定它為小delta
套上變異數跟昨天一樣輸入跟神經網路參數獨立
所以可以變成相乘
接下來解開sigma
得到結果

你會發現說正向傳播跟反向傳播怎麼一個分母是輸入維度
一個是輸出維度那無法同時滿足兩個要求
所以就有學者提出第二張最終的公式
參數wji 就會從正態分布均值0標準差為根號變異數當中提取數字

Source link

History of Artificial Intelligence: Key Milestones That Shaped the Future | by amol pawar | softAai Blogs | Jun, 2025

A First-Principles Guide to Multilingual Sentence Embeddings | by Tharunika L | Jun, 2025

Prediksi Kualitas Anggur dengan Random Forest — Panduan Lengkap dengan Python | by Gilang Andhika | Jun, 2025

Can Automation Technology Transform Supply Chain Management in the Age of Tariffs?

Mortgage Lenders Could Be Checking Your LinkedIn Profile

Evo 2 by Arc Institute & NVIDIA: A Breakthrough in Genomic AI | by U V | Feb, 2025

Ditch the Job Description — 4 Bold Leadership Moves

Rice Univ. Prof. Lydia Kavraki Elected to National Academy of Engineering for Research in Biomedical Robotics

Most Popular

A Farewell to APMs — The Future of Observability is MCP tools

Manifold Learning and Geometry-Based Approaches: A Comprehensive Explanation | by Adnan Mazraeh | Mar, 2025

5 AI Skills That Will Make You Irreplaceable by 2030. | by Gitika Naik | Apr, 2025

Our Picks

Kümeleme (Clustering) Nedir?. Bu yazıda, clustering yani kümeleme… | by Umitanik | May, 2025

Free Webinar | April 30: Maximize Your Marketing Impact on a Shoestring Budget

Using AI, Like ChatGPT, Damages Critical Thinking: Study

Xaier Initialization 神經網路參數初始化 – Jacky Chou

Related Posts