derin_ogr_1&2 - 24 Flashcards | MemoSwift

Other

📚

Other Intermediate

derin_ogr_1&2

derin_ogr

Created by Spanish

24 cards

76 views

46 studied

0.0 (0)

Quick Preview

Interactive

TERM

DEFINITION

TERM

3 tür makine öğrenmesi vardır , bunlar nelerdir

DEFINITION

1- supervised - gözetimli öğrenme 2- unsupervized - gözetimsiz 3- reinforcement

TERM

supervised öğrenme nedir

DEFINITION

modele özelliği -feature- ve etiketi -tag- ver , öğrensin , sonra da benzer özellikleri ver ve doğru etiketi bulmaya çalışsın

TERM

Unsupervised Learning

DEFINITION

model özellikleri yani feature ları alır ama etiket yoktur , model benzer verileri gruplandırmayı öğrenir Definition image

TERM

Reinforcement Learning

DEFINITION

çarpa çarpa kendisi öğrensin ,

TERM

LLM -geniş dil modeli- üzerinde yapılan transfer learning işlemi nasıl yapılır

DEFINITION

"pre-training" : önce LLM öğrenir , çok geniş bir veritabanında "fine-tuning" : önceden eğitilen model özel bir istek için tekrar eğitilir

TERM

aktivasyon fonksiyonu neye yarar

DEFINITION

sinir ağının karmaşık ve gerçekçi -non-linear- problemleri çözebilmesini sağlar. sinir hücresine -nöron- bir input gelir , bu input a birtakım işlemler (inputun ağırlığı ile çarpılması , bias eklenmesi ..) yapıldıktan sonra aktivasyon fonk. ile bu bu inputlar belli filtrelerden geçer.

TERM

Linear aktivasyon fonksiyonu

DEFINITION

nöron input a belli işlemleri yaptıktann sonra sonucu öylece bırakır , f(x)=x Filtre yok yani

TERM

reLu aktivasyon fonksiyonu ne yapar

DEFINITION

“Hesapladığım sonuç negatifse → sıfırla pozitifse → olduğu gibi geçir” ReLU şurada çok iyi çalışır: Görüntü işleme (CNN) Feature extraction Sparse temsil istenen durumlar Çünkü: Çok sayıda nöron 0 üretir Sadece “önemli” özellikler aktif olur

TERM

Sigmoid aktivasyon fonksiyonu ne yapar , sigmoid in büyük problemi olan Vanishing Gradient nedir , sigmoid hangi durumlarda etkili

DEFINITION

Bana gelen değeri alırım, onu 0 ile 1 arasına sıkıştırırım. 0.99 → neredeyse kesin 0.5 → kararsız 0.01 → neredeyse imkânsız Sigmoid grafiği: Ortada hızlı geçiş Uçlarda doygunluk (saturation) Sigmoid’in büyük problemi : Vanishing Gradient Peki Sigmoid nerede HÂLÂ kullanılır? İşte pratikte asıl yeri: ✅ Binary classification – output layer Örnek: spam / değil hasta / değil sahte / gerçek Definition image

TERM

gradient nedir

DEFINITION

modelin hata miktarının parametrelere(ağırlıklar,bias) türevidir , bu türev bize şunu söyler : "ağırlıkları arttırırsan hata artar (veya azalır)"

TERM

vanishing gradient - kaybolan gradyan- nedir , neden sigmoid de çok görülür

DEFINITION

gradyan neydi : modelin ağırlığını değiştiğinde hatanın ne kadar artıp azalcağını söylüyodu , ama sigmoid de şöyle bi durum var : sigmoid formülü gereği çıktıyı en fazla 1 e yaklaştırır , en az ise 0 a yaklaştırır , ama bu uç noktalar çok duyarsızdır , yani: sonuç 0,997 olsun , sen ağırlığı hayvan gibi arttır , sonuç 0,998 olur anca , o yüzden gradient sana ağırlığı azalt veya arttır dese bile model kendinden çok emin olmaya devam eder çünkü ağırlığı azaltsa da arttırsa da sonuç uç noktalarda takılmaya devam eder . yani gradient ın bi sike yaramadığı durumlarda "vanishing gradient" kavramı ortaya çıkar.

TERM

tanh aktivasyon fonksiyonu nedir

DEFINITION

sigmoid deki "vanishing gradient" sorununu çözemeseler de , hafifletmek adına bu ak. fonksiyonunu ürettiler , tek fark şu : artık veriler 1 ile -1 arasında sıkıştırılıyor

TERM

elu aktivasyon fonksiyonu nedir

DEFINITION

Araştırmacılar şunu dedi: “ReLU’nun hızını koruyalım ama negatif tarafta nöronu tamamen öldürmeyelim.” yani bu da relu gibi ama negatif sayı alınca direkt sıfırlamaz , yumuşak bir şekilde negatife doğru kaydırır , bu sayede şu olur : relu--> negatifse ölsün o bilgi , elu --> negatif bile olsa önemli olabilir , ölmesin az da olsa önem verelim Definition image

TERM

Softmax aktivasyon fonksiyonu nedir

DEFINITION

Şimdiye kadar konuştuklarımız şuydu: ReLU, ELU, tanh → ara katmanlar için Bunlar “özellik çıkarsın” diye var Ama modelin sonunda genelde şu soru var: “Bu girdi hangi sınıfa ait?” Örnek: Bu resim kedi mi, köpek mi, kuş mu? Bu e-posta spam mi, değil mi? Bu müşteri A mı, B mi, C mi? İşte softmax tam bu noktada devreye girer. Birden fazla sayıyı alır ve onları toplamı 1 olan olasılıklara çevirir. Yani model şunu diyebilir: Sınıf A: %70 Sınıf B: %20 Sınıf C: %10 bu ak. f. ile birlikte cross-entropy loss hata fonksiyonu kullanılır genelde , bu hata fonk. ile yanlış karar verdiğinde model ceza yer

TERM

Back Propagation algoritması ne yapar

DEFINITION

Bir sinir ağı şunu yapar: Girdi alır Bir çıktı üretir Bu çıktının ne kadar yanlış olduğunu ölçer “Yanlışsam, kendimi nasıl düzeltirim?” diye sorar İşte backpropagation, 4. adımın nasıl yapıldığını anlatan algoritmadır. Yani: Hangi ağırlık ne kadar sorumlu? Bunu hesaplar.