Principais funções do treinamento de Deep Learning Ppt
Estes slides explicam as funções do Deep Learning. Eles são Função de Ativação Sigmóide, Função Tangente Hiperbólica tan-h, Unidades Lineares Retificadas ReLU, Funções de Perda e Funções Otimizadoras. A Função de Perda inclui ainda Erro Médio Absoluto, Erro Quadrado Médio, Perda de Articulação e Entropia Cruzada.
You must be logged in to download this presentation.
audience
Editable
of Time
Recursos desses slides de apresentação do PowerPoint:
People who downloaded this PowerPoint presentation also viewed the following :
Conteúdo desta apresentação em Powerpoint
Slide 1
Este slide apresenta vários tipos de funções de Deep Learning: Função de Ativação Sigmóide, tan-h (Função de Tangente Hiperbólica), ReLU (Unidades Lineares Retificadas), Funções de Perda e Funções de Otimização.
Slide 2
Este slide fornece uma visão geral da função de ativação sigmoide que tem a fórmula f(x) = 1/(1+exp (-x)). A saída varia de 0 a 1. Não é centrada em zero. A função tem um problema de gradiente de desaparecimento. Quando ocorre a retropropagação, pequenas derivadas são multiplicadas e o gradiente diminui exponencialmente à medida que nos propagamos para as camadas iniciais.
Slide 3
Este slide informa que a função Tangente Hiperbólica tem a seguinte fórmula: f(x) = (1-exp(-2x))/(1+exp(2x)). O resultado está entre -1 e +1. Está centrado no zero. Quando comparada com a função Sigmoid, a convergência de otimização é simples, mas a função tan-h ainda sofre com o problema do gradiente de fuga.
Slide 4
Este slide fornece uma visão geral de ReLU (Unidades Lineares Retificadas). A função é do tipo f(x) = max(0,x) i,e 0 quando x<0, x quando x>0. Quando comparada com a função tan-h, a convergência ReLU é maior. O problema do gradiente de desaparecimento não afeta a função e só pode ser usado nas camadas ocultas da rede
Slide 5
Este slide lista os tipos de funções de perda como um componente do Deep Learning. Estes incluem erro médio absoluto, erro quadrático médio, perda de dobradiça e entropia cruzada.
Slide 6
Este slide informa que o erro médio absoluto é uma estatística para calcular a diferença absoluta entre os valores esperados e reais. Divida o total de todas as diferenças absolutas pelo número de observações. Ele não penaliza valores grandes tão severamente quanto o Erro Quadrático Médio (MSE).
Slide 7
Este slide descreve que o MSE é determinado somando os quadrados da diferença entre os valores esperados e reais e dividindo pelo número de observações. É necessário prestar atenção quando o valor da métrica é maior ou menor. Só é aplicável quando temos valores inesperados para previsões. Não podemos confiar no MSE, pois ele pode aumentar enquanto o modelo apresenta um bom desempenho.
Slide 8
Este slide explica que a função de perda de dobradiça é comumente vista em máquinas de vetores de suporte. A função tem a forma = max[0,1-yf(x)]. Quando yf(x)>=0, a função perda é 0, mas quando yf(x)<0 o erro aumenta exponencialmente, penalizando desproporcionalmente os pontos mal classificados que estão longe da margem. Como resultado, a imprecisão cresceria exponencialmente até esses pontos.
Slide 9
Este slide afirma que a entropia cruzada é uma função logarítmica que prevê valores variando de 0 a 1. Ela avalia a eficácia de um modelo de classificação. Como resultado, quando o valor é 0,010, a perda de entropia cruzada é mais significativa e o modelo apresenta desempenho ruim na previsão.
Slide 10
Este slide lista as funções do otimizador como parte do Deep Learning. Estes incluem descida de gradiente estocástico, adagrad, adadelta e adam (estimativa de momento adaptativo).
Slide 11
Este slide afirma que a estabilidade de convergência da Descida do Gradiente Estocástico é uma preocupação, e a questão do Mínimo Local surge aqui. Com as funções de perda variando muito, calcular o mínimo global é demorado.
Slide 12
Este slide informa que não há necessidade de ajustar a taxa de aprendizado com esta função Adagrad manualmente. No entanto, a desvantagem fundamental é que a taxa de aprendizado continua a cair. Como resultado, quando a taxa de aprendizado diminui muito a cada iteração, o modelo não adquire mais informações.
Slide 13
Este slide afirma que em adadelta, a taxa de aprendizado decrescente é resolvida, taxas de aprendizado distintas são calculadas para cada parâmetro e o momento é determinado. A principal distinção é que isso não salva os níveis de momentum individuais para cada parâmetro; e a função do otimizador de Adam corrige esse problema.
Slide 14
Este slide descreve que, quando comparado a outros modelos adaptativos, as taxas de convergência são maiores no modelo de Adam. As taxas de aprendizado adaptativo para cada parâmetro são atendidas. Como o momento é levado em consideração para cada parâmetro, isso é comumente empregado em todos os modelos de Deep Learning. O modelo de Adam é altamente eficiente e rápido.
Funções principais do treinamento de Deep Learning Ppt com todos os 30 slides:
Use nosso Ppt de treinamento de funções básicas de aprendizado profundo para ajudá-lo a economizar seu tempo valioso de maneira eficaz. Eles estão prontos para caber em qualquer estrutura de apresentação.
-
Their designing team is so expert in making tailored templates. They craft the exact thing I have in my mind…..really happy.
-
The website is jam-packed with fantastic and creative templates for a variety of business concepts. They are easy to use and customize.