{"id":693,"date":"2025-08-08T12:37:10","date_gmt":"2025-08-08T12:37:10","guid":{"rendered":"http:\/\/quentin-duchemin.alwaysdata.net\/wiki\/?p=693"},"modified":"2025-08-08T12:37:10","modified_gmt":"2025-08-08T12:37:10","slug":"connections-between-optimization-methods","status":"publish","type":"post","link":"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/index.php\/2025\/08\/08\/connections-between-optimization-methods\/","title":{"rendered":"Connections between optimization methods"},"content":{"rendered":"\n<p><\/p>\n\n\n\n<p>In this post, I will start by presenting some famous optimization algorithms. In a second step, I will give some interesting connections between them,  allowing the reader to get a better understanding of the field.<\/p>\n\n\n\n<h2>I. Greedy methods<\/h2>\n\n\n\n<p><\/p>\n\n\n\n<h2>II. Primal methods<\/h2>\n\n\n\n<ol><li><strong>Gradient descent<\/strong><\/li><\/ol>\n\n\n\n<p>In this section, we consider a function <img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-4ac38f6dc2660ffaa856da8343f59d84_l3.png\" class=\"ql-img-inline-formula quicklatex-auto-format\" alt=\"&#102;&#32;&#58;&#32;&#92;&#109;&#97;&#116;&#104;&#98;&#98;&#32;&#82;&#94;&#100;&#32;&#92;&#116;&#111;&#32;&#92;&#109;&#97;&#116;&#104;&#98;&#98;&#32;&#82;\" title=\"Rendered by QuickLaTeX.com\" height=\"19\" width=\"87\" style=\"vertical-align: -4px;\"\/>, that is differentiable and convex, and we tackle the problem:<br><p class=\"ql-center-displayed-equation\" style=\"line-height: 28px;\"><span class=\"ql-right-eqno\"> &nbsp; <\/span><span class=\"ql-left-eqno\"> &nbsp; <\/span><img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-f13c718a65970d4f5253da2a4840973b_l3.png\" height=\"28\" width=\"75\" class=\"ql-img-displayed-equation quicklatex-auto-format\" alt=\"&#92;&#91;&#32;&#92;&#109;&#105;&#110;&#95;&#123;&#120;&#32;&#92;&#105;&#110;&#32;&#92;&#109;&#97;&#116;&#104;&#98;&#98;&#32;&#82;&#94;&#100;&#125;&#102;&#40;&#120;&#41;&#46;&#92;&#93;\" title=\"Rendered by QuickLaTeX.com\"\/><\/p> The gradient descent is a simple algorithm to reach a minimizer of <img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-9c09a708375fde2676da319bcdfe8b24_l3.png\" class=\"ql-img-inline-formula quicklatex-auto-format\" alt=\"&#102;\" title=\"Rendered by QuickLaTeX.com\" height=\"16\" width=\"10\" style=\"vertical-align: -4px;\"\/>. Suppose we are<br>provided with an initial point <img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-7dcd3a08e8a6f17fd350964b615bbf1a_l3.png\" class=\"ql-img-inline-formula quicklatex-auto-format\" alt=\"&#120;&#95;&#48;&#32;&#92;&#105;&#110;&#32;&#92;&#109;&#97;&#116;&#104;&#98;&#98;&#32;&#82;&#94;&#100;\" title=\"Rendered by QuickLaTeX.com\" height=\"18\" width=\"60\" style=\"vertical-align: -3px;\"\/>. Then the gradient descent algorithm is:<br><p class=\"ql-center-displayed-equation\" style=\"line-height: 19px;\"><span class=\"ql-right-eqno\"> &nbsp; <\/span><span class=\"ql-left-eqno\"> &nbsp; <\/span><img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-9d1f85a7a7ad98a9a5eb8ec7c8871d5f_l3.png\" height=\"19\" width=\"184\" class=\"ql-img-displayed-equation quicklatex-auto-format\" alt=\"&#92;&#91;&#32;&#120;&#95;&#123;&#107;&#43;&#49;&#125;&#58;&#61;&#32;&#120;&#95;&#107;&#32;&#45;&#32;&#92;&#103;&#97;&#109;&#109;&#97;&#95;&#107;&#32;&#92;&#110;&#97;&#98;&#108;&#97;&#32;&#102;&#40;&#120;&#95;&#107;&#41;&#44;&#92;&#93;\" title=\"Rendered by QuickLaTeX.com\"\/><\/p>where <img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-566615c9af5caaf0f8bfe4fe03cf1676_l3.png\" class=\"ql-img-inline-formula quicklatex-auto-format\" alt=\"&#92;&#103;&#97;&#109;&#109;&#97;&#95;&#107;\" title=\"Rendered by QuickLaTeX.com\" height=\"12\" width=\"16\" style=\"vertical-align: -4px;\"\/> is a step size to be tuned. The interpretation of the gradient descent method is minimizing a local quadratic approximation<br>of <img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-9c09a708375fde2676da319bcdfe8b24_l3.png\" class=\"ql-img-inline-formula quicklatex-auto-format\" alt=\"&#102;\" title=\"Rendered by QuickLaTeX.com\" height=\"16\" width=\"10\" style=\"vertical-align: -4px;\"\/>:<br><p class=\"ql-center-displayed-equation\" style=\"line-height: 40px;\"><span class=\"ql-right-eqno\"> &nbsp; <\/span><span class=\"ql-left-eqno\"> &nbsp; <\/span><img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-c33b296b2a97823a4147d83fb771564f_l3.png\" height=\"40\" width=\"387\" class=\"ql-img-displayed-equation quicklatex-auto-format\" alt=\"&#92;&#91;&#32;&#102;&#40;&#120;&#41;&#32;&#92;&#97;&#112;&#112;&#114;&#111;&#120;&#32;&#102;&#40;&#120;&#95;&#107;&#41;&#43;&#92;&#110;&#97;&#98;&#108;&#97;&#32;&#102;&#40;&#120;&#95;&#107;&#41;&#32;&#94;&#123;&#92;&#116;&#111;&#112;&#125;&#40;&#32;&#120;&#45;&#120;&#95;&#107;&#41;&#32;&#43;&#32;&#92;&#102;&#114;&#97;&#99;&#123;&#49;&#125;&#123;&#50;&#92;&#103;&#97;&#109;&#109;&#97;&#95;&#107;&#125;&#32;&#92;&#124;&#120;&#45;&#120;&#95;&#107;&#92;&#124;&#94;&#50;&#95;&#50;&#46;&#92;&#93;\" title=\"Rendered by QuickLaTeX.com\"\/><\/p><br>where <img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-566615c9af5caaf0f8bfe4fe03cf1676_l3.png\" class=\"ql-img-inline-formula quicklatex-auto-format\" alt=\"&#92;&#103;&#97;&#109;&#109;&#97;&#95;&#107;\" title=\"Rendered by QuickLaTeX.com\" height=\"12\" width=\"16\" style=\"vertical-align: -4px;\"\/> is unknown a priori. However, there are several manners to choose the step size <img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-566615c9af5caaf0f8bfe4fe03cf1676_l3.png\" class=\"ql-img-inline-formula quicklatex-auto-format\" alt=\"&#92;&#103;&#97;&#109;&#109;&#97;&#95;&#107;\" title=\"Rendered by QuickLaTeX.com\" height=\"12\" width=\"16\" style=\"vertical-align: -4px;\"\/>. The first one is to consider it constant. In this case, we require <img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-9c09a708375fde2676da319bcdfe8b24_l3.png\" class=\"ql-img-inline-formula quicklatex-auto-format\" alt=\"&#102;\" title=\"Rendered by QuickLaTeX.com\" height=\"16\" width=\"10\" style=\"vertical-align: -4px;\"\/> to be gradient Lipschitz in order to ensure convergence. Another way to choose the step size is to perform an adaptive and local computation, called a line search. One example is the so-called<em> backtracking line search<\/em>, also know as Armijo\u2019s rule.<\/p>\n\n\n\n<figure class=\"wp-block-table\"><table><tbody><tr><td class=\"has-text-align-center\" data-align=\"center\"><strong>Drawbacks<\/strong><\/td><td class=\"has-text-align-center\" data-align=\"center\"><strong>Advantages<\/strong><\/td><\/tr><tr><td class=\"has-text-align-center\" data-align=\"center\">Often slow<\/td><td class=\"has-text-align-center\" data-align=\"center\">Each iteration has small cost<\/td><\/tr><tr><td class=\"has-text-align-center\" data-align=\"center\"><img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-9c09a708375fde2676da319bcdfe8b24_l3.png\" class=\"ql-img-inline-formula quicklatex-auto-format\" alt=\"&#102;\" title=\"Rendered by QuickLaTeX.com\" height=\"16\" width=\"10\" style=\"vertical-align: -4px;\"\/> needs to be differentiable<\/td><td class=\"has-text-align-center\" data-align=\"center\">It is a first order method<\/td><\/tr><\/tbody><\/table><figcaption>Gradient descent: pro and cons.<\/figcaption><\/figure>\n\n\n\n<ul><li>To address the first issue, methods to improve convergence are: <br>quasi-Newton methods &#8211; conjugate gradient method &#8211; accelerated gradient method.<\/li><li>To address the second issue, methods for nondifferentiable or constrained problems are: <br>subgradient method &#8211; proximal gradient method &#8211; smoothing methods &#8211; cutting-plane methods.<\/li><\/ul>\n\n\n\n<p><strong>2. Quasi-Newton<\/strong><\/p>\n\n\n\n<p>The Newton method comes from minimizing a second-order approximation of <img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-9c09a708375fde2676da319bcdfe8b24_l3.png\" class=\"ql-img-inline-formula quicklatex-auto-format\" alt=\"&#102;\" title=\"Rendered by QuickLaTeX.com\" height=\"16\" width=\"10\" style=\"vertical-align: -4px;\"\/> around<br><p class=\"ql-center-displayed-equation\" style=\"line-height: 36px;\"><span class=\"ql-right-eqno\"> &nbsp; <\/span><span class=\"ql-left-eqno\"> &nbsp; <\/span><img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-caf9f1ccd235383969ca13ca91754a06_l3.png\" height=\"36\" width=\"499\" class=\"ql-img-displayed-equation quicklatex-auto-format\" alt=\"&#92;&#91;&#102;&#40;&#120;&#41;&#32;&#92;&#97;&#112;&#112;&#114;&#111;&#120;&#32;&#102;&#40;&#120;&#95;&#107;&#41;&#32;&#43;&#32;&#92;&#110;&#97;&#98;&#108;&#97;&#32;&#102;&#40;&#120;&#95;&#107;&#41;&#32;&#94;&#123;&#92;&#116;&#111;&#112;&#125;&#32;&#40;&#120;&#45;&#120;&#95;&#107;&#41;&#32;&#43;&#32;&#92;&#102;&#114;&#97;&#99;&#49;&#50;&#32;&#40;&#120;&#45;&#120;&#95;&#107;&#41;&#94;&#123;&#92;&#116;&#111;&#112;&#125;&#32;&#92;&#110;&#97;&#98;&#108;&#97;&#32;&#94;&#50;&#32;&#102;&#40;&#120;&#95;&#107;&#41;&#32;&#40;&#120;&#45;&#120;&#95;&#107;&#41;&#44;&#92;&#93;\" title=\"Rendered by QuickLaTeX.com\"\/><\/p><br>leading to the update rule <p class=\"ql-center-displayed-equation\" style=\"line-height: 26px;\"><span class=\"ql-right-eqno\"> &nbsp; <\/span><span class=\"ql-left-eqno\"> &nbsp; <\/span><img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-daca9bd942fef3b6a19df9db60671679_l3.png\" height=\"26\" width=\"265\" class=\"ql-img-displayed-equation quicklatex-auto-format\" alt=\"&#92;&#91;&#120;&#95;&#123;&#107;&#43;&#49;&#125;&#32;&#61;&#32;&#120;&#95;&#107;&#32;&#45;&#32;&#92;&#108;&#101;&#102;&#116;&#40;&#92;&#110;&#97;&#98;&#108;&#97;&#32;&#94;&#50;&#102;&#40;&#120;&#95;&#107;&#41;&#32;&#92;&#114;&#105;&#103;&#104;&#116;&#41;&#94;&#123;&#45;&#49;&#125;&#32;&#92;&#110;&#97;&#98;&#108;&#97;&#32;&#102;&#40;&#120;&#95;&#107;&#41;&#46;&#92;&#93;\" title=\"Rendered by QuickLaTeX.com\"\/><\/p><br>If the Newton method demonstrates fast convergence, it has the disadvantage to be expensive for large scale applications. To overcome that, the Hessian can be approximated by a metric <img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-adc4c20fdb1470b662e4cfbff8c310b3_l3.png\" class=\"ql-img-inline-formula quicklatex-auto-format\" alt=\"&#72;&#32;&#92;&#105;&#110;&#32;&#92;&#109;&#97;&#116;&#104;&#98;&#98;&#32;&#82;&#94;&#123;&#100;&#92;&#116;&#105;&#109;&#101;&#115;&#32;&#100;&#125;\" title=\"Rendered by QuickLaTeX.com\" height=\"16\" width=\"77\" style=\"vertical-align: -1px;\"\/>, that is symmetric positive definite.<br>Hence, the Quasi-Newton methods differ by considering different way to compute the sequence of matrix <img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-b177399c219c2de0d0f8c57fb9622727_l3.png\" class=\"ql-img-inline-formula quicklatex-auto-format\" alt=\"&#72;&#95;&#107;\" title=\"Rendered by QuickLaTeX.com\" height=\"15\" width=\"22\" style=\"vertical-align: -3px;\"\/>. One of the most famous Quasi-Newton method is the Broyden-Fletcher-Goldfarb-Shanno (BFGS) method.<\/p>\n\n\n\n<p>3. Subgradient method<\/p>\n\n\n\n<p>From now on, we no longer require <img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-9c09a708375fde2676da319bcdfe8b24_l3.png\" class=\"ql-img-inline-formula quicklatex-auto-format\" alt=\"&#102;\" title=\"Rendered by QuickLaTeX.com\" height=\"16\" width=\"10\" style=\"vertical-align: -4px;\"\/> to be differentiable (but <img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-9c09a708375fde2676da319bcdfe8b24_l3.png\" class=\"ql-img-inline-formula quicklatex-auto-format\" alt=\"&#102;\" title=\"Rendered by QuickLaTeX.com\" height=\"16\" width=\"10\" style=\"vertical-align: -4px;\"\/> is still convex). Subgradient method is certainly the simplest method for minimizing <img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-9c09a708375fde2676da319bcdfe8b24_l3.png\" class=\"ql-img-inline-formula quicklatex-auto-format\" alt=\"&#102;\" title=\"Rendered by QuickLaTeX.com\" height=\"16\" width=\"10\" style=\"vertical-align: -4px;\"\/>. It is similar to gradient descent but replacing gradients by subgradients.<br><p class=\"ql-center-displayed-equation\" style=\"line-height: 13px;\"><span class=\"ql-right-eqno\"> &nbsp; <\/span><span class=\"ql-left-eqno\"> &nbsp; <\/span><img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-d6fb6f2d1b5126eddcb912a8b03c4c2f_l3.png\" height=\"13\" width=\"138\" class=\"ql-img-displayed-equation quicklatex-auto-format\" alt=\"&#92;&#91;&#120;&#95;&#123;&#107;&#43;&#49;&#125;&#32;&#61;&#32;&#120;&#95;&#107;&#32;&#45;&#32;&#92;&#103;&#97;&#109;&#109;&#97;&#95;&#107;&#32;&#118;&#95;&#107;&#44;&#92;&#93;\" title=\"Rendered by QuickLaTeX.com\"\/><\/p><br>where <img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-6c6d7e236c008801c2110b063709e6b3_l3.png\" class=\"ql-img-inline-formula quicklatex-auto-format\" alt=\"&#118;&#95;&#107;&#32;&#92;&#105;&#110;&#32;&#92;&#112;&#97;&#114;&#116;&#105;&#97;&#108;&#32;&#102;&#40;&#120;&#95;&#107;&#41;\" title=\"Rendered by QuickLaTeX.com\" height=\"19\" width=\"91\" style=\"vertical-align: -5px;\"\/> and <img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-566615c9af5caaf0f8bfe4fe03cf1676_l3.png\" class=\"ql-img-inline-formula quicklatex-auto-format\" alt=\"&#92;&#103;&#97;&#109;&#109;&#97;&#95;&#107;\" title=\"Rendered by QuickLaTeX.com\" height=\"12\" width=\"16\" style=\"vertical-align: -4px;\"\/> is the step size.<\/p>\n\n\n\n<p>Remark : Contrarily to a negative gradient <img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-7383f6883d49c42f16972f49528597ff_l3.png\" class=\"ql-img-inline-formula quicklatex-auto-format\" alt=\"&#45;&#92;&#110;&#97;&#98;&#108;&#97;&#32;&#102;&#40;&#120;&#95;&#107;&#41;\" title=\"Rendered by QuickLaTeX.com\" height=\"19\" width=\"69\" style=\"vertical-align: -5px;\"\/>, a negative subgradient <img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-c8ed21a91b9d2d14333b680b4f8cc9e4_l3.png\" class=\"ql-img-inline-formula quicklatex-auto-format\" alt=\"&#45;&#118;&#95;&#107;&#44;&#32;&#92;&#59;&#32;&#118;&#95;&#107;&#32;&#92;&#105;&#110;&#32;&#92;&#112;&#97;&#114;&#116;&#105;&#97;&#108;&#32;&#102;&#40;&#120;&#95;&#107;&#41;\" title=\"Rendered by QuickLaTeX.com\" height=\"19\" width=\"133\" style=\"vertical-align: -5px;\"\/> is not a direction of descent in general. This means that the subgradient method is not a descent method (<img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-b6e80f5d0e65680c4ef5b43a7f2df771_l3.png\" class=\"ql-img-inline-formula quicklatex-auto-format\" alt=\"&#102;&#40;&#120;&#95;&#123;&#107;&#43;&#49;&#125;&#41;&#62;&#102;&#40;&#120;&#95;&#107;&#41;\" title=\"Rendered by QuickLaTeX.com\" height=\"19\" width=\"126\" style=\"vertical-align: -5px;\"\/> can occur).<\/p>\n\n\n\n<p>4. Proximal gradient method<\/p>\n\n\n\n<p>Optimization problems in machine learning are often of the form:<br><p class=\"ql-center-displayed-equation\" style=\"line-height: 28px;\"><span class=\"ql-right-eqno\"> &nbsp; <\/span><span class=\"ql-left-eqno\"> &nbsp; <\/span><img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-6830959a3789352ed1ac2cf0f34d9d68_l3.png\" height=\"28\" width=\"129\" class=\"ql-img-displayed-equation quicklatex-auto-format\" alt=\"&#92;&#91;&#32;&#92;&#109;&#105;&#110;&#95;&#123;&#32;&#120;&#32;&#92;&#105;&#110;&#32;&#92;&#109;&#97;&#116;&#104;&#98;&#98;&#32;&#82;&#94;&#100;&#125;&#32;&#102;&#40;&#120;&#41;&#32;&#43;&#32;&#32;&#103;&#40;&#120;&#41;&#44;&#92;&#93;\" title=\"Rendered by QuickLaTeX.com\"\/><\/p><br>where <img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-ae0e40afd0c2148356f402f8052fd06a_l3.png\" class=\"ql-img-inline-formula quicklatex-auto-format\" alt=\"&#102;&#32;&#58;&#32;&#92;&#109;&#97;&#116;&#104;&#98;&#98;&#32;&#82;&#94;&#100;&#32;&#92;&#116;&#111;&#32;&#82;\" title=\"Rendered by QuickLaTeX.com\" height=\"19\" width=\"88\" style=\"vertical-align: -4px;\"\/> is a differentiable and convex function and <img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-8e4582a434c205b8a5958c3347a08380_l3.png\" class=\"ql-img-inline-formula quicklatex-auto-format\" alt=\"&#103;&#32;&#58;&#32;&#92;&#109;&#97;&#116;&#104;&#98;&#98;&#32;&#82;&#94;&#100;&#32;&#92;&#116;&#111;&#32;&#40;&#45;&#92;&#105;&#110;&#102;&#116;&#121;&#44;&#43;&#92;&#105;&#110;&#102;&#116;&#121;&#93;\" title=\"Rendered by QuickLaTeX.com\" height=\"20\" width=\"153\" style=\"vertical-align: -5px;\"\/> is a convex function. In this section, we leverage the special structure of this problem to introduce fast<br>algorithms (compared to subgradient methods) even though the global function <img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-57f76aa2db4b424b55f49317bfe73971_l3.png\" class=\"ql-img-inline-formula quicklatex-auto-format\" alt=\"&#102;&#43;&#103;\" title=\"Rendered by QuickLaTeX.com\" height=\"16\" width=\"41\" style=\"vertical-align: -4px;\"\/> is not differentiable.<\/p>\n\n\n\n<p><strong>Definition <\/strong>(Proximal operator). Let <img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-2824076ea1cd408df1601ae0fb5c41c4_l3.png\" class=\"ql-img-inline-formula quicklatex-auto-format\" alt=\"&#104;&#58;&#32;&#92;&#109;&#97;&#116;&#104;&#98;&#98;&#32;&#82;&#94;&#100;&#32;&#92;&#116;&#111;&#32;&#91;&#45;&#92;&#105;&#110;&#102;&#116;&#121;&#44;&#43;&#92;&#105;&#110;&#102;&#116;&#121;&#93;\" title=\"Rendered by QuickLaTeX.com\" height=\"20\" width=\"153\" style=\"vertical-align: -5px;\"\/> be a proper, lower semi-continuous convex function. The proximal operator of <img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-14b463d0ecd5b350ced6cf1d6a12eef3_l3.png\" class=\"ql-img-inline-formula quicklatex-auto-format\" alt=\"&#104;\" title=\"Rendered by QuickLaTeX.com\" height=\"12\" width=\"10\" style=\"vertical-align: 0px;\"\/> is defined by:<br><p class=\"ql-center-displayed-equation\" style=\"line-height: 38px;\"><span class=\"ql-right-eqno\"> &nbsp; <\/span><span class=\"ql-left-eqno\"> &nbsp; <\/span><img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-a7ef21f52b3074efb935c00a1290e76b_l3.png\" height=\"38\" width=\"389\" class=\"ql-img-displayed-equation quicklatex-auto-format\" alt=\"&#92;&#91;&#32;&#92;&#102;&#111;&#114;&#97;&#108;&#108;&#32;&#120;&#32;&#92;&#105;&#110;&#32;&#92;&#109;&#97;&#116;&#104;&#98;&#98;&#32;&#82;&#94;&#100;&#44;&#32;&#92;&#113;&#117;&#97;&#100;&#32;&#92;&#109;&#97;&#116;&#104;&#114;&#109;&#123;&#112;&#114;&#111;&#120;&#125;&#95;&#104;&#32;&#40;&#120;&#41;&#32;&#61;&#32;&#92;&#97;&#114;&#103;&#32;&#92;&#109;&#105;&#110;&#95;&#123;&#32;&#117;&#32;&#92;&#105;&#110;&#32;&#92;&#109;&#97;&#116;&#104;&#98;&#98;&#32;&#82;&#94;&#100;&#125;&#32;&#92;&#59;&#32;&#102;&#40;&#117;&#41;&#32;&#43;&#32;&#92;&#102;&#114;&#97;&#99;&#49;&#50;&#32;&#92;&#124;&#120;&#45;&#117;&#92;&#124;&#94;&#50;&#95;&#50;&#46;&#92;&#93;\" title=\"Rendered by QuickLaTeX.com\"\/><\/p><br>(By strong convexity, the arg min exists and is a singleton, so proxg is well defined.)<\/p>\n\n\n\n<p>The following algorithm is workable in the setting described previously, that is when:<\/p>\n\n\n\n<ol><li><img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-c19f018b2dddd0adb9f796dfa5a3d4bb_l3.png\" class=\"ql-img-inline-formula quicklatex-auto-format\" alt=\"&#102;&#32;&#58;&#92;&#109;&#97;&#116;&#104;&#98;&#98;&#32;&#82;&#94;&#100;&#32;&#92;&#116;&#111;&#32;&#82;\" title=\"Rendered by QuickLaTeX.com\" height=\"19\" width=\"88\" style=\"vertical-align: -4px;\"\/> is convex and differentiable;<\/li><li><img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-8e4582a434c205b8a5958c3347a08380_l3.png\" class=\"ql-img-inline-formula quicklatex-auto-format\" alt=\"&#103;&#32;&#58;&#32;&#92;&#109;&#97;&#116;&#104;&#98;&#98;&#32;&#82;&#94;&#100;&#32;&#92;&#116;&#111;&#32;&#40;&#45;&#92;&#105;&#110;&#102;&#116;&#121;&#44;&#43;&#92;&#105;&#110;&#102;&#116;&#121;&#93;\" title=\"Rendered by QuickLaTeX.com\" height=\"20\" width=\"153\" style=\"vertical-align: -5px;\"\/> is convex with an easy-to-compute proximal operator.<\/li><\/ol>\n\n\n\n<p><p class=\"ql-center-displayed-equation\" style=\"line-height: 21px;\"><span class=\"ql-right-eqno\"> &nbsp; <\/span><span class=\"ql-left-eqno\"> &nbsp; <\/span><img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-26bb435000cde54737c4e250d3b3c206_l3.png\" height=\"21\" width=\"243\" class=\"ql-img-displayed-equation quicklatex-auto-format\" alt=\"&#92;&#91;&#120;&#95;&#123;&#107;&#43;&#49;&#125;&#32;&#61;&#32;&#92;&#109;&#97;&#116;&#104;&#114;&#109;&#123;&#112;&#114;&#111;&#120;&#125;&#95;&#123;&#92;&#103;&#97;&#109;&#109;&#97;&#95;&#107;&#32;&#103;&#125;&#40;&#120;&#95;&#107;&#32;&#45;&#32;&#92;&#103;&#97;&#109;&#109;&#97;&#95;&#107;&#32;&#92;&#110;&#97;&#98;&#108;&#97;&#32;&#102;&#40;&#120;&#95;&#107;&#41;&#44;&#92;&#93;\" title=\"Rendered by QuickLaTeX.com\"\/><\/p><br>where <img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-566615c9af5caaf0f8bfe4fe03cf1676_l3.png\" class=\"ql-img-inline-formula quicklatex-auto-format\" alt=\"&#92;&#103;&#97;&#109;&#109;&#97;&#95;&#107;\" title=\"Rendered by QuickLaTeX.com\" height=\"12\" width=\"16\" style=\"vertical-align: -4px;\"\/> is a step size.<br><\/p>\n\n\n\n<p>The interpretation of the proximal gradient method is very similar to the one of the gradient descent. It consists in minimizing a local quadratic approximation of <img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-9c09a708375fde2676da319bcdfe8b24_l3.png\" class=\"ql-img-inline-formula quicklatex-auto-format\" alt=\"&#102;\" title=\"Rendered by QuickLaTeX.com\" height=\"16\" width=\"10\" style=\"vertical-align: -4px;\"\/> plus the original non-differentiable function <img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-d208fd391fa57c168dc0f151de829fee_l3.png\" class=\"ql-img-inline-formula quicklatex-auto-format\" alt=\"&#103;\" title=\"Rendered by QuickLaTeX.com\" height=\"12\" width=\"9\" style=\"vertical-align: -4px;\"\/>:<br><p class=\"ql-center-displayed-equation\" style=\"line-height: 85px;\"><span class=\"ql-right-eqno\"> &nbsp; <\/span><span class=\"ql-left-eqno\"> &nbsp; <\/span><img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-a8aa7382e8c9b11258d005ec8962f29a_l3.png\" height=\"85\" width=\"605\" class=\"ql-img-displayed-equation quicklatex-auto-format\" alt=\"&#92;&#98;&#101;&#103;&#105;&#110;&#123;&#97;&#108;&#105;&#103;&#110;&#42;&#125;&#92;&#102;&#111;&#114;&#97;&#108;&#108;&#32;&#120;&#32;&#92;&#105;&#110;&#32;&#92;&#109;&#97;&#116;&#104;&#98;&#98;&#32;&#82;&#94;&#100;&#44;&#32;&#92;&#113;&#117;&#97;&#100;&#32;&#102;&#40;&#120;&#41;&#43;&#103;&#40;&#120;&#41;&#38;&#92;&#97;&#112;&#112;&#114;&#111;&#120;&#32;&#102;&#40;&#120;&#95;&#107;&#41;&#43;&#92;&#110;&#97;&#98;&#108;&#97;&#32;&#102;&#40;&#120;&#95;&#107;&#41;&#94;&#123;&#92;&#116;&#111;&#112;&#125;&#32;&#40;&#120;&#45;&#120;&#95;&#107;&#41;&#32;&#43;&#32;&#92;&#102;&#114;&#97;&#99;&#123;&#49;&#125;&#123;&#50;&#92;&#103;&#97;&#109;&#109;&#97;&#95;&#107;&#125;&#32;&#92;&#124;&#120;&#45;&#120;&#95;&#107;&#92;&#124;&#94;&#50;&#95;&#50;&#43;&#103;&#40;&#120;&#41;&#92;&#92;&#32;&#38;&#61;&#103;&#40;&#120;&#41;&#32;&#43;&#32;&#92;&#102;&#114;&#97;&#99;&#123;&#49;&#125;&#123;&#50;&#92;&#103;&#97;&#109;&#109;&#97;&#95;&#107;&#125;&#32;&#92;&#124;&#32;&#120;&#45;&#32;&#92;&#108;&#101;&#102;&#116;&#40;&#120;&#95;&#107;&#32;&#45;&#32;&#92;&#103;&#97;&#109;&#109;&#97;&#95;&#107;&#32;&#92;&#110;&#97;&#98;&#108;&#97;&#32;&#102;&#40;&#120;&#95;&#107;&#41;&#92;&#114;&#105;&#103;&#104;&#116;&#41;&#32;&#92;&#124;&#94;&#50;&#95;&#50;&#32;&#45;&#32;&#92;&#102;&#114;&#97;&#99;&#123;&#92;&#103;&#97;&#109;&#109;&#97;&#95;&#107;&#125;&#123;&#50;&#125;&#32;&#92;&#124;&#92;&#110;&#97;&#98;&#108;&#97;&#32;&#102;&#40;&#120;&#95;&#107;&#41;&#92;&#124;&#94;&#50;&#95;&#50;&#44;&#92;&#101;&#110;&#100;&#123;&#97;&#108;&#105;&#103;&#110;&#42;&#125;\" title=\"Rendered by QuickLaTeX.com\"\/><\/p><br>where <img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-566615c9af5caaf0f8bfe4fe03cf1676_l3.png\" class=\"ql-img-inline-formula quicklatex-auto-format\" alt=\"&#92;&#103;&#97;&#109;&#109;&#97;&#95;&#107;\" title=\"Rendered by QuickLaTeX.com\" height=\"12\" width=\"16\" style=\"vertical-align: -4px;\"\/> is unknown a priori.<\/p>\n\n\n\n<p>5. Douglas-Rachford method<\/p>\n\n\n\n<p>Here, we focus on the optimization problem:<br><p class=\"ql-center-displayed-equation\" style=\"line-height: 28px;\"><span class=\"ql-right-eqno\"> &nbsp; <\/span><span class=\"ql-left-eqno\"> &nbsp; <\/span><img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-cf106bc3285cb9b7f65ef01e223bc014_l3.png\" height=\"28\" width=\"129\" class=\"ql-img-displayed-equation quicklatex-auto-format\" alt=\"&#92;&#91;&#32;&#92;&#109;&#105;&#110;&#95;&#123;&#120;&#32;&#92;&#105;&#110;&#32;&#92;&#109;&#97;&#116;&#104;&#98;&#98;&#32;&#82;&#94;&#100;&#125;&#32;&#102;&#40;&#120;&#41;&#32;&#43;&#32;&#103;&#40;&#120;&#41;&#44;&#92;&#93;\" title=\"Rendered by QuickLaTeX.com\"\/><\/p><br>where <img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-102e108393cea113ecdbe282a0e15b64_l3.png\" class=\"ql-img-inline-formula quicklatex-auto-format\" alt=\"&#102;&#32;&#58;&#92;&#109;&#97;&#116;&#104;&#98;&#98;&#32;&#82;&#94;&#100;&#32;&#92;&#116;&#111;&#32;&#40;&#45;&#92;&#105;&#110;&#102;&#116;&#121;&#44;&#43;&#92;&#105;&#110;&#102;&#116;&#121;&#93;\" title=\"Rendered by QuickLaTeX.com\" height=\"20\" width=\"155\" style=\"vertical-align: -5px;\"\/> and <img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-62d8fde7799285be7d603f4942ce0541_l3.png\" class=\"ql-img-inline-formula quicklatex-auto-format\" alt=\"&#103;&#32;&#58;&#92;&#109;&#97;&#116;&#104;&#98;&#98;&#32;&#82;&#94;&#100;&#32;&#92;&#116;&#111;&#32;&#40;&#45;&#92;&#105;&#110;&#102;&#116;&#121;&#44;&#43;&#92;&#105;&#110;&#102;&#116;&#121;&#93;\" title=\"Rendered by QuickLaTeX.com\" height=\"20\" width=\"153\" style=\"vertical-align: -5px;\"\/> are two convex functions. Contrarily to the proximal gradient method, the Douglas-Rachford does not require f to be differentiable. Starting from an initial point <img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-b168ac4d8ba331aaca8c848684bb44f2_l3.png\" class=\"ql-img-inline-formula quicklatex-auto-format\" alt=\"&#121;&#95;&#48;&#32;&#92;&#105;&#110;&#32;&#92;&#109;&#97;&#116;&#104;&#98;&#98;&#32;&#82;&#94;&#100;\" title=\"Rendered by QuickLaTeX.com\" height=\"19\" width=\"59\" style=\"vertical-align: -4px;\"\/>, the Douglas-Rachford algorithm reads:<br><p class=\"ql-center-displayed-equation\" style=\"line-height: 49px;\"><span class=\"ql-right-eqno\"> &nbsp; <\/span><span class=\"ql-left-eqno\"> &nbsp; <\/span><img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-76f773078e0544fadd9feaf77d097c99_l3.png\" height=\"49\" width=\"323\" class=\"ql-img-displayed-equation quicklatex-auto-format\" alt=\"&#92;&#98;&#101;&#103;&#105;&#110;&#123;&#97;&#108;&#105;&#103;&#110;&#42;&#125;&#120;&#95;&#107;&#32;&#38;&#61;&#32;&#92;&#109;&#97;&#116;&#104;&#114;&#109;&#123;&#112;&#114;&#111;&#120;&#125;&#95;&#123;&#92;&#103;&#97;&#109;&#109;&#97;&#95;&#107;&#32;&#102;&#125;&#40;&#121;&#95;&#107;&#41;&#92;&#92;&#121;&#95;&#123;&#107;&#43;&#49;&#125;&#32;&#38;&#61;&#32;&#121;&#95;&#107;&#32;&#43;&#32;&#92;&#109;&#117;&#95;&#107;&#32;&#92;&#108;&#101;&#102;&#116;&#92;&#123;&#32;&#92;&#109;&#97;&#116;&#104;&#114;&#109;&#123;&#112;&#114;&#111;&#120;&#125;&#95;&#123;&#92;&#103;&#97;&#109;&#109;&#97;&#95;&#107;&#32;&#103;&#125;&#40;&#50;&#120;&#95;&#107;&#45;&#121;&#95;&#107;&#41;&#45;&#120;&#95;&#107;&#32;&#92;&#114;&#105;&#103;&#104;&#116;&#92;&#125;&#44;&#92;&#101;&#110;&#100;&#123;&#97;&#108;&#105;&#103;&#110;&#42;&#125;\" title=\"Rendered by QuickLaTeX.com\"\/><\/p><br>where <img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-fedead577b83063fc3566537d1d697c2_l3.png\" class=\"ql-img-inline-formula quicklatex-auto-format\" alt=\"&#92;&#103;&#97;&#109;&#109;&#97;&#95;&#107;&#62;&#48;\" title=\"Rendered by QuickLaTeX.com\" height=\"16\" width=\"50\" style=\"vertical-align: -4px;\"\/> is a step size and <img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-4d34a9e62025678a405bd56b8e7ce16b_l3.png\" class=\"ql-img-inline-formula quicklatex-auto-format\" alt=\"&#92;&#109;&#117;&#95;&#107;&#32;&#92;&#105;&#110;&#32;&#40;&#48;&#44;&#50;&#41;\" title=\"Rendered by QuickLaTeX.com\" height=\"19\" width=\"79\" style=\"vertical-align: -5px;\"\/>.<\/p>\n\n\n\n<p><br><\/p>\n\n\n\n<figure class=\"wp-block-table\"><table><tbody><tr><td><span class=\"has-inline-color has-vivid-red-color\">We can derive three special cases of the proximal gradient method:<br>&#8211; when <img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-505d8e2b47652b8802f0defbe1389f1e_l3.png\" class=\"ql-img-inline-formula quicklatex-auto-format\" alt=\"&#103;&#32;&#92;&#101;&#113;&#117;&#105;&#118;&#32;&#48;\" title=\"Rendered by QuickLaTeX.com\" height=\"16\" width=\"42\" style=\"vertical-align: -4px;\"\/>, the proximal gradient method is a gradient descent;<br>&#8211; when <img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-63196ae9e2f8e2933e302036a261b288_l3.png\" class=\"ql-img-inline-formula quicklatex-auto-format\" alt=\"&#103;&#32;&#92;&#101;&#113;&#117;&#105;&#118;&#32;&#92;&#99;&#104;&#105;&#95;&#67;\" title=\"Rendered by QuickLaTeX.com\" height=\"12\" width=\"55\" style=\"vertical-align: -4px;\"\/> for a set <img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-822e6f42b4e33d3137372615b939ccbc_l3.png\" class=\"ql-img-inline-formula quicklatex-auto-format\" alt=\"&#67;&#32;&#92;&#115;&#117;&#98;&#115;&#101;&#116;&#32;&#92;&#109;&#97;&#116;&#104;&#98;&#98;&#32;&#82;&#94;&#100;\" title=\"Rendered by QuickLaTeX.com\" height=\"16\" width=\"59\" style=\"vertical-align: -1px;\"\/>, the proximal method is a projected gradient descent;<br>&#8211; when <img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-02bc1cda9c2db13b68f3debe5f228d1c_l3.png\" class=\"ql-img-inline-formula quicklatex-auto-format\" alt=\"&#102;&#32;&#92;&#101;&#113;&#117;&#105;&#118;&#32;&#48;\" title=\"Rendered by QuickLaTeX.com\" height=\"16\" width=\"43\" style=\"vertical-align: -4px;\"\/>, we get the proximal point method.<\/span><\/td><\/tr><\/tbody><\/table><\/figure>\n\n\n\n<h2>III. Primal-Dual methods<\/h2>\n\n\n\n<p>Let us consider the optimization problem:<br>minimize<br><p class=\"ql-center-displayed-equation\" style=\"line-height: 28px;\"><span class=\"ql-right-eqno\"> &nbsp; <\/span><span class=\"ql-left-eqno\"> &nbsp; <\/span><img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-2d4ddc79761ad1c93e8e87b6a45bab06_l3.png\" height=\"28\" width=\"143\" class=\"ql-img-displayed-equation quicklatex-auto-format\" alt=\"&#92;&#98;&#101;&#103;&#105;&#110;&#123;&#101;&#113;&#117;&#97;&#116;&#105;&#111;&#110;&#42;&#125;&#32;&#92;&#109;&#105;&#110;&#95;&#123;&#120;&#32;&#92;&#105;&#110;&#32;&#92;&#109;&#97;&#116;&#104;&#98;&#98;&#32;&#82;&#94;&#100;&#125;&#32;&#102;&#40;&#120;&#41;&#32;&#43;&#32;&#103;&#40;&#65;&#120;&#41;&#32;&#44;&#92;&#108;&#97;&#98;&#101;&#108;&#123;&#80;&#49;&#48;&#125;&#92;&#101;&#110;&#100;&#123;&#101;&#113;&#117;&#97;&#116;&#105;&#111;&#110;&#125;\" title=\"Rendered by QuickLaTeX.com\"\/><\/p><br>where <img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-4fa26153d9730ccb928769fefd665149_l3.png\" class=\"ql-img-inline-formula quicklatex-auto-format\" alt=\"&#102;&#32;&#58;&#32;&#92;&#109;&#97;&#116;&#104;&#98;&#98;&#32;&#82;&#94;&#100;&#32;&#92;&#116;&#111;&#32;&#40;&#45;&#92;&#105;&#110;&#102;&#116;&#121;&#44;&#32;&#43;&#92;&#105;&#110;&#102;&#116;&#121;&#93;\" title=\"Rendered by QuickLaTeX.com\" height=\"20\" width=\"155\" style=\"vertical-align: -5px;\"\/> and <img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-268837fafdf80c6cc15bcc3a104d132b_l3.png\" class=\"ql-img-inline-formula quicklatex-auto-format\" alt=\"&#103;&#32;&#58;&#92;&#109;&#97;&#116;&#104;&#98;&#98;&#32;&#82;&#94;&#112;&#32;&#92;&#116;&#111;&#32;&#40;&#45;&#92;&#105;&#110;&#102;&#116;&#121;&#44;&#32;&#43;&#92;&#105;&#110;&#102;&#116;&#121;&#93;\" title=\"Rendered by QuickLaTeX.com\" height=\"19\" width=\"153\" style=\"vertical-align: -5px;\"\/> are proper convex and <img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-cf3daf68b8ab331005aa1a85f181e7c7_l3.png\" class=\"ql-img-inline-formula quicklatex-auto-format\" alt=\"&#65;&#32;&#92;&#105;&#110;&#32;&#92;&#109;&#97;&#116;&#104;&#98;&#98;&#32;&#82;&#94;&#123;&#112;&#92;&#116;&#105;&#109;&#101;&#115;&#32;&#100;&#125;\" title=\"Rendered by QuickLaTeX.com\" height=\"16\" width=\"74\" style=\"vertical-align: -1px;\"\/>. This problem is equivalent to<br><p class=\"ql-center-displayed-equation\" style=\"line-height: 57px;\"><span class=\"ql-right-eqno\"> &nbsp; <\/span><span class=\"ql-left-eqno\"> &nbsp; <\/span><img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-9d923f8a1bb91e146e4f13ec59417e54_l3.png\" height=\"57\" width=\"169\" class=\"ql-img-displayed-equation quicklatex-auto-format\" alt=\"&#92;&#98;&#101;&#103;&#105;&#110;&#123;&#97;&#108;&#105;&#103;&#110;&#42;&#125;&#32;&#92;&#109;&#105;&#110;&#95;&#123;&#120;&#32;&#92;&#105;&#110;&#32;&#92;&#109;&#97;&#116;&#104;&#98;&#98;&#32;&#82;&#94;&#100;&#44;&#32;&#92;&#59;&#32;&#121;&#32;&#92;&#105;&#110;&#32;&#92;&#109;&#97;&#116;&#104;&#98;&#98;&#32;&#82;&#94;&#112;&#125;&#32;&#92;&#59;&#32;&#38;&#102;&#40;&#120;&#41;&#43;&#103;&#40;&#121;&#41;&#32;&#92;&#92;&#38;&#32;&#115;&#46;&#116;&#46;&#32;&#92;&#59;&#32;&#92;&#59;&#32;&#32;&#65;&#120;&#32;&#61;&#32;&#121;&#92;&#101;&#110;&#100;&#123;&#97;&#108;&#105;&#103;&#110;&#42;&#125;\" title=\"Rendered by QuickLaTeX.com\"\/><\/p><br><\/p>\n\n\n\n<p>The dual function to this last problem is:<br><p class=\"ql-center-displayed-equation\" style=\"line-height: 112px;\"><span class=\"ql-right-eqno\"> &nbsp; <\/span><span class=\"ql-left-eqno\"> &nbsp; <\/span><img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-a3c6ce9cb29ace3f5e1760e112cd93aa_l3.png\" height=\"112\" width=\"504\" class=\"ql-img-displayed-equation quicklatex-auto-format\" alt=\"&#92;&#98;&#101;&#103;&#105;&#110;&#123;&#97;&#108;&#105;&#103;&#110;&#42;&#125;&#92;&#102;&#111;&#114;&#97;&#108;&#108;&#32;&#92;&#110;&#117;&#32;&#92;&#105;&#110;&#32;&#92;&#109;&#97;&#116;&#104;&#98;&#98;&#32;&#82;&#94;&#112;&#44;&#32;&#92;&#113;&#117;&#97;&#100;&#32;&#71;&#40;&#92;&#110;&#117;&#41;&#38;&#61;&#32;&#92;&#105;&#110;&#102;&#95;&#123;&#120;&#32;&#92;&#105;&#110;&#32;&#92;&#109;&#97;&#116;&#104;&#98;&#98;&#32;&#82;&#94;&#100;&#44;&#32;&#121;&#32;&#92;&#105;&#110;&#32;&#92;&#109;&#97;&#116;&#104;&#98;&#98;&#32;&#82;&#94;&#112;&#125;&#32;&#92;&#108;&#101;&#102;&#116;&#92;&#123;&#32;&#32;&#32;&#102;&#40;&#120;&#41;&#32;&#43;&#32;&#103;&#40;&#121;&#41;&#32;&#43;&#32;&#92;&#110;&#117;&#94;&#123;&#92;&#116;&#111;&#112;&#125;&#65;&#120;&#32;&#45;&#32;&#92;&#110;&#117;&#94;&#123;&#92;&#116;&#111;&#112;&#125;&#121;&#32;&#92;&#114;&#105;&#103;&#104;&#116;&#92;&#125;&#92;&#92;&#38;&#61;&#45;&#32;&#92;&#115;&#117;&#112;&#95;&#123;&#121;&#32;&#92;&#105;&#110;&#92;&#109;&#97;&#116;&#104;&#98;&#98;&#32;&#82;&#94;&#112;&#125;&#32;&#92;&#108;&#101;&#102;&#116;&#92;&#123;&#32;&#32;&#92;&#110;&#117;&#94;&#123;&#92;&#116;&#111;&#112;&#125;&#121;&#45;&#103;&#40;&#121;&#41;&#92;&#114;&#105;&#103;&#104;&#116;&#92;&#125;&#45;&#32;&#92;&#115;&#117;&#112;&#95;&#123;&#120;&#32;&#92;&#105;&#110;&#92;&#109;&#97;&#116;&#104;&#98;&#98;&#32;&#82;&#94;&#100;&#125;&#32;&#92;&#108;&#101;&#102;&#116;&#92;&#123;&#32;&#45;&#92;&#110;&#117;&#94;&#123;&#92;&#116;&#111;&#112;&#125;&#65;&#120;&#45;&#102;&#40;&#120;&#41;&#92;&#114;&#105;&#103;&#104;&#116;&#92;&#125;&#92;&#92;&#38;&#61;&#45;&#103;&#94;&#42;&#40;&#92;&#110;&#117;&#41;&#45;&#102;&#94;&#42;&#40;&#45;&#65;&#94;&#123;&#92;&#116;&#111;&#112;&#125;&#92;&#110;&#117;&#41;&#46;&#92;&#101;&#110;&#100;&#123;&#97;&#108;&#105;&#103;&#110;&#42;&#125;\" title=\"Rendered by QuickLaTeX.com\"\/><\/p><br>Therefore, the dual problem of interest is:<br><a name=\"id103764285\"><\/a><p class=\"ql-center-displayed-equation\" style=\"line-height: 29px;\"><span class=\"ql-right-eqno\"> (1) <\/span><span class=\"ql-left-eqno\"> &nbsp; <\/span><img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-d90f365481dc20dcd1488b0dceb55229_l3.png\" height=\"29\" width=\"191\" class=\"ql-img-displayed-equation quicklatex-auto-format\" alt=\"&#92;&#98;&#101;&#103;&#105;&#110;&#123;&#97;&#108;&#105;&#103;&#110;&#42;&#125;&#32;&#92;&#109;&#97;&#120;&#95;&#123;&#92;&#110;&#117;&#32;&#92;&#105;&#110;&#32;&#92;&#109;&#97;&#116;&#104;&#98;&#98;&#32;&#82;&#94;&#112;&#125;&#32;&#45;&#103;&#94;&#42;&#40;&#92;&#110;&#117;&#41;&#45;&#102;&#94;&#42;&#40;&#45;&#65;&#94;&#123;&#92;&#116;&#111;&#112;&#125;&#92;&#110;&#117;&#41;&#32;&#92;&#101;&#110;&#100;&#123;&#97;&#108;&#105;&#103;&#110;&#42;&#125;\" title=\"Rendered by QuickLaTeX.com\"\/><\/p><\/p>\n\n\n\n<p><strong>Theorem <\/strong><br>Let <img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-102e108393cea113ecdbe282a0e15b64_l3.png\" class=\"ql-img-inline-formula quicklatex-auto-format\" alt=\"&#102;&#32;&#58;&#92;&#109;&#97;&#116;&#104;&#98;&#98;&#32;&#82;&#94;&#100;&#32;&#92;&#116;&#111;&#32;&#40;&#45;&#92;&#105;&#110;&#102;&#116;&#121;&#44;&#43;&#92;&#105;&#110;&#102;&#116;&#121;&#93;\" title=\"Rendered by QuickLaTeX.com\" height=\"20\" width=\"155\" style=\"vertical-align: -5px;\"\/>, <img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-c4adcd72b04fedcea8342d26c611c6c3_l3.png\" class=\"ql-img-inline-formula quicklatex-auto-format\" alt=\"&#103;&#32;&#58;&#32;&#58;&#92;&#109;&#97;&#116;&#104;&#98;&#98;&#32;&#82;&#94;&#112;&#32;&#92;&#116;&#111;&#32;&#40;&#45;&#92;&#105;&#110;&#102;&#116;&#121;&#44;&#43;&#92;&#105;&#110;&#102;&#116;&#121;&#93;\" title=\"Rendered by QuickLaTeX.com\" height=\"19\" width=\"158\" style=\"vertical-align: -5px;\"\/> be proper convex functions and <img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-cf3daf68b8ab331005aa1a85f181e7c7_l3.png\" class=\"ql-img-inline-formula quicklatex-auto-format\" alt=\"&#65;&#32;&#92;&#105;&#110;&#32;&#92;&#109;&#97;&#116;&#104;&#98;&#98;&#32;&#82;&#94;&#123;&#112;&#92;&#116;&#105;&#109;&#101;&#115;&#32;&#100;&#125;\" title=\"Rendered by QuickLaTeX.com\" height=\"16\" width=\"74\" style=\"vertical-align: -1px;\"\/>. Assume that either <img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-57222f1b8572dd645e40939000e16cb8_l3.png\" class=\"ql-img-inline-formula quicklatex-auto-format\" alt=\"&#92;&#109;&#97;&#116;&#104;&#114;&#109;&#123;&#100;&#111;&#109;&#125;&#40;&#102;&#41;&#61;&#32;&#92;&#109;&#97;&#116;&#104;&#98;&#98;&#32;&#82;&#94;&#100;\" title=\"Rendered by QuickLaTeX.com\" height=\"20\" width=\"102\" style=\"vertical-align: -5px;\"\/> or <img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-59e875940fa2a90f929b5f4d111ec1af_l3.png\" class=\"ql-img-inline-formula quicklatex-auto-format\" alt=\"&#92;&#109;&#97;&#116;&#104;&#114;&#109;&#123;&#100;&#111;&#109;&#125;&#40;&#103;&#41;&#61;&#32;&#92;&#109;&#97;&#116;&#104;&#98;&#98;&#32;&#82;&#94;&#112;\" title=\"Rendered by QuickLaTeX.com\" height=\"19\" width=\"100\" style=\"vertical-align: -5px;\"\/> and that <img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-85973172052b4ac736f7d6090d34ed05_l3.png\" class=\"ql-img-inline-formula quicklatex-auto-format\" alt=\"&#92;&#101;&#120;&#105;&#115;&#116;&#115;&#32;&#120;&#32;&#92;&#105;&#110;&#32;&#92;&#109;&#97;&#116;&#104;&#98;&#98;&#32;&#82;&#94;&#100;&#32;&#92;&#59;&#32;&#58;&#32;&#92;&#59;&#32;&#32;&#65;&#120;&#92;&#105;&#110;&#32;&#92;&#109;&#97;&#116;&#104;&#114;&#109;&#123;&#100;&#111;&#109;&#125;&#40;&#103;&#41;\" title=\"Rendered by QuickLaTeX.com\" height=\"20\" width=\"188\" style=\"vertical-align: -5px;\"\/>.<br>If the optima are attained in Problem \\eqref{P10} and Problem \\eqref{P11}, then strong duality holds:<br><p class=\"ql-center-displayed-equation\" style=\"line-height: 31px;\"><span class=\"ql-right-eqno\"> &nbsp; <\/span><span class=\"ql-left-eqno\"> &nbsp; <\/span><img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-5ac264a361135f0f03c7255762239984_l3.png\" height=\"31\" width=\"359\" class=\"ql-img-displayed-equation quicklatex-auto-format\" alt=\"&#92;&#91;&#32;&#92;&#109;&#105;&#110;&#95;&#123;&#120;&#32;&#92;&#105;&#110;&#32;&#92;&#109;&#97;&#116;&#104;&#98;&#98;&#32;&#82;&#94;&#100;&#125;&#32;&#102;&#40;&#120;&#41;&#32;&#43;&#32;&#103;&#40;&#65;&#120;&#41;&#32;&#61;&#32;&#32;&#92;&#109;&#97;&#120;&#95;&#123;&#92;&#110;&#117;&#32;&#92;&#105;&#110;&#32;&#92;&#109;&#97;&#116;&#104;&#98;&#98;&#32;&#82;&#94;&#112;&#125;&#45;&#32;&#103;&#94;&#42;&#40;&#92;&#110;&#117;&#41;&#45;&#102;&#94;&#42;&#40;&#45;&#65;&#94;&#123;&#92;&#116;&#111;&#112;&#125;&#92;&#110;&#117;&#41;&#46;&#92;&#93;\" title=\"Rendered by QuickLaTeX.com\"\/><\/p><br>Moreover, a primal-dual optimum is a solution to the saddle-point problem:<br><p class=\"ql-center-displayed-equation\" style=\"line-height: 30px;\"><span class=\"ql-right-eqno\"> &nbsp; <\/span><span class=\"ql-left-eqno\"> &nbsp; <\/span><img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-dc439152c48111837faa60643d7fc1a9_l3.png\" height=\"30\" width=\"291\" class=\"ql-img-displayed-equation quicklatex-auto-format\" alt=\"&#92;&#91;&#32;&#92;&#109;&#105;&#110;&#123;&#120;&#32;&#92;&#105;&#110;&#32;&#92;&#109;&#97;&#116;&#104;&#98;&#98;&#32;&#82;&#94;&#100;&#125;&#32;&#92;&#109;&#97;&#120;&#95;&#123;&#32;&#92;&#110;&#117;&#32;&#92;&#105;&#110;&#32;&#92;&#109;&#97;&#116;&#104;&#98;&#98;&#32;&#82;&#94;&#112;&#125;&#32;&#102;&#40;&#120;&#41;&#43;&#92;&#110;&#117;&#94;&#123;&#92;&#116;&#111;&#112;&#125;&#65;&#120;&#45;&#103;&#94;&#42;&#40;&#92;&#110;&#117;&#41;&#46;&#92;&#93;\" title=\"Rendered by QuickLaTeX.com\"\/><\/p><\/p>\n\n\n\n<p>We have seen previously that the proximal gradient method, used for minimizing a composite objective function, reduces to:<\/p>\n\n\n\n<ol><li>the gradient method when <img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-505d8e2b47652b8802f0defbe1389f1e_l3.png\" class=\"ql-img-inline-formula quicklatex-auto-format\" alt=\"&#103;&#32;&#92;&#101;&#113;&#117;&#105;&#118;&#32;&#48;\" title=\"Rendered by QuickLaTeX.com\" height=\"16\" width=\"42\" style=\"vertical-align: -4px;\"\/><\/li><li>the proximal point method when <img loading=\"lazy\" src=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/wp-content\/ql-cache\/quicklatex.com-02bc1cda9c2db13b68f3debe5f228d1c_l3.png\" class=\"ql-img-inline-formula quicklatex-auto-format\" alt=\"&#102;&#32;&#92;&#101;&#113;&#117;&#105;&#118;&#32;&#48;\" title=\"Rendered by QuickLaTeX.com\" height=\"16\" width=\"43\" style=\"vertical-align: -4px;\"\/>.<\/li><\/ol>\n\n\n\n<p>In this section, we exploit these two simple algorithms with the dual problem \\eqref{P11} to devise primal-dual methods.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>In this post, I will start by presenting some famous optimization algorithms. In a second step, I will give some interesting connections between them, allowing the reader to get a better understanding of the field. I. Greedy methods II. Primal methods Gradient descent In this section, we consider a function , that is differentiable and<\/p>\n<div class=\"more-link\">\n             <a href=\"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/index.php\/2025\/08\/08\/connections-between-optimization-methods\/\" class=\"read-more\">Read More<i class=\"fa fa-caret-right\"><\/i><\/a>\n        <\/div>\n","protected":false},"author":1,"featured_media":0,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":[],"categories":[1],"tags":[],"_links":{"self":[{"href":"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/index.php\/wp-json\/wp\/v2\/posts\/693"}],"collection":[{"href":"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/index.php\/wp-json\/wp\/v2\/comments?post=693"}],"version-history":[{"count":14,"href":"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/index.php\/wp-json\/wp\/v2\/posts\/693\/revisions"}],"predecessor-version":[{"id":707,"href":"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/index.php\/wp-json\/wp\/v2\/posts\/693\/revisions\/707"}],"wp:attachment":[{"href":"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/index.php\/wp-json\/wp\/v2\/media?parent=693"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/index.php\/wp-json\/wp\/v2\/categories?post=693"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/quentin-duchemin.alwaysdata.net\/wiki\/index.php\/wp-json\/wp\/v2\/tags?post=693"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}