{"cells": [{"cell_type": "markdown", "metadata": {}, "source": ["# 2A.ml - Machine Learning et donn\u00e9es crypt\u00e9es\n", "\n", "Comment faire du machine learning avec des donn\u00e9es crypt\u00e9es ? Ce notebook propose d'en montrer un principe expos\u00e9 dans [CryptoNets: Applying Neural Networks to Encrypted Data with High Throughput and Accuracy](http://proceedings.mlr.press/v48/gilad-bachrach16.pdf)."]}, {"cell_type": "code", "execution_count": 1, "metadata": {"collapsed": true}, "outputs": [], "source": ["%matplotlib inline"]}, {"cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [{"data": {"text/html": ["<div id=\"my_id_menu_nb\">run previous cell, wait for 2 seconds</div>\n", "<script>\n", "function repeat_indent_string(n){\n", "    var a = \"\" ;\n", "    for ( ; n > 0 ; --n)\n", "        a += \"    \";\n", "    return a;\n", "}\n", "var update_menu_string = function(begin, lfirst, llast, sformat, send, keep_item, begin_format, end_format) {\n", "    var anchors = document.getElementsByClassName(\"section\");\n", "    if (anchors.length == 0) {\n", "        anchors = document.getElementsByClassName(\"text_cell_render rendered_html\");\n", "    }\n", "    var i,t;\n", "    var text_menu = begin;\n", "    var text_memo = \"<pre>\\nlength:\" + anchors.length + \"\\n\";\n", "    var ind = \"\";\n", "    var memo_level = 1;\n", "    var href;\n", "    var tags = [];\n", "    var main_item = 0;\n", "    var format_open = 0;\n", "    for (i = 0; i <= llast; i++)\n", "        tags.push(\"h\" + i);\n", "\n", "    for (i = 0; i < anchors.length; i++) {\n", "        text_memo += \"**\" + anchors[i].id + \"--\\n\";\n", "\n", "        var child = null;\n", "        for(t = 0; t < tags.length; t++) {\n", "            var r = anchors[i].getElementsByTagName(tags[t]);\n", "            if (r.length > 0) {\n", "child = r[0];\n", "break;\n", "            }\n", "        }\n", "        if (child == null) {\n", "            text_memo += \"null\\n\";\n", "            continue;\n", "        }\n", "        if (anchors[i].hasAttribute(\"id\")) {\n", "            // when converted in RST\n", "            href = anchors[i].id;\n", "            text_memo += \"#1-\" + href;\n", "            // passer \u00e0 child suivant (le chercher)\n", "        }\n", "        else if (child.hasAttribute(\"id\")) {\n", "            // in a notebook\n", "            href = child.id;\n", "            text_memo += \"#2-\" + href;\n", "        }\n", "        else {\n", "            text_memo += \"#3-\" + \"*\" + \"\\n\";\n", "            continue;\n", "        }\n", "        var title = child.textContent;\n", "        var level = parseInt(child.tagName.substring(1,2));\n", "\n", "        text_memo += \"--\" + level + \"?\" + lfirst + \"--\" + title + \"\\n\";\n", "\n", "        if ((level < lfirst) || (level > llast)) {\n", "            continue ;\n", "        }\n", "        if (title.endsWith('\u00b6')) {\n", "            title = title.substring(0,title.length-1).replace(\"<\", \"&lt;\")\n", "         .replace(\">\", \"&gt;\").replace(\"&\", \"&amp;\");\n", "        }\n", "        if (title.length == 0) {\n", "            continue;\n", "        }\n", "\n", "        while (level < memo_level) {\n", "            text_menu += end_format + \"</ul>\\n\";\n", "            format_open -= 1;\n", "            memo_level -= 1;\n", "        }\n", "        if (level == lfirst) {\n", "            main_item += 1;\n", "        }\n", "        if (keep_item != -1 && main_item != keep_item + 1) {\n", "            // alert(main_item + \" - \" + level + \" - \" + keep_item);\n", "            continue;\n", "        }\n", "        while (level > memo_level) {\n", "            text_menu += \"<ul>\\n\";\n", "            memo_level += 1;\n", "        }\n", "        text_menu += repeat_indent_string(level-2);\n", "        text_menu += begin_format + sformat.replace(\"__HREF__\", href).replace(\"__TITLE__\", title);\n", "        format_open += 1;\n", "    }\n", "    while (1 < memo_level) {\n", "        text_menu += end_format + \"</ul>\\n\";\n", "        memo_level -= 1;\n", "        format_open -= 1;\n", "    }\n", "    text_menu += send;\n", "    //text_menu += \"\\n\" + text_memo;\n", "\n", "    while (format_open > 0) {\n", "        text_menu += end_format;\n", "        format_open -= 1;\n", "    }\n", "    return text_menu;\n", "};\n", "var update_menu = function() {\n", "    var sbegin = \"\";\n", "    var sformat = '<a href=\"#__HREF__\">__TITLE__</a>';\n", "    var send = \"\";\n", "    var begin_format = '<li>';\n", "    var end_format = '</li>';\n", "    var keep_item = -1;\n", "    var text_menu = update_menu_string(sbegin, 2, 4, sformat, send, keep_item,\n", "       begin_format, end_format);\n", "    var menu = document.getElementById(\"my_id_menu_nb\");\n", "    menu.innerHTML=text_menu;\n", "};\n", "window.setTimeout(update_menu,2000);\n", "            </script>"], "text/plain": ["<IPython.core.display.HTML object>"]}, "execution_count": 3, "metadata": {}, "output_type": "execute_result"}], "source": ["from jyquickhelper import add_notebook_menu\n", "add_notebook_menu()"]}, {"cell_type": "markdown", "metadata": {}, "source": ["## Principe\n", "\n", "Le machine learning sur des donn\u00e9es crypt\u00e9es repose sur un algorithme de [chiffrement_homomorphe](https://fr.wikipedia.org/wiki/Chiffrement_homomorphe) ou [homomorphic encryption](https://en.wikipedia.org/wiki/Homomorphic_encryption). Ce concept a \u00e9t\u00e9 invent\u00e9 par Craig Gentry (lire [Fully Homomorphic Encryption Using Ideal Lattices](https://www.cs.cmu.edu/~odonnell/hits09/gentry-homomorphic-encryption.pdf), [Fully Homomorphic Encryption over the Integers](https://eprint.iacr.org/2009/616.pdf)). On note $x \\rightarrow \\varepsilon(x)$ une fonction de chiffrement compl\u00e8tement homomorphe. Il v\u00e9rifie :\n", "\n", "$$\\begin{array}{ll}\\varepsilon(x+y) = \\varepsilon(x) + \\varepsilon(y) \\\\ \\varepsilon(x*y) = \\varepsilon(x) * \\varepsilon(y)\\end{array}$$. Dans l'exemple qui suit, nous avons besoin que le syst\u00e8me de cryptage soit [partiellement homomorphe](https://fr.wikipedia.org/wiki/Chiffrement_homomorphe#Syst.C3.A8mes_partiellement_homomorphes) : seule l'addition est stable une fois l'entier crypt\u00e9.\n", "\n", "Un exemple : $\\varepsilon:\\mathbb{N} \\rightarrow \\mathbb{Z}/n\\mathbb{Z}$ et $\\varepsilon(x) = (x * a) \\mod n$. Cela veut dire que l'on peut crypter des donn\u00e9es, faire des calculs avec et d\u00e9crypter un r\u00e9sultat qui serait presque le m\u00eame que si les calculs avaient \u00e9t\u00e9 fait sur les donn\u00e9es non crypt\u00e9es."]}, {"cell_type": "markdown", "metadata": {}, "source": ["## Exercice 1 : \u00e9crire deux fonctions de cryptage, d\u00e9cryptage\n", "\n", "Il faut bien choisir $n$, $a$ pour impl\u00e9menter la fonction de cryptage :\n", "$\\varepsilon:\\mathbb{N} \\rightarrow \\mathbb{Z}/n\\mathbb{Z}$ et $\\varepsilon(x) = (x * a) \\mod n$. On v\u00e9rifie ensuite qu'elle conserve l'addition au module $n$ pr\u00e8s."]}, {"cell_type": "code", "execution_count": 3, "metadata": {"collapsed": true}, "outputs": [], "source": []}, {"cell_type": "markdown", "metadata": {}, "source": ["## Exercice 2 : Entra\u00eener une r\u00e9gression lin\u00e9aire"]}, {"cell_type": "code", "execution_count": 4, "metadata": {"collapsed": true}, "outputs": [], "source": ["from sklearn.datasets import load_diabetes\n", "data = load_diabetes()"]}, {"cell_type": "code", "execution_count": 5, "metadata": {"collapsed": true}, "outputs": [], "source": ["X = data.data\n", "Y = data.target"]}, {"cell_type": "code", "execution_count": 6, "metadata": {"collapsed": true}, "outputs": [], "source": []}, {"cell_type": "markdown", "metadata": {}, "source": ["## Exercice 3 : r\u00e9\u00e9crire la fonction de pr\u00e9diction pour une r\u00e9gression lin\u00e9aire\n"]}, {"cell_type": "code", "execution_count": 7, "metadata": {"collapsed": true}, "outputs": [], "source": []}, {"cell_type": "markdown", "metadata": {}, "source": ["## Exercice 4 : assembler le tout\n", "\n", "Prendre une observation, crypter, pr\u00e9dire, d\u00e9crypter, comparer avec la version non crypt\u00e9e. Il faudra sans doute un peu ruser car la fonction de cryptage s'applique \u00e0 des entiers et le mod\u00e8le de pr\u00e9diction \u00e0 des r\u00e9els."]}, {"cell_type": "code", "execution_count": 8, "metadata": {"collapsed": true}, "outputs": [], "source": []}, {"cell_type": "markdown", "metadata": {}, "source": ["## Questions\n", "\n", "* A quelle condition peut-on aussi entra\u00eener un mod\u00e8le sur des donn\u00e9es crypt\u00e9es ?\n", "* Et les arbres de d\u00e9cision ?"]}, {"cell_type": "code", "execution_count": 9, "metadata": {"collapsed": true}, "outputs": [], "source": []}], "metadata": {"kernelspec": {"display_name": "Python 3", "language": "python", "name": "python3"}, "language_info": {"codemirror_mode": {"name": "ipython", "version": 3}, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.6.1"}}, "nbformat": 4, "nbformat_minor": 2}