XD blog

blog page

computer science


2014-08-19 Diversité et optimisation

J'ai passé quelques jours au bord de la mer et j'ai inévitablement mangé des huîtres. Il y a quelques années, ces huîtres d'été étaient laiteuses. Je devais être un des rares à les apprécier car elles ne le sont plus depuis 10 ans. Bien que je les aime moins, il y a 10 ans, il était plus avantageux économiquement de les remplacer par des huîtres non laiteuses : Huîtres en voie d'extinction, La surmortalité des coquillages inquiète les producteurs, Les éleveurs d'huîtres et de moules crient leur désarroi. La nouvelle huître grandit également en deux ans au lieu de quatre pour la diploïde. Mais si son taux de mortalité dépasse les 50% par rapport à celui de l'autre espèce, cet avantage disparaît et c'est bien ce qui est en train de se produire. La nouvelle huître est triploïde et ne peut plus se reproduire seul. La reproduction en écloserie a sans aucun doute réduit la diversité génétique des huîtres et leur capacité à trouver une parade à toute nouvelle agression. Tout s'est passé en dix ans, de quoi garder le souvenir de l'ancienne façon de faire et de retrouver la cause.

Inventer une nouvelle huître n'était sans doute pas la seule façon de contourner le problème de l'huître laiteuse. On aurait peut-être pu réinventer la façon de les manger. Il n'y a finalement qu'une idée qui est restée. C'est peut-être aussi notre façon de fonctionner que nous devrions ajuster : ne pas jeter toutes nos idées pour ne garder que la meilleure. C'est peut-être l'appauvrissement de notre imagination que nous aurions à subir.

2014-08-09 L'informatique et Wikipedia

Je référence souvent Wikipedia dans mes cours, le plus souvent possible la page française quand elle existe mais force est de constater qu'elle n'existe pas toujours. C'est le cas de celui-ci Longest increasing subsequence qui est un problème classique mais pas si évident que cela (voir plus grande séquence croissante). Il faudrait que je regarde de façon statistique quels sont les domaines les mieux représentés selon les différentes langues. De mémoire, il existe toujours une version anglaise, sans doute parce que cette langue est devenue la langue scientifique. En ce qui concerne les algorithmes, les pages françaises sont souvent moins fournies, et on voit plus souvent des versions russes ou polonaises : Reservoir Sampling, Johnson's algorithm. Travaillant pour une multinationale, je constate que les ingénieurs des pays de l'Est découvrent beaucoup plus tôt l'informatique et sont plus cultivés dans ce domaine. Les deux faits sont-ils liés ?

2014-01-12 R or Python

Should you use R or Python? I won't give a precise answer except a reference to this blog post: Python Displacing R As The Programming Language For Data Science. To summarize, if you are a statistician, you are already using R. However, if you are not a statistician but you need statistics, you are probably wondering if you should use R and another language or just another language. R is not very well designed as a programming language and is not very suitable to manipulate files, create a web server or games... Using Python for everything avoids switching to another language. It avoids converting the data into various formats between the two languages.

With pandas, numpy, scipy, scikit-learn, matplotlib, IPython, many common statistics routines are available in Python. In the last two years, it became a really strong alternative to R. In the next years, SAS should less and less used (see Forecast Update: Will 2014 be the Beginning of the End for SAS and SPSS?). Computers speed and memory are not an issue anymore with others alternatives. Plus, it is expensive. I would also look at Julia (+ Julia Studio) which seems to be a promising language. I discovered at MCMSki IV. But maybe the future will be dedicated languages such as BUGS for bayesian models.

Finally, some articles about R and Python:

2014/06/30: I recommend reading Numeric matrix manipulation, The cheat sheet for MATLAB, Python NumPy, R, and Julia


Xavier Dupré