De l’utilisation des permutations

Quel rapport entre permutations et Spin ?

Pour ajouter de la complexité à un masterspin, il est de plus en plus courant de « permuter » différents textes ou morceaux de texte.

Par exemple, dans une énumération, on peut utiliser des arrangements pour varier à peu de frais des morceaux de phrases : On liste des noms des personnes, disons 8 personnes, et on permute pour avoir une liste de 3 personnes[1] parmi ces 8.
La cheat sheet nous donne 336 arrangements au total pour ce cas.
C’est raisonnable, ça porte sur de petits textes, ça apporte plus de variété que si on ne fait que 3 parmi 3 dans tous les sens. Comme on n’utilise pour une sortie donnée QUE 3 items parmi 8, il va exister des sorties très différentes, puisqu’on peut avoir des sorties qui n’auront AUCUN nom en commun entre elles. C’est good.

Un niveau plus haut, on peut aussi construire des paragraphes avec plus de phrases que de nécessaire, avec un modèle du type :

  • une phrase d’introduction (1 phrase parmi 3)
  • 2 ou 3 phrases interchangeables parmi 5 (disons 6 entrées, dont 1 vide, avec 3 sorties)
  • une phrase de conclusion (1 phrase parmi 3)

On peut ainsi garder une bonne lisibilité, et maximiser la variabilité du résultat. On reste avec un nombre de variantes raisonnable (3 parmi 6 = 120 variantes pour la permutation seule, mais n’oublions pas les variantes liées à l’intro, la conclusion, aux phrases de base elle mêmes qui seront spinnées, et à l’arrangement final des paragraphes… tout se multiplie…).

Ici, on peut déjà remarquer que vouloir augmenter la complexité n’ajoute rien en terme de qualité ou de variabilité: 120 phrases intermédiaires x 3 intro x 3 conclusion = 1080 variantes bien éloignées, juste en terme de structure à ce niveau.

L’abus de permutations est mauvais pour la santé

Si, au lieu de ce montage, on prend toujours 11 phrases (3+5+3), génériques cette fois ci, et qu’on demande 11 phrases en sortie. Même boulot de rédaction, mais … Wha ! on a explosé le nombre de variantes, on a 39 916 800 variations différentes de la structure de notre paragraphe !
Excellent, non ? En plus, on a un texte deux fois plus long, génial, Google va a-do-rer !

Et bien non. C’est se tirer une balle dans le pied, tout simplement.

Problème 1: Une phrase peut se retrouver n’importe où, début ou fin de paragraphe. On a donc des phrases bateau, des paragraphes sans vraie intro ni conclusion, on perd en qualité, en lisibilité.

Problème 2: Dans CHAQUE sortie, on retrouve TOUTES les 11 phrases. Oui, on a créé 39 millions de variantes au lieu de 1080, mais toutes ces variantes contiennent les MEMES éléments de base, alors que dans le cas précédent, il y a toujours des éléments laissés de coté. Dans le cas précédent, le footprint est donc moindre, la similitude entre deux sorties bien moins élevée.

Problème 3: Combien de tirages, de sorties veut-on en pratique ? 39 millions ? ou on se rapproche de 1 000 ?
Dans le premier cas, on a 1 080 structures différentes encodées dans le masterspin, c’est bon. Dans le second cas, on a 39 millions de variations (plus ressemblantes, mais laissons même cela de coté). Quand on va générer un tirage, on n’a aucun moyen à priori de choisir les variations les plus éloignées. On fait confiance au hasard. On ne pourra pas trier 39 millions de tirages pour en filtrer les plus éloignés.
La complexité a caché la diversité, et n’a rien apporté de concret, sinon des contraintes (spin impossible à qualifier, taille phénoménale, incompatibilité avec de nombreux outils)

Ce même phénomène se retrouve au niveau des paragraphes. Inutile de vouloir en faire trop. Limitez au maximum. Quand on travaille sur de petits morceaux de texte, échanger des mots change beaucoup la sortie (on obtient des phrases vraiment différentes). Quand on travaille sur des paragraphes, échanger des paragraphes ne change que fort peu le texte final (les paragraphes eux même restent identiques). Brouiller un peu les cartes, oui. Utiliser toutes les variations possibles, à ce niveau, non, jamais: ça fait plus de mal que de bien.

La variabilité se construit d’abord en amont

Si vous travaillez bien votre spin en amont (phrases sources variées, structure variée – pas que des permutations -, alternatives vides), que vous générez votre masterspin de manière intelligente, en privilégiant la diversité avant tout[2], vous avez fait l’essentiel du travail, et vous avez mis toutes les chances de votre coté, quelle que soit la méthode de tirage de vos textes.

En résumé :

Les permutations, c’est une catastrophe si :

  • Vous n’utilisez que des permutations (n items parmi n) et non des arrangements (p items seulement parmi n)
  • Les textes source à l’entrée de vos permutations sont longs
  • Vous comptez sur les permutations pour générer l’essentiel de la diversité
  • La complexité apportée par vos permutations est supérieure à la diversité des textes d’entrée
  • Cela génère un nombre de variations très supérieur à votre besoin de tirages (ce que vous gagnez en complexité, vous le perdez en diversité)


Les permutations, c’est très bien si :

  • Vous avez en tête un objectif précis, et le nombre de variations nécessaires (et suffisantes).
  • Vous n’utilisez de permutations exhaustives qu’avec un faible nombre d’entrées et/ou de sorties, pour des textes courts.
  • Vos textes d’entrée sont équilibrés et variés
  • Vous utilisez des arrangements (4 items parmi 6 à 8) et des alternatives vides.

Pour dénombrer les permutations (ou les arrangements) d’un ensemble,voir la « permutations cheat sheet« .

Attention: Le nombre de permutations ou d’arrangements seul, la taille du masterspin final, n’est en aucun cas un indicateur de la qualité ou de la diversité possible des sorties. Pour pouvoir générer des sorties variées, il faut y travailler en amont, et la phase de construction du masterspin est essentielle, surtout quand on travaille avec des nombres de variations de l’ordre du million, voir plus.

Pour continuer

Je vous parlerai prochainement d’un autre indicateur que le nombre d’arrangements, bien plus significatif dans le cas du spinning. N’hésitez pas à donner votre avis : utilisez-vous des permutations dans la construction de vos masterspins ? Avez-vous conscience des problématiques que cela apporte, comment gérez-vous la situation ?


Tweeter !
Partager sur Facebook
Plus sur Google+

Autopromo:

[1] xSpin permet d’habiller automatiquement ces éléments sous forme de liste, de tags ul/li, mais aussi, suite à la suggestion d’un utilisateur, de faire des listes « intelligentes » dans le cadre de l’énumération, comme par exemple « Sylvie, Richard et Joël » (une virgule entre les items, mais un « et » ou un « ou » avant le dernier).

[2] Lors de la création du masterspin, xSpin s’ajuste dynamiquement au nombre de variantes et à la taille des textes sources. Il va fournir un masterspin le plus diversifié possible: Quand il y a énormément de variantes possibles, il va intégrer en priorité les variantes les plus éloignées, et surtout pas tout fourrer dans le spin.

Comments are closed.