## TP n°2 : recherche des anagrammes

### Première partie: mise en place

1. On part d'un fichier texte qui est chargé en mémoire sous la forme d'une liste de lignes.
2. A partir de ce fichier, il est d'abord demandé de construire un *lexique* : la liste de tous les mots apparaissant dans le fichier. On peut utiliser la fonction `split()` ou essayer d'améliorer le découpage. 
3. Ecrire une fonction booléenne `anagramme(x,y)` qui détermine si les deux mots x et y sont des anagrammes l'un de l'autre. On peut utiliser la combinaison de fonctions `sorted(list(x))`.
4. Au moyen d'un double parcours du lexique, afficher toutes les paires de mots qui sont des anagrammes.
5. Construire un dictionnaire indiquant, pour chaque mot du lexique, la liste de ses anagrammes



In [5]:
def charge_fichier():
    lgns = []
    with open("demo-file-utf8.txt", "r", encoding="utf8") as f:
        for ligne in f:
            lgns.append(ligne.strip())
    return lgns

1. Chargement du fichier 
(on affiche le nombre de lignes)

In [6]:
liste_lignes = charge_fichier()
print('Le fichier contient %d lignes.' % len(liste_lignes))

Le fichier contient 5823 lignes.


2. Construction du lexique

In [7]:
# On suppose liste_ligne[] déjà définie
lexique = []
for l in liste_lignes:
    for w in l.split():
        if w not in lexique:
            lexique.append(w)
print('Le lexique formé comprend %d formes.' % len(lexique))

Le lexique formé comprend 16023 formes.


3. Fonction `anagramme` qui utilise l'idiome proposé.
La fonction est essayée avec deux valeurs de test.

In [8]:
def anagramme(a,b):
    return sorted(list(a)) == sorted(list(b))
for x,y in [("maison","bateau"),("lequel","quelle")]:
    print("Les mots '%s' et '%s' %s des anagrammes" % (x,y,"sont" if anagramme(x,y) else "ne sont pas"))

Les mots 'maison' et 'bateau' ne sont pas des anagrammes
Les mots 'lequel' et 'quelle' sont des anagrammes


4. Parcours de toutes les paires de mots

In [9]:
# Stratégie la plus brutale
#for w in lexique:
#    for x in lexique:
#        if x != w and anagramme(x,w):
#            print (x,w)

# un peu plus simple: on ne teste les paires x,y que si x < y 
for x in lexique[:1500]:
    for y in lexique[:1500]:
        if x < y and anagramme(x,y):
            print (x,y)

en ne
mon nom
lequel quelle
nos son
courses sources


5. Construction du dictionnaire

In [10]:
base_anag = {}
for x in lexique[:1500]:
    for y in lexique[:1500]:
#        print(x,y,len(base_anag))
        if x < y and anagramme(x,y):
            if x in base_anag.keys():
                base_anag[x].append(y)
            else:
                base_anag[x] = [y]

In [11]:
base_anag

{'en': ['ne'],
 'mon': ['nom'],
 'lequel': ['quelle'],
 'nos': ['son'],
 'courses': ['sources']}

### Deuxième partie: amélioration

1. Le lexique a été obtenu par un brutal `split()`. En utilisant d'autres ressources (tokenizers existants ou simples regex) on peut beaucoup améliorer la qualité des résultats obtenus dans la première partie.
2. La plupart du temps, les anagrammes sont définies sans tenir compte des diacritiques (par exemple _grenades_ est considérée comme une anagramme de _déranges_). Mettre en place une stratégie pour générer les anagrammes correspondant à cette définition. 
3. Il arrive que l'on admette aussi la présence d'espace (ou d'autres signes comme les apostrophes). Par exemple on peut associer _Le commandant Cousteau_ à _Tout commença dans l'eau_ (dans cet exemple, il faut non seulement ignorer les espaces et l'apostrophe, mais aussi la cédille, et les majuscules). Pour permettre la recherche de ces anagrammes plus étendues, on fait quelques hypothèses:
    - les anagrammes impliquent des suites de mots, mais les mots doivent être contigus et entièrement pris en compte (pas de portions de mots)
    - le nombre de mots considérés est limité à 4. 