NLP: Processamento del Linguaggio Naturale
Come l'AI capisce il linguaggio umano
📌Da Testo a Numeri
- Tokenizzazione — spezza il testo in parole o sub-parole,
- Embedding — trasforma ogni token in un vettore di numeri che rappresenta il significato. Esempio: la parola "re" potrebbe essere [0.2, 0.8, -0.1, ...]. Parole simili hanno embedding simili. In una app reale servono anche fallback, validazione e gestione contesto, per mantenere alta la qualita percepita. Nota pratica: applica il concetto in un mini scenario reale prima del deploy. Takeaway: Il contesto guida la qualità: prompt e tokenizzazione fanno la differenza.
🖼️ Infografica
In arrivoMini infografica con schema e parole chiave della sezione.
media/ch06-nlp/sec-01/infographic.png
📌Transformer e Attention
Transformer è l'architettura usata da ChatGPT. L'innovation chiave è Attention: il modello decide automaticamente quale parte del testo è importante per fare una previsione. Se leggi "Il gatto ha mangiato il pesce", Attention capisce che "gatto" è importante per il verbo "ha mangiato", non "il". Questa capacità di focus è rivoluzionaria. In una app reale servono anche fallback, validazione e gestione contesto, per mantenere alta la qualita percepita. Nota pratica: applica il concetto in un mini scenario reale prima del deploy. Takeaway: Il contesto guida la qualità: prompt e tokenizzazione fanno la differenza.
🖼️ Infografica
In arrivoMini infografica con schema e parole chiave della sezione.
media/ch06-nlp/sec-02/infographic.png
🎯 Punti Chiave
- •Il linguaggio deve essere convertito in numeri
- •Attention mechanism = "cosa è importante"
- •Transformer = base di ChatGPT e moderni LLM
- •Context window = quante parole ricorda il modello
- •Learning outcome: spiegare token/embedding/attention su un esempio pratico
💬 Discussione in Aula
- •Come cambierebbe ChatGPT se non avesse Attention mechanism?
- •Qual è il limite della context window e come potrebbe impattare la comprensione?
- •Se due parole hanno embedding molto simili, cosa significa?
Media del Capitolo
0/4 prontiGli slot con media reale non sono più placeholder; gli altri restano placeholder finché non carichiamo i file.
🎬 Video
In arrivoSpiegazione visuale del capitolo (8-12 min) con esempi pratici.
Durata target: 8-12 min
Path previsto: media/ch06-nlp/video.mp4
🎙️ Podcast
In arrivoVersione audio con casi reali, errori comuni e takeaway operativi.
Durata target: 10-15 min
Path previsto: media/ch06-nlp/podcast.mp3
🖼️ Infografica
In arrivoSintesi visuale: 5 punti chiave, 1 warning, 1 mini framework.
Path previsto: media/ch06-nlp/infographic.png
📄 Risorsa
In arrivoMateriale scaricabile per studio e esercitazione guidata.
Path previsto: media/ch06-nlp/handout.pdf
💻 Code Snippets
Tokenizzazione con HuggingFace Transformers
python
Word Embeddings con Word2Vec
python
🧠 Quiz del Capitolo
1. Tokenizzazione nel NLP e?
2. Attention aiuta a?
3. Embedding rappresenta?