|
| Precedente :: Successivo |
| Autore |
Messaggio |
Zeus News Ospite
|
|
| Top |
|
 |
{mionome} Ospite
|
Inviato: 29 Gen 2026 12:22 Oggetto: |
|
|
In superficie le intefacce variano, ma gli LLM sottostanti sono sempre gli stessi tre o quattro.
Un appiattimento che sicuramente non fa bene alla formazione e all'informazione, che al posto di allargarsi sta diventando sempre più culturocentrica. |
|
| Top |
|
 |
Johannes Mortale adepto

Registrato: 11/12/19 14:04 Messaggi: 35
|
Inviato: 30 Gen 2026 00:52 Oggetto: |
|
|
Di questo me no ero accorto anch'io - e da un bel po' di tempo - ma qualcosa mi dice che siano anche meno di quegli "stessi tre o quattro", come dici tu. A diversi di questi che stavo provando, dopo averli colti con le mani nella marmellata - ho potuto estorcere anche l'ammissione che erano l'interfaccia con SaaS di (uno dei principali, probabilmente, *Il* principale, dei motori LLM). Quello che mi ha lasciato di stucco era che anche <quel famoso LLM cinese> mostrava gli indizi di essere (al massimo gli darei il beneficio del dubbio che il verbo ausiliario potesse cambiare in "avere") un interfaccia SaaS con quel motore non menzionato, ma sottointeso, prima. "Il cinese" giurava e spergiurava di non aver a che fare con il LLM americano, ma ho potuto estorcere l'ammissione che utilizzava (un pochino) l'architettura Transformer, cosa che per se - a mio parere - non sarebbe sufficente come spiegazione di tante somiglianze nella struttura e nel contenuto delle risposte, ma poi aveva ammesso che è possibile che anche qualche dato poteva "scapparci", e che non sarebbe nulla di strano, dato che lui, il LLM cinese, sta imparando da dati a destra e a manca. Una delle corroborazioni della mia tesi l'ho avuta (anche) leggendo il blog di Larry Johnson, che ha avuto la pazienza di Giobbe mettendosi a interrogare "il Cinese", e l'esito lo potete vedere qui: https://sonar21.com/my-debate-with-deepseek/
Avrei anche delle spiegaziomi sulle ragioni di questo, ma il discorso esulerebbe troppo dall'argomento di partenza e mi ci vorrebbero più pagine di quanto questo forum accetterebbe (e tanto, tantissimo, tempo per elaborare tutto). Sarà - forse - argomento di qualche altra discussione...
E, si, anche qui hai ragione "Un appiattimento che sicuramente non fa bene alla formazione e all'informazione, che al posto di allargarsi sta diventando sempre più culturocentrica".
Aggiungerei, anzi, prependerei la parola "plutocratocentrica", con le loro agende, che - sembra - in pochi si stiano rendendo conto dove stanno portando (e non è che manchino gli indizi e - anche - prove complete). Tutti troppo occupati a masturbare il proprio schermino in cerca di contenutii futili. |
|
| Top |
|
 |
Gladiator Dio maturo


Registrato: 05/12/10 21:32 Messaggi: 15152 Residenza: Purtroppo o per fortuna Italia
|
Inviato: 08 Feb 2026 18:20 Oggetto: |
|
|
In realtà, provando ad analizzare il panorama direi che gli LLM totalmente indipendenti fra di loro intesi come segue:
- addestramento autonomo (dataset e pipeline proprie)
- pesi originali, non fork diretti
- nessuna dipendenza strutturale da altri modelli
- governance separata (azienda, stato, fondazione)
Sono un pochino di più, in USA/Europa sono 7:
- OpenAI: Modelli: GPT-4.x / GPT-5, addestramento: proprietario, influenza: dominante, volenti o nolenti
- Google DeepMind: Modelli: Gemini, addestramento: interno Google, sStack completamente chiuso e verticale
- Anthropic: Modelli: Claude, dataset e RLHF propri, filosofia safety-first, per davvero
- Meta: Modelli: LLaMA, indipendente nell'addestramento, anche se open-weight, mezza internet ci campa sopra
- xAI: Modelli: Grok, addestramento autonomo, fortemente integrato con X
- Amazon: Modelli: Titan, interni AWS, non derivativi, poco visibili, molto usati
- Mistral AI: Modelli: Mistral / Mixtral, addestramento europeo, l’unico vero contendente UE
In Cina sono 4:
- Baidu: Modello: ERNIE, addestramento e dataset cinesi, ecosistema chiuso
- Alibaba: Modello: Qwen, stack proprietario, molto più serio di quanto sembri
- Tencent: Modello: Hunyuan, addestramento interno, forte su multimodalità
- ByteDance: Modello: Doubao, indipendente, orientato consumer, TikTok non è un caso
In quanto a DeepSeek, che credo sia il soggetto citato da Johannes, si tratta di un laboratorio cinese che sviluppa LLM open-weight molto preformanti, soprattutto su:
- coding
- reasoning matematico
- costo/efficienza
Però, nella definizione che ho dato prima, non è indipendente perché:
Usa architetture Transformer standard, fortemente allineate a modelli GPT-style decoder-only e tecniche già consolidate da OpenAI / Meta / Google quindi nessuna architettura fondativa nuova.
È fortemente collegato a:
- Meta (LLaMA come base concettuale)
- Mistral AI (approcci MoE, efficienza)
Non nel senso “copia-incolla”, ma usa stessi pattern di training, stessi trick di scaling e stessa filosofia di compressione e distillazione.
È un po’ come dire: non hai copiato il compito, ma hai studiato dallo stesso libro. Con le sottolineature già fatte.
Infine DeepSeek ha distillato output di modelli chiusi occidentali, usato tecniche di synthetic data generation, raffinato il comportamento su risposte “stile GPT”
Questo crea una dipendenza comportamentale: il modello non condivide i pesi, ma eredita il modo di ragionare.
In una frase: DeepSeek sta a GPT tanto quanto Android custom sta a Linux: potente, libero, ma non originario. |
|
| Top |
|
 |
|
|
Non puoi inserire nuovi argomenti Non puoi rispondere a nessun argomento Non puoi modificare i tuoi messaggi Non puoi cancellare i tuoi messaggi Non puoi votare nei sondaggi
|
|