Spaces:

dilaksh06
/

nlp-lang-translate-api-backend

Sleeping

dilaksh06 commited on 29 days ago

Commit

3a2b5e7

1 Parent(s): 61abcd2

donedd

Files changed (1) hide show

app.py CHANGED Viewed

@@ -8,9 +8,9 @@ MODEL_NAME = "ai4bharat/indictrans2-indic-indic-1B"
 tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, trust_remote_code=True)
 model = AutoModelForSeq2SeqLM.from_pretrained(MODEL_NAME, trust_remote_code=True)
-# Supported languages: full name -> 3-letter code (IndicTrans2)
 LANGUAGES = {
-    "Assamese": "asm",
     "Bengali": "ben",
     "Gujarati": "guj",
     "Hindi": "hin",
@@ -34,11 +34,9 @@ def translate(text: str, src_lang_name: str, tgt_lang_name: str) -> str:
         src_lang = LANGUAGES[src_lang_name]
         tgt_lang = LANGUAGES[tgt_lang_name]
-        # Format input as required by IndicTrans2
         formatted_text = f"{src_lang}>>{tgt_lang} {text}"
         inputs = tokenizer(formatted_text, return_tensors="pt")
-        # Generate translations
         output_tokens = model.generate(**inputs, max_length=512)
         translation = tokenizer.decode(output_tokens[0], skip_special_tokens=True)

 tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, trust_remote_code=True)
 model = AutoModelForSeq2SeqLM.from_pretrained(MODEL_NAME, trust_remote_code=True)
+# Supported languages: full name -> code
 LANGUAGES = {
+  "Assamese": "asm",
     "Bengali": "ben",
     "Gujarati": "guj",
     "Hindi": "hin",
         src_lang = LANGUAGES[src_lang_name]
         tgt_lang = LANGUAGES[tgt_lang_name]
         formatted_text = f"{src_lang}>>{tgt_lang} {text}"
         inputs = tokenizer(formatted_text, return_tensors="pt")
         output_tokens = model.generate(**inputs, max_length=512)
         translation = tokenizer.decode(output_tokens[0], skip_special_tokens=True)