huyydangg commited on
Commit
bba4ced
·
verified ·
1 Parent(s): 4b1fd15

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +9 -2
README.md CHANGED
@@ -472,6 +472,7 @@ Then you can load this model and run inference.
472
  ```python
473
  from sentence_transformers import SentenceTransformer
474
  import torch
 
475
 
476
  # Download from the 🤗 Hub
477
  model = SentenceTransformer("huyydangg/DEk21_hcmute_embedding")
@@ -486,9 +487,15 @@ docs = [
486
  "Điều 51 Luật Hôn nhân và gia đình 2014 quy định về việc kết hôn giữa công dân Việt Nam và người nước ngoài."
487
  ]
488
 
 
 
 
 
 
 
489
  # Encode query and documents
490
- query_embedding = model.encode([query])
491
- doc_embeddings = model.encode(docs)
492
  similarities = torch.nn.functional.cosine_similarity(
493
  torch.tensor(query_embedding), torch.tensor(doc_embeddings)
494
  ).flatten()
 
472
  ```python
473
  from sentence_transformers import SentenceTransformer
474
  import torch
475
+ from pyvi import ViTokenizer
476
 
477
  # Download from the 🤗 Hub
478
  model = SentenceTransformer("huyydangg/DEk21_hcmute_embedding")
 
487
  "Điều 51 Luật Hôn nhân và gia đình 2014 quy định về việc kết hôn giữa công dân Việt Nam và người nước ngoài."
488
  ]
489
 
490
+ # Tách từ cho query
491
+ segmented_query = ViTokenizer.tokenize(query)
492
+
493
+ # Tách từ cho từng dòng văn bản
494
+ segmented_docs = [ViTokenizer.tokenize(doc) for doc in docs]
495
+
496
  # Encode query and documents
497
+ query_embedding = model.encode([segmented_query])
498
+ doc_embeddings = model.encode(segmented_docs)
499
  similarities = torch.nn.functional.cosine_similarity(
500
  torch.tensor(query_embedding), torch.tensor(doc_embeddings)
501
  ).flatten()