huyydangg
/

DEk21_hcmute_embedding

Sentence Similarity

sentence-transformers

feature-extraction

Generated from Trainer

dataset_size:100000

loss:MatryoshkaLoss

loss:MultipleNegativesRankingLoss

Model card Files Files and versions Community

huyydangg commited on Jun 17

Commit

bba4ced

·

verified ·

1 Parent(s): 4b1fd15

Update README.md

Files changed (1) hide show

README.md +9 -2

README.md CHANGED Viewed

@@ -472,6 +472,7 @@ Then you can load this model and run inference.
 ```python
 from sentence_transformers import SentenceTransformer
 import torch
 # Download from the 🤗 Hub
 model = SentenceTransformer("huyydangg/DEk21_hcmute_embedding")
@@ -486,9 +487,15 @@ docs = [
     "Điều 51 Luật Hôn nhân và gia đình 2014 quy định về việc kết hôn giữa công dân Việt Nam và người nước ngoài."
 ]
 # Encode query and documents
-query_embedding = model.encode([query])
-doc_embeddings = model.encode(docs)
 similarities = torch.nn.functional.cosine_similarity(
     torch.tensor(query_embedding), torch.tensor(doc_embeddings)
 ).flatten()

 ```python
 from sentence_transformers import SentenceTransformer
 import torch
+from pyvi import ViTokenizer
 # Download from the 🤗 Hub
 model = SentenceTransformer("huyydangg/DEk21_hcmute_embedding")
     "Điều 51 Luật Hôn nhân và gia đình 2014 quy định về việc kết hôn giữa công dân Việt Nam và người nước ngoài."
 ]
+# Tách từ cho query
+segmented_query = ViTokenizer.tokenize(query)
+# Tách từ cho từng dòng văn bản
+segmented_docs = [ViTokenizer.tokenize(doc) for doc in docs]
 # Encode query and documents
+query_embedding = model.encode([segmented_query])
+doc_embeddings = model.encode(segmented_docs)
 similarities = torch.nn.functional.cosine_similarity(
     torch.tensor(query_embedding), torch.tensor(doc_embeddings)
 ).flatten()