Update README.md
Browse files
README.md
CHANGED
@@ -472,6 +472,7 @@ Then you can load this model and run inference.
|
|
472 |
```python
|
473 |
from sentence_transformers import SentenceTransformer
|
474 |
import torch
|
|
|
475 |
|
476 |
# Download from the 🤗 Hub
|
477 |
model = SentenceTransformer("huyydangg/DEk21_hcmute_embedding")
|
@@ -486,9 +487,15 @@ docs = [
|
|
486 |
"Điều 51 Luật Hôn nhân và gia đình 2014 quy định về việc kết hôn giữa công dân Việt Nam và người nước ngoài."
|
487 |
]
|
488 |
|
|
|
|
|
|
|
|
|
|
|
|
|
489 |
# Encode query and documents
|
490 |
-
query_embedding = model.encode([
|
491 |
-
doc_embeddings = model.encode(
|
492 |
similarities = torch.nn.functional.cosine_similarity(
|
493 |
torch.tensor(query_embedding), torch.tensor(doc_embeddings)
|
494 |
).flatten()
|
|
|
472 |
```python
|
473 |
from sentence_transformers import SentenceTransformer
|
474 |
import torch
|
475 |
+
from pyvi import ViTokenizer
|
476 |
|
477 |
# Download from the 🤗 Hub
|
478 |
model = SentenceTransformer("huyydangg/DEk21_hcmute_embedding")
|
|
|
487 |
"Điều 51 Luật Hôn nhân và gia đình 2014 quy định về việc kết hôn giữa công dân Việt Nam và người nước ngoài."
|
488 |
]
|
489 |
|
490 |
+
# Tách từ cho query
|
491 |
+
segmented_query = ViTokenizer.tokenize(query)
|
492 |
+
|
493 |
+
# Tách từ cho từng dòng văn bản
|
494 |
+
segmented_docs = [ViTokenizer.tokenize(doc) for doc in docs]
|
495 |
+
|
496 |
# Encode query and documents
|
497 |
+
query_embedding = model.encode([segmented_query])
|
498 |
+
doc_embeddings = model.encode(segmented_docs)
|
499 |
similarities = torch.nn.functional.cosine_similarity(
|
500 |
torch.tensor(query_embedding), torch.tensor(doc_embeddings)
|
501 |
).flatten()
|