Initial attempt at parsing Markdown-like syntax

2025-09-02 18:25:02 +03:00 · 2017-10-28 19:06:41 +02:00 · 2017-10-28 19:06:41 +02:00 · 5adec2e1ab
commit 5adec2e1ab
parent e48f15be80
1 changed files with 107 additions and 0 deletions
--- a/telethon/extensions/markdown.py
+++ b/telethon/extensions/markdown.py
@ -0,0 +1,107 @@
 """
 Simple markdown parser which does not support nesting. Intended primarily
 for use within the library, which attempts to handle emojies correctly,
 since they seem to count as two characters and it's a bit strange.
 """
 import re
 from enum import Enum
 from ..tl.types import (
    MessageEntityBold, MessageEntityItalic, MessageEntityCode, MessageEntityPre
 )
 class Mode(Enum):
    """Different modes supported by Telegram's Markdown"""
    NONE = 0
    BOLD = 1
    ITALIC = 2
    CODE = 3
    PRE = 4
 EMOJI_PATTERN = re.compile(
    '['
    '\U0001F600-\U0001F64F'  # emoticons
    '\U0001F300-\U0001F5FF'  # symbols & pictographs
    '\U0001F680-\U0001F6FF'  # transport & map symbols
    '\U0001F1E0-\U0001F1FF'  # flags (iOS)
    ']+', flags=re.UNICODE
 )
 def is_emoji(char):
    """Returns True if 'char' looks like an emoji"""
    return bool(EMOJI_PATTERN.match(char))
 def emojiness(char):
    """
    Returns the "emojiness" of an emoji, or how many characters it counts as.
    1 if it's not an emoji, 2 usual, 3 "special" (seem to count more).
    """
    if not is_emoji(char):
        return 1
    if ord(char) < ord('🤐'):
        return 2
    else:
        return 3
 def parse(message, delimiters=None):
    """
    Parses the given message and returns the stripped message and a list
    of tuples containing (start, end, mode) using the specified delimiters
    dictionary (or default if None).
    """
    if not delimiters:
        if delimiters is not None:
            return message, []
        delimiters = {
            '**': Mode.BOLD,
            '__': Mode.ITALIC,
            '`': Mode.CODE,
            '```': Mode.PRE
        }
    result = []
    current = Mode.NONE
    offset = 0
    i = 0
    while i < len(message):
        for d, m in delimiters.items():
            if message[i:i + len(d)] == d and current in (Mode.NONE, m):
                if message[i + len(d):i + 2 * len(d)] == d:
                    continue  # ignore two consecutive delimiters
                message = message[:i] + message[i + len(d):]
                if current == Mode.NONE:
                    result.append(offset)
                    current = m
                else:
                    result[-1] = (result[-1], offset, current)
                    current = Mode.NONE
                break
        offset += emojiness(message[i])
        i += 1
    if result and not isinstance(result[-1], tuple):
        result.pop()
    return message, result
 def parse_tg(message, delimiters=None):
    """Similar to parse(), but returns a list of MessageEntity's"""
    message, tuples = parse(message, delimiters=delimiters)
    result = []
    for start, end, mode in tuples:
        if mode == Mode.BOLD:
            result.append(MessageEntityBold(start, end - start))
        elif mode == Mode.ITALIC:
            result.append(MessageEntityItalic(start, end - start))
        elif mode == Mode.CODE:
            result.append(MessageEntityCode(start, end - start))
        elif mode == Mode.PRE:
            result.append(MessageEntityPre(start, end - start, ''))
    return message, result