o DŒh½ã@s®dZddlZddlmZmZddlmZmZmZddl m Z ddlmZddl mZmZdd lmZd e de fdd „Zdedeeeeffdd„Zddededefdd„ZdS)z< Module regrouping baseline and basic extraction functions. éN)ÚAnyÚTuple)Ú_ElementÚElementÚ SubElement)ÚHtmlElementé)ÚBASIC_CLEAN_XPATH)Ú load_htmlÚtrim)Údelete_elementÚtreeÚreturncCst|ƒD]}t|ƒq|S)z-Remove a few section types from the document.)r r)r Úelem©rúU/home/air/segue/gemini/back/venv/lib/python3.10/site-packages/trafilatura/baseline.pyÚbasic_cleanings rÚfilecontentc CsVt|ƒ}tdƒ}|dur|ddfSd}| d¡D]M}|jred|jvrezt |j¡ dd¡}Wnty9d}Ynw|red|vrQt|ƒ}|durNt| ¡ƒnd}nt|ƒ}|t |dƒ_||rbd |n|7}qt|ƒd krs||t|ƒfSt|ƒ}d}| d¡D]}t| ¡ƒ}t|ƒd krœ|t |dƒ_||r™d |n|7}q~t|ƒdkrª||t|ƒfSt ƒ} d}| dd dddd¡D]!} t| ¡ƒ}|| vrÚ|t |dƒ_||rÒd |n|7}| |¡q¹t|ƒd krè||t|ƒfStdƒ}| d¡}|durt |dƒ} dd„| ¡Dƒ}d dd„|Dƒ¡| _|| jt| jƒfSt|dd}|t |dƒ_||t|ƒfS)a)Use baseline extraction function targeting text paragraphs and/or JSON metadata. Args: filecontent: HTML code as binary string or string. Returns: A LXML element containing the extracted paragraphs, the main text as string, and its length as integer. ÚbodyNÚrz&.//script[@type="application/ld+json"]ÚarticleBodyz

Úpú édz .//articleÚ blockquoteÚcodeÚpreÚqÚquoteú.//bodycSsg|]}t|ƒ‘qSr)r©Ú.0ÚerrrÚ ^ózbaseline..Ú cSsg|]}|r|‘qSrrr rrrr#_r$F)Úclean)r rÚiterfindÚtextÚjsonÚloadsÚgetÚ ExceptionrÚtext_contentrÚlenrÚsetÚiterÚaddÚfindÚitertextÚjoinÚhtml2txt)rr ÚpostbodyÚ temp_textrÚ json_bodyÚparsedr(Úarticle_elemÚresultsÚelementÚentryÚ body_elemÚp_elemÚ text_elemsrrrÚbaselinesj ÿ€€ € rATÚcontentr&cCsLt|ƒ}|dur dS| d¡}|durdS|rt|ƒ}d | ¡ ¡¡ ¡S)zùRun basic html2txt on a document. Args: content: HTML document as string or LXML element. clean: remove potentially undesirable elements. Returns: The extracted text in the form of a string or an empty string. Nrrr)r r2rr4r-ÚsplitÚstrip)rBr&r rrrrr5hs r5)T)Ú__doc__r)ÚtypingrrÚ lxml.etreerrrÚ lxml.htmlrÚsettingsr Úutilsr rÚxmlrrÚstrÚintrAÚboolr5rrrrÚsO