解析html，如何获取无标签文本

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 4935 天前的主题，其中的信息可能已经有所发展或是发生改变。

获取的页面如下形式<div>循环，用simple_html_dom对其解析时想提取位置为“ 你好，转发的赠书大概什么时候送到，上海的，谢谢”这样的无标签的文本，求解答

<div class="c">
<span class="cmt"><a href="...">游完1200才閃</a> 对 我 说:</span>
你好，转发的赠书大概什么时候送到，上海的，谢谢 
<span class="ct">2011-09-16 21:17:35</span> <a href="....." class="cc">回复他 </a> <a href="......." class="cc">共3条对话</a>
</div>

nbsp

class

span

7 条回复 • 1970-01-01 08:00:00 +08:00

laiwei

2012-03-01 16:11:52 +08:00 via Android

pastebin.com/q0FZ1bNJ

请看看我写的这段代码

flyphy

2012-03-01 16:18:46 +08:00

@laiwei 不是太懂python，只会php.
刚考虑了下用正则提取</span> <span 之间的字符串就行，能否指导如何匹配

lcxz

2012-03-01 16:19:23 +08:00

用正规则表达式将div内的标签去掉就剩下你想要的内容了

flyphy

2012-03-01 16:24:34 +08:00

@lcxz 大牛，求php的正则写法

phus

2012-03-01 16:28:15 +08:00

HTML = u'''\
<div class="c">
<span class="cmt"><a href="...">游完1200才閃</a> 对 我 说:</span>
你好，转发的赠书大概什么时候送到，上海的，谢谢 
<span class="ct">2011-09-16 21:17:35</span> <a href="....." class="cc">回复他 </a> <a href="......." class="cc">共3条对话</a>
</div>
'''

def main():
tree = lxml.etree.fromstring(HTML, lxml.etree.HTMLParser())
print ''.join(x.strip() for x in tree.xpath('//div[@class="c"]/text()'))

linlinqi

2012-03-01 16:32:55 +08:00

php的话，看看phpQuery. http://code.google.com/p/phpquery/

orzzzzz

2012-03-01 17:45:32 +08:00

simpledom里find(".cmt")后,取innerText?